您当前的位置: 首页 > 业务范围

星空体育综合:腾讯重磅反击!finLLM-Eval 助力金融大模型精准评测离别数据错觉!

来源:星空体育综合    发布时间:2026-01-23 08:58:03

星空体育手机:

  在人工智能快速地开展的今日,金融职业对数据的准确性和安全性提出了更高的要求。腾讯最近宣告开源了一款名为 finLLM-eval 的评测东西,专为大模型在金融场景中的使用而规划。这一东西在职业界初次引进了无 GroundTruth 的金融数据准确性评测办法,添补了当时市场上对大模型金融范畴评测的空白,旨在推进 AI 技能在高风险、高要求的金融范畴的安全落地。

  finLLM-eval 的中心才能包含多个模块,特别杰出的是逻辑一致性与现实准确性评测模块。该模块不只供给完好的工程代码和示例评测集,还支撑用户自定义评测集,可以主动化输出模型体现的概况信息。用户将取得包含总分、错误点散布、千字错觉率等在内的完好评测陈述,帮他们进一步探究模型的实践体现。

  此外,finLLM-eval 还具有端到端金融数据准确性比照模块。这个技能方案的最大亮点在于,它可以在无 GroundTruth 的情况下,根据实在用户的问答主动提取金融现实的三要素 ——“标的 × 时刻 × 目标”,并经过内部金融数据库做验证,省去了人工标示的繁琐。

  更为智能的是,finLLM-eval 引进了 AgentAsJudger 的主动化评测机制。整个评测进程无需人工干预,AI Agent 能主动提取现实点与逻辑链,并与相关联的内容或金融数据库进行比对,准确率高达 96% 以上。这一立异不只提高了评测功率,也保证了评测成果的可靠性。

  展望未来,项目团队方案不断迭代 finLLM-eval,未来将支撑非金融目标的数据核验及成果归因等才能,助力金融科技的继续不断的开展与完善。回来搜狐,检查更加多

,星空体育首页