腾讯重磅反击！finLLM-Eval 助力金融大模型精准评测离别数据错觉！_星空体育首页 - 综合赛事平台

导

航

矿业

您当前的位置：首页 > 业务范围

星空体育综合:腾讯重磅反击！finLLM-Eval 助力金融大模型精准评测离别数据错觉！

来源：星空体育综合发布时间：2026-01-23 08:58:03

星空体育手机:

在人工智能快速地开展的今日，金融职业对数据的准确性和安全性提出了更高的要求。腾讯最近宣告开源了一款名为 finLLM-eval 的评测东西，专为大模型在金融场景中的使用而规划。这一东西在职业界初次引进了无 GroundTruth 的金融数据准确性评测办法，添补了当时市场上对大模型金融范畴评测的空白，旨在推进 AI 技能在高风险、高要求的金融范畴的安全落地。

finLLM-eval 的中心才能包含多个模块，特别杰出的是逻辑一致性与现实准确性评测模块。该模块不只供给完好的工程代码和示例评测集，还支撑用户自定义评测集，可以主动化输出模型体现的概况信息。用户将取得包含总分、错误点散布、千字错觉率等在内的完好评测陈述，帮他们进一步探究模型的实践体现。

此外，finLLM-eval 还具有端到端金融数据准确性比照模块。这个技能方案的最大亮点在于，它可以在无 GroundTruth 的情况下，根据实在用户的问答主动提取金融现实的三要素 ——“标的 × 时刻 × 目标”，并经过内部金融数据库做验证，省去了人工标示的繁琐。

更为智能的是，finLLM-eval 引进了 AgentAsJudger 的主动化评测机制。整个评测进程无需人工干预，AI Agent 能主动提取现实点与逻辑链，并与相关联的内容或金融数据库进行比对，准确率高达 96% 以上。这一立异不只提高了评测功率，也保证了评测成果的可靠性。

展望未来，项目团队方案不断迭代 finLLM-eval，未来将支撑非金融目标的数据核验及成果归因等才能，助力金融科技的继续不断的开展与完善。回来搜狐，检查更加多

,星空体育首页

上一篇:昭通市委关于制定昭通市国民经济与社会持续健康发展第十五个五年规划的建议

下一篇:杭州发“AI开源政策包”！千万级补贴、“喂饭级”场景清单、中国最大开源社区“大本营”就位

联系我们

发送短信

拨打电话

首页