趣购彩首页登录

<i id='ani2oW'></i>

_{<blockquote id='ani2oW'><q id='ani2oW'><noscript id='ani2oW'></noscript><dt id='ani2oW'></dt></q></blockquote><noframes id='ani2oW'><i id='ani2oW'></i>}

NEWS CENTER

新闻中心

当前位置：首页 > 在线官网

谁是最强“AI记者”？每日经济新闻大模型评测报告（第1期）发布

来源：金年会·诚信至上金字招牌更新时间：2024-06-27 06:00:53

生成式AI大模型正在深刻改变媒体行业，AI记者为内容创作与传播带来了革命性的最强变化。

那么，每日面对“百模大战”，经济面对市面上数量众多的新闻型评大模型，媒体行业工作者或内容创作者，大模究竟该如何选择大模型？在内容创作的测报特定场▂景选择哪个大模型？

面对上述困惑，近期，告第由30余位每日经济新闻优秀记者、AI记者编辑和子公司每经科技工程师组建的最强“每日经济新闻大模型︾评测小组”，对市场上主流大模型在财经新闻工作场景中的每日表现与能力进行了历时2个月的深入评测」，并推出《每日经济新闻大模型评测报告》（第1期）。经济

“每日经济新闻大模型评测小组”此次选取了GPT4.0、新闻型评百度文心、大模月之暗面∏等15款市场主流的测报国内外大模型进行测试。图为2023世界人工智能大会上的百度文心大模型展台。视觉♀中国图

《每日经济新闻大模型评测报告》（第1期）显示，国产大模型正在全面赶超海外大模型，零一万物的Yi-Large成为最大“黑马”，在“财经新闻标题创作”“微博新闻写∮作”“文章差错校对”“财务数据▽计算与分析”四大应用场景的总▲分排名第一。幻方求索DeepSeek-V2、百川智能Baichuan4则在“财务数据计算与分析”场景显示出强大的数□　据计算和分析能力。而一直备受各界推崇的GPT4.0在本次评测中∮表现不佳，甚至在“财经新闻标题创作”场景中排名垫底。

每日经济新闻作为中国主流财经媒体，早在2020年就提出“AI化+视频化”的科技智媒转型战略，陆续推◥出每经AI快讯系统，每经AI电视，雨燕智宣——AI短视频自动生成平台，智能媒资库◢等一系列AI产品，赢得市场赞誉。同时，在生成式AI爆发后，每经众多采编人员深耕大模型领域，涌现了30余位优秀的提示工程师和技术工程师。专业的╳财经新闻采编能力与不断深耕的AI技术能力，为大模型评测提供了坚实保障。

后续，“每日经济新闻大模型评测小组”将围绕更多的大模型应用场景，定期发布大模型评测报告。

《每日经济新闻大模型评测报告》的目的，是关注企业和个人用户的实际需求，通过评测大模型在实际应用场景中的表现，进而帮助用⌒　户在工作、学习、生活等场景中，找到最合适的大模型工具，提升效率。

为此，“每日经济新闻大模型评测小组”选取了GPT4.0、百度文心、月之暗面等15款市场主流的国内外大模型，围绕“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四个财经新闻的主要应用场景进行测评。评测均通过各款大↘模型API端口，在每〗经科技自主开发的“雨燕智宣AI创作+”大模型测试台上进行。评测结果出来后，由15位每日经济新闻资深记者和编辑进行严格人工核准、评分和排名。

评测结果显示，零一万物的Yi-Large成为“黑马”，总分排名第一。Anthropic Claude 3 Opus和幻方求索DeepSeek-V2分居第二、第三。各个大模型在不同场景和不同任务中的表现差异明显。GPT4.0的表现令人意外，仅名列倒数第五。

每日经济新闻大模型评测小组 2024年6月

15款大模型参与本期评测

结论一：国产大模型正全面赶超

国产大模型正逐渐展现出其竞争力。与国外大模型相比，它们在多个任务上的表现已经显示出赶超之势。

国产大模型在多个测试场景中排名靠前。商汤商量SenseChat-5三次占据前五席位，PG电子·(中国)官方网站-IOS/安卓版/手机APP官网下载两次击败谷歌Gemini 1.5 Pro。在国外模型中，Anthropic Claude 3 Opus同样在三个测评场景中排名前五，谷歌Gemini 1.5 Pro在“财经新闻标题创作”和“文章差错校对”两个场景中排名第一。令人意外的是，一直备受各界推崇的GPT4.0却在本次评测中整体表现不佳，在每个场景◥中都未能斩获前五名，甚至在“财经新闻标题创作”中排名垫底。

“财经新闻标题创作”场景中，商汤商量SenseChat-5、字节豆包Doubao-pro-32k和百度ERNIE 4.0等，在信息提炼准确度和重要新闻点突出方面与谷歌的Gemini 1.5 Pro不相上下。

“微博新闻写作”场景中，百度文心ERNIE4.0、商汤SenseChat-5等模型的⌒总分与国外模型Anthropic Claude 3 Opus并列第一。

“文章差错校对”场景中，零一万物的YiLarge是唯一一款得分超过100分的国产大模型。国产大模型比国外大模型更能理解汉语句式和表达规范。但在查找并修改错别字∑　、标点使用不当、数字和量①词错误、事实和信息错误等要求更精准的任务方面，还有提升空间。

“财务数据计算和分析”场景中，Anthropic Claude 3 Opus总分虽领先，但对幻方求索DeepSeek-V2和零一万物Yi-Large的优势并不大。尤其是幻方求索DeepSeek-V2成为此场景评测中一匹“黑马”，其“财务数据〖分析”能力突出。

结论二：大模型各有专长

不同模型在特定场景、特定维度、特定指标上的表现差异显著。体现了它们在各自领域的专长。

例如，谷歌Gemini 1.5 Pro在“财经新闻标题创作”和“文章差错校对”两大场景中排名第一。在“微博新闻写作”场景中，该模型整体排名靠后。

Anthropic Claude 3 Opus、幻方求索DeepSeek-V2、百川智能Baichuan4则显示出了强大的数据计算能力。

结论三：跨语言环境下差异明显

以“微博新闻写作”场景为例，百度文心ERNIE 4.0、商汤商量SenseChat-5与Anthropic Claude 3 Opus并列第一。这反映了国产大模型在微博这一国内社交媒体场景下的卓越表现。国产大模型更能够准确把握微博用户的内容偏好和交流【方式，生成符合平台特性和用户期待的微博文案。

相比之下，谷歌Gemini 1.5 Pro在微博写作的运营维度上得分为0，可能源于其对微博平台特性和用户行为的不熟悉。

在中文语「境之下，GPT4.0在全部4个场景中的排名均不理想。这一现象突显了大模型在跨※语言和文化环境中的适应性问题，也表明了国产大模型在本土化应用上具有天然优势。

结论四：信息提取能力参差不齐

从文章中准确▆提取关键信息，是对大模型能力的一项关键挑战。本期评测中“文章差错校对”场景包含了对这一能力的测试。

谷歌Gemini 1.5 Pro凭借其在错别字、标点使用不当、数字和量词错误、事实和信息错误的查找和纠错方面与其他大模型拉开了差距。

相比之下，零一万物Yi-Large在病句查找和纠错方面则位居首位，本可以挑战谷歌Gemini 1.5 Pro，但在ω　错误查找方面的表现拖了后腿。

大模型信息提取能力的差异可能与模型的训练数据、算法设计以及对语言细微差别的捕捉能力有关。增强大模型的信息提取能力，可以提高其生成结果的准确度，更能让大模型适用于对准确◎性要求极高的新闻工作。

报告完整版以及测评题目，评分指标细则及部分案例，可访问：每日经济新闻大模型评测报告（第1期）

接下来，“每日经济新闻大模型评测小组”将继续深入探索大模型的无限可能，从实际应用场景出发，对各个大模型进行全方位评测，并定期推出专业报告，带来最前卐沿的洞察和发现。

在此，我们诚挚地邀请您，加入评々测项目。

如果您是研发企业，想要展示自家大模型的实力，与其他大模型进行比拼，请将参评大模型的详细信息发送至我们█的邮箱：damoxing@nbd.com.cn。

如果您是大模型的使用者，请告诉我们您希望在哪些↓场景中使用大模型，或者希望我们测试大模型的哪些能力。打开每日经济新闻△App，在“个人中心”——“意见反馈”栏中留下您的想法和需求。

期待您的参与，共ㄨ同探索大模型的无限可能。

封面图片来源：视觉中国

上一篇：独家丨阿迪达斯中国公布调查结果：被举报高管已离开公司

下一篇：柏维力创始人←陈斌：下一步将加强人工智能领域布局

相关文章

新闻中心分类: 2023最新官网; 官方APP下载

现货产品MORE