Claude-3与GPT-4并列第一，成为LMSYS Org平台“最佳”大语言模型

3 月 28, 2024 #Claude, #GPT-4, #LMSYS Org

ITCOW牛新网 3月28日消息，近日LMSYS Org公布了一份最新的基准测试报告，引起了广泛关注。LMSYS Org，这个由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学联合创立的研究组织，一直致力于评估和比较大型语言模型（LLM）的性能。其推出的Chatbot Arena平台通过众包方式匿名、随机对抗测评大模型产品，为用户提供了一个相对公正的评估环境。

Claude-3

自Chatbot Arena平台去年上线以来，GPT-4一直稳居榜首，成为了评估大模型的黄金标准。然而，就在昨天，Anthropic推出的Claude-3 Opus以微弱优势击败了GPT-4，OpenAI的LLM被挤下了榜首位置。具体来说，Claude-3 Opus以1253比1251的比分险胜GPT-4。由于比分过于接近，LMSYS Org出于误差率方面的考量，决定让Claude-3和GPT-4并列第一，GPT-4的另一个预览版也并列第一。

Claude-3与GPT-4并列第一，成为LMSYS Org平台“最佳”大语言模型

Claude-3与GPT-4并列第一，成为LMSYS Org平台“最佳”大语言模型

Claude-3与GPT-4并列第一，成为LMSYS Org平台“最佳”大语言模型

除了Claude-3 Opus的出色表现外，另一个值得关注的亮点是Claude-3系列的另一个成员——Haiku。作为Anthropic的local size模型，Haiku在速度上拥有显著优势，因为它比拥有数万亿参数的Opus要小得多。根据LMSYS的数据，Haiku在排行榜上名列第七，展现出了与GPT-4相媲美的性能。

相关文章

ChatGPT 周活跃用户突破 3 亿，OpenAI 宣布多项新计划

腾讯混元大模型上线开源文生视频能力，支持高质量视频生成

OpenAI遭加拿大五大媒体起诉，指控非法抓取新闻训练AI模型

更多资讯

美团核心本地商业板块调整架构，聚焦技术研发与协同效应

2024年 12月 5日

微软发布 Windows 11 Build 27758 预览版，修复多项问题并优化功能

2024年 12月 5日

ChatGPT 周活跃用户突破 3 亿，OpenAI 宣布多项新计划

2024年 12月 5日

领克 Z20 小型纯电 SUV 将于 12 月 22 日上市，预售价 14.6 万起

2024年 12月 4日