ITCOW牛新网 2月25日消息,人工智能公司Anthropic宣布推出其首款“混合推理模型”——Claude 3.7 Sonnet。据称该模型能够解决更复杂的问题,在数学和编码等领域的性能超越了之前的模型。

Anthropic发布Claude 3.7 Sonnet

Anthropic表示,这是其迄今为止“最智能”的AI模型,融合了“推理模式”(用于深度思考复杂问题)和传统模式(实时生成答案)的能力。该模型现已在所有Claude计划中提供,包括Free、Pro、Team和Enterprise版本,以及Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台。值得注意的是,Claude 3.7 Sonnet的定价与其前代产品相同,输入每百万tokens收费3美元,输出每百万tokens收费15美元。

Claude 3.7 Sonnet
Claude 3.7 Sonnet 在指令遵循、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面提供了显著的提升。

除了新模型外,Anthropic还发布了“自主编程”工具Claude Code的“有限研究预览版”。尽管Anthropic此前已为Cursor等AI编程工具提供支持,但此次推出的Claude Code被定位为一个“积极的合作伙伴”,能够搜索和阅读代码、编辑文件、编写和运行测试、将代码提交到GitHub,并使用命令行工具。从本周开始,用户可以在Claude应用程序中使用Claude 3.7 Sonnet,开发者也可以通过Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI获取该模型。

Claude 3.7 Sonnet

Anthropic产品研究主管Dianne Penn表示,公司希望简化模型的使用体验。她指出:“我们从根本上认为,推理是人工智能的一个特性,而不是一个完全独立的事物。”她还提到,Claude在回答简单问题如“现在几点了?”和应对更复杂的提示(例如“规划一个为期两周的意大利之旅,并考虑3月下旬的天气”)时,响应速度差异不大。

Claude 3.7 Sonnet
Claude 3.7 Sonnet 在 SWE-bench Verified 取得优异成绩,该平台主要评估人工智能模型解决现实世界软件问题的能力。
Claude 3.7 Sonnet
Claude 3.7 Sonnet 在 TAU-bench 成绩领先与其他模型,TAU-bench 主要用于测试 AI 代理在复杂的现实任务中与用户和工具交互。

Dianne Penn称,Claude 3.7 Sonnet在“自主编程”、金融和法律任务上的表现明显优于前代产品。尽管该模型仍不具备实时网络搜索功能,但其知识截止日期为2024年10月,比其他模型更新。此外,Anthropic还允许开发者通过其“草稿纸”功能指导模型的“思考”方式,甚至可以精确控制模型的响应时间。Anthropic产品副总裁Michael Gerstenhaber表示:“有时开发者只需要明确指出,回答这个问题不应超过200毫秒。”他认为这是产品决策的一部分。

在Anthropic内部,员工已利用Claude 3.7 Sonnet完成前端网站设计、交互式游戏开发等任务。Penn透露,该模型甚至能通过反复构建和编辑测试用例,支持长达45分钟的编码工作。