分享好友 资讯首页 频道列表

Anthropic发布Claude Sonnet 4.5:编码性能跃升,安全与自主性全面升级

2025-09-30 08:3331350

人工智能公司Anthropic近日宣布推出新一代AI模型Claude Sonnet 4.5,该公司宣称该模型在软件编码能力方面达到全球领先水平。根据SWE-bench Verified测试标准评估,这款模型在生成高质量代码、识别代码优化点以及指令遵循可靠性方面展现出显著优势,能够直接构建可投入生产环境的应用程序。

在核心性能提升方面,新模型在OSWorld基准测试中的得分从四个月前的42.2%大幅提升至61.4%,创下该测试的新纪录。联合创始人Jared Kaplan透露,模型通过架构优化实现了尺寸与效率的平衡,尽管参数规模小于前代Opus 4.1,但在金融、法律、医学等专业领域的推理能力和知识储备均有明显提升。测试数据显示,新模型在复杂多步骤任务中的持续运行时间从7小时延长至30小时。

用户反馈显示,新模型在代码生成质量方面获得普遍认可。有开发者指出,该模型在处理实际工作场景时表现出更强的实用性,能够准确完成从原型设计到生产部署的全流程开发。不过部分测试者提到,模型在特定指令的完整执行上仍存在改进空间,有时会遗漏用户强调的关键修改点。

安全性方面,Anthropic实施了全新的行为对齐训练机制。新模型对提示词注入攻击的防御能力显著增强,有效降低了欺骗性输出、权力寻求倾向等风险行为的发生概率。公司安全团队特别开发了针对化学、生物、放射性及核武器相关内容的检测分类器,在保持低误报率的同时,将安全等级提升至AI安全等级3(ASL-3)标准。

产品生态建设方面,Anthropic同步推出了Claude Agent SDK开发工具包。该工具基于驱动Claude Code的底层架构,重点解决了AI代理开发中的内存管理、权限控制及多代理协作等难题。配套升级的Claude Code新增"检查点"功能,支持开发者在VS Code环境中直接执行代码并创建电子表格、演示文稿等办公文档。

商业策略上,新模型将作为默认选项向用户开放,定价与前代Sonnet 4保持一致。付费订阅用户仍可自主选择使用旧版Opus系列模型。Jared Kaplan在技术分享会上暗示,更强性能的模型版本正在研发中,预计在今年年底前将有一至两次重要更新,其中可能包含新一代Opus模型。

首席产品官Mike Krieger强调,新模型通过架构创新实现了"小体积、大智慧"的突破,在几乎所有评估维度上都超越了前代产品。实际测试表明,该模型在处理真实业务场景时,能够像人类同事一样提供可靠的协作支持,这种特性使其在开发复杂系统时具有独特优势。

反对 0
举报 0
收藏 0
打赏 0
评论 0
闪迪探索创新路径:芯片下堆叠NAND闪存,应对存储容量新挑战
闪迪探索创新路径:芯片下堆叠NAND闪存,应对存储容量新挑战

0评论2026-06-23870

支付宝“阿宝”邀请码遭非法交易?官方回应:未授权售卖,可免费分享
支付宝“阿宝”邀请码遭非法交易?官方回应:未授权售卖,可免费分享

0评论2026-06-181942

OpenAI筹备GPT-Bidi-1模型,ChatGPT语音模式或迎重大升级突破
OpenAI筹备GPT-Bidi-1模型,ChatGPT语音模式或迎重大升级突破

0评论2026-06-18894

OpenAI筹备GPT-Bidi-1模型 助力ChatGPT语音功能实现重大升级突破
OpenAI筹备GPT-Bidi-1模型 助力ChatGPT语音功能实现重大升级突破

0评论2026-06-181329

李想回应“不务正业” 质疑 理想汽车AI战略即将发布
李想回应“不务正业” 质疑 理想汽车AI战略即将发布

0评论2026-06-112930

李想回应聊AI被指不务正业
李想回应聊AI被指不务正业

0评论2026-06-111860

算力生态深度整合:OpenAI 与甲骨文达成合作,云端调用更加便捷
算力生态深度整合:OpenAI 与甲骨文达成合作,云端调用更加便捷

0评论2026-06-112317

火山引擎MaaS年营收目标调高至150亿元:视频模型Seedance2.0单月收入突破10亿元
火山引擎MaaS年营收目标调高至150亿元:视频模型Seedance2.0单月收入突破10亿元

0评论2026-06-041854