Anthropic发布Claude Sonnet 4.5：编码性能跃升，安全与自主性全面升级_AI_

人工智能公司Anthropic近日宣布推出新一代AI模型Claude Sonnet 4.5，该公司宣称该模型在软件编码能力方面达到全球领先水平。根据SWE-bench Verified测试标准评估，这款模型在生成高质量代码、识别代码优化点以及指令遵循可靠性方面展现出显著优势，能够直接构建可投入生产环境的应用程序。

在核心性能提升方面，新模型在OSWorld基准测试中的得分从四个月前的42.2%大幅提升至61.4%，创下该测试的新纪录。联合创始人Jared Kaplan透露，模型通过架构优化实现了尺寸与效率的平衡，尽管参数规模小于前代Opus 4.1，但在金融、法律、医学等专业领域的推理能力和知识储备均有明显提升。测试数据显示，新模型在复杂多步骤任务中的持续运行时间从7小时延长至30小时。

用户反馈显示，新模型在代码生成质量方面获得普遍认可。有开发者指出，该模型在处理实际工作场景时表现出更强的实用性，能够准确完成从原型设计到生产部署的全流程开发。不过部分测试者提到，模型在特定指令的完整执行上仍存在改进空间，有时会遗漏用户强调的关键修改点。

安全性方面，Anthropic实施了全新的行为对齐训练机制。新模型对提示词注入攻击的防御能力显著增强，有效降低了欺骗性输出、权力寻求倾向等风险行为的发生概率。公司安全团队特别开发了针对化学、生物、放射性及核武器相关内容的检测分类器，在保持低误报率的同时，将安全等级提升至AI安全等级3（ASL-3）标准。

产品生态建设方面，Anthropic同步推出了Claude Agent SDK开发工具包。该工具基于驱动Claude Code的底层架构，重点解决了AI代理开发中的内存管理、权限控制及多代理协作等难题。配套升级的Claude Code新增"检查点"功能，支持开发者在VS Code环境中直接执行代码并创建电子表格、演示文稿等办公文档。

商业策略上，新模型将作为默认选项向用户开放，定价与前代Sonnet 4保持一致。付费订阅用户仍可自主选择使用旧版Opus系列模型。Jared Kaplan在技术分享会上暗示，更强性能的模型版本正在研发中，预计在今年年底前将有一至两次重要更新，其中可能包含新一代Opus模型。

首席产品官Mike Krieger强调，新模型通过架构创新实现了"小体积、大智慧"的突破，在几乎所有评估维度上都超越了前代产品。实际测试表明，该模型在处理真实业务场景时，能够像人类同事一样提供可靠的协作支持，这种特性使其在开发复杂系统时具有独特优势。