分享好友 资讯首页 频道列表

Anthropic发布Claude Sonnet 4.5:编码性能跃升,安全与自主性全面升级

2025-09-30 08:3328810

人工智能公司Anthropic近日宣布推出新一代AI模型Claude Sonnet 4.5,该公司宣称该模型在软件编码能力方面达到全球领先水平。根据SWE-bench Verified测试标准评估,这款模型在生成高质量代码、识别代码优化点以及指令遵循可靠性方面展现出显著优势,能够直接构建可投入生产环境的应用程序。

在核心性能提升方面,新模型在OSWorld基准测试中的得分从四个月前的42.2%大幅提升至61.4%,创下该测试的新纪录。联合创始人Jared Kaplan透露,模型通过架构优化实现了尺寸与效率的平衡,尽管参数规模小于前代Opus 4.1,但在金融、法律、医学等专业领域的推理能力和知识储备均有明显提升。测试数据显示,新模型在复杂多步骤任务中的持续运行时间从7小时延长至30小时。

用户反馈显示,新模型在代码生成质量方面获得普遍认可。有开发者指出,该模型在处理实际工作场景时表现出更强的实用性,能够准确完成从原型设计到生产部署的全流程开发。不过部分测试者提到,模型在特定指令的完整执行上仍存在改进空间,有时会遗漏用户强调的关键修改点。

安全性方面,Anthropic实施了全新的行为对齐训练机制。新模型对提示词注入攻击的防御能力显著增强,有效降低了欺骗性输出、权力寻求倾向等风险行为的发生概率。公司安全团队特别开发了针对化学、生物、放射性及核武器相关内容的检测分类器,在保持低误报率的同时,将安全等级提升至AI安全等级3(ASL-3)标准。

产品生态建设方面,Anthropic同步推出了Claude Agent SDK开发工具包。该工具基于驱动Claude Code的底层架构,重点解决了AI代理开发中的内存管理、权限控制及多代理协作等难题。配套升级的Claude Code新增"检查点"功能,支持开发者在VS Code环境中直接执行代码并创建电子表格、演示文稿等办公文档。

商业策略上,新模型将作为默认选项向用户开放,定价与前代Sonnet 4保持一致。付费订阅用户仍可自主选择使用旧版Opus系列模型。Jared Kaplan在技术分享会上暗示,更强性能的模型版本正在研发中,预计在今年年底前将有一至两次重要更新,其中可能包含新一代Opus模型。

首席产品官Mike Krieger强调,新模型通过架构创新实现了"小体积、大智慧"的突破,在几乎所有评估维度上都超越了前代产品。实际测试表明,该模型在处理真实业务场景时,能够像人类同事一样提供可靠的协作支持,这种特性使其在开发复杂系统时具有独特优势。

反对 0
举报 0
收藏 0
打赏 0
评论 0
海天瑞声与阿里巴巴十年携手,凭综合优势成其AI训练数据重要供应商
海天瑞声与阿里巴巴十年携手,凭综合优势成其AI训练数据重要供应商

0评论2025-09-302282

蚂蚁百宝箱与友盟携手,以一站式服务赋能开发者,共赴智能体开发新时代
蚂蚁百宝箱与友盟携手,以一站式服务赋能开发者,共赴智能体开发新时代

0评论2025-09-30675

华为亮相2025青岛国际城轨展,携全栈方案共绘城轨智能化新蓝图
华为亮相2025青岛国际城轨展,携全栈方案共绘城轨智能化新蓝图

0评论2025-09-302520

Flash Attention作者播客谈AI未来:英伟达GPU主导或三年内生变,推理成本有望再降10倍
Flash Attention作者播客谈AI未来:英伟达GPU主导或三年内生变,推理成本有望再降10倍

0评论2025-09-302431

国庆前夕DeepSeek-V3.2现身HuggingFace后又404 后续动态引关注
国庆前夕DeepSeek-V3.2现身HuggingFace后又404 后续动态引关注

0评论2025-09-301691

透视阿里云生态转型:从幕后到台前,搭建AI落地的高效协同通道
透视阿里云生态转型:从幕后到台前,搭建AI落地的高效协同通道

0评论2025-09-26539

联发科天玑9500:以创新技术重塑个人算力,开启智能生活新体验
联发科天玑9500:以创新技术重塑个人算力,开启智能生活新体验

0评论2025-09-262916