分享好友 资讯首页 频道列表

Anthropic发布Claude Sonnet 4.5:代码与智能体构建能力飙升,构建工具同步开放

2025-09-30 08:339520

人工智能领域迎来新一轮技术突破,Anthropic公司近日正式推出Claude Sonnet 4.5模型,该产品被官方定义为全球最强的代码生成模型、复杂智能体构建工具及计算机交互系统。这款新一代模型不仅在核心能力上实现突破,更配套推出完整的开发者工具链,引发行业广泛关注。

在专业评测中,Claude Sonnet 4.5展现出显著优势。SWE-bench Verified基准测试显示,其真实世界软件编码能力达到77.2%的准确率,较前代提升近20个百分点。在OSWorld计算机操作基准测试中,该模型以61.4%的完成率领先行业,相比四个月前42.2%的纪录实现跨越式进步。金融、法律、医学等领域的专家验证表明,模型在专业领域推理能力较Opus 4.1提升30%以上。

技术团队重点突破了智能体系统的三大难题:长期任务记忆管理、自主性与用户控制的平衡机制、多智能体协同框架。配套发布的Claude Agent SDK开放了这些核心技术,开发者可基于该工具包构建自定义智能体。这套曾用于内部开发Claude Code的基础设施,现已向全球开发者全面开放。

产品生态迎来全面升级。Claude Code 2.0版本重构用户界面,新增VS Code扩展插件及检查点功能,用户可通过双按Esc键或输入/rewind指令快速回滚代码修改。API服务新增上下文编辑器和记忆工具,支持智能体完成更复杂的持续任务。Chrome扩展程序已向等待列表用户开放,代码执行和文件创建功能直接嵌入对话界面。

安全体系构建了多重防护机制。模型通过AI安全等级3(ASL-3)认证,配备化学、生物、放射性及核武器相关内容的分类检测系统。误报率较初代系统降低90%,当检测到潜在风险时,用户可无缝切换至Sonnet 4模型继续对话。安全训练显著减少了模型迎合性回答、虚假信息及权力寻求等异常行为。

创新功能"Imagine with Claude"开启限时预览,该实验性功能允许模型实时动态生成软件。在五天试用期内,Max订阅用户可体验无预设代码的交互式开发过程,观察系统根据用户指令即时创建并调整软件功能。这项突破性尝试为AI软件工程开辟了新路径。

性能实测引发技术社区讨论。开发者使用物理模拟测试用例进行验证时发现,模型在复杂系统建模方面仍有改进空间。测试案例要求模拟弹力球正方体的分层塌方过程,实际运行中出现两层后停止下落的异常情况。官方同时公布了标准化测试方法,SWE-bench Verified采用10次试验平均值,OSWorld进行4次运行取均值,多语言测试覆盖14种非英语语言。

商业策略保持价格竞争力,API调用费用与前代持平,每百万token输入3美元、输出15美元。开发者可通过claude-sonnet-4-5接口直接调用最新模型。配套发布的工具链和安全机制,使这款模型在专业开发场景中展现出独特价值。

反对 0
举报 0
收藏 0
打赏 0
评论 0
零跑旗舰SUV D19正式登场!增程纯电双动力,豪华配置开启大型SUV新体验
零跑旗舰SUV D19正式登场!增程纯电双动力,豪华配置开启大型SUV新体验

0评论2026-04-161397

国家统计局:日均词元调用破140万亿,较上年末增40%
国家统计局:日均词元调用破140万亿,较上年末增40%

0评论2026-04-16800

Faraday Future与认购方修订协议 认购至1200万美元
Faraday Future与认购方修订协议 认购至1200万美元

0评论2026-04-162868

第13届中国网络视听大会:2025年网络视听用户达10.99亿 稳居互联网应用榜首
第13届中国网络视听大会:2025年网络视听用户达10.99亿 稳居互联网应用榜首

0评论2026-04-16573

OpenAI收购Hiro Finance:吸纳金融AI人才,或为拓展金融领域布局
OpenAI收购Hiro Finance:吸纳金融AI人才,或为拓展金融领域布局

0评论2026-04-152979

AI赋能中国制造:领航级智能工厂引领产业升级新篇章
AI赋能中国制造:领航级智能工厂引领产业升级新篇章

0评论2026-04-131354

荣耀机器人“闪电”“元气仔”外观公布
荣耀机器人“闪电”“元气仔”外观公布

0评论2026-04-131102

联芸发布存储开发路线图:PCIe Gen6消费级SSD主控MAP2001瞄准28GB每秒速率
联芸发布存储开发路线图:PCIe Gen6消费级SSD主控MAP2001瞄准28GB每秒速率

0评论2026-04-13920