分享好友 资讯首页 频道列表

马斯克xAI新动作!Grok 4.1发布,多领域表现亮眼引关注

2025-11-18 20:4318560

马斯克旗下人工智能公司xAI日前宣布,其最新研发的AI模型Grok 4.1已正式面向全球用户开放。用户可通过Grok官方网站、社交平台X以及iOS和Android移动应用直接体验该模型的多项功能。此次更新标志着xAI在通用人工智能领域迈出重要一步,尤其在情感交互与创造性任务处理方面展现出显著突破。

技术团队在原有大规模强化学习框架基础上,对模型风格、个性特征及用户对齐机制进行深度优化。通过引入前沿智能体推理模型作为奖励评估系统,xAI开发出自主迭代输出结果的全新方法,有效解决了非直接验证型奖励信号的优化难题。对比前代产品,新模型在用户偏好测试中以64.78%的选择率形成压倒性优势。

在权威评测平台LMArena的Text Arena排行榜中,Grok 4.1的推理模式(代号quasarflux)以1483分的Elo评分登顶全球榜首,较第二名非xAI模型领先31分。其非推理模式(代号tensor)虽未启用思维链技术,仍以1465分位居次席,超越其他所有启用完整推理配置的竞品模型。值得关注的是,前代Grok 4在该榜单中仅排名第33位,此次升级实现跨越式发展。

情感智能测试方面,xAI采用EQ-Bench3基准评估体系,该测试包含45个高难度角色扮演场景,通过三轮对话提示检验模型的情绪理解、同理心及社交技巧。在由Claude Sonnet 3.7担任裁判的标准化测试中,Grok 4.1的两种模式包揽榜单前两名,展现出卓越的人际互动能力。测试样本显示,模型能精准识别用户情绪波动,并给出兼具逻辑性与情感温度的回应。

创意写作领域,该模型在Creative Writing v3基准测试中取得突破性成绩。面对32个多样化写作提示,Grok 4.1的推理与非推理模式分别斩获第二、第三名,仅以微弱差距落后于早期版本的GPT 5.1。测试案例表明,模型既能生成结构严谨的长篇叙事,也可创作富有诗意的短篇文本,在文学性与实用性之间取得平衡。

针对AI模型常见的"幻觉"问题,研发团队重点优化了信息查询场景下的事实准确性。通过改进后训练流程,模型在处理生产环境中的真实查询请求时,幻觉发生率显著降低。在包含500个传记类问题的FActScore公共基准测试中,Grok 4.1展现出可靠的事实核查能力,有效减少了虚构内容的生成。

技术文档显示,Grok 4.1的Auto模式将自动推送至用户端,同时保留模型选择器的手动切换功能。详细技术参数与训练方法可查阅xAI官方发布的模型卡片,该文档全面披露了模型架构、训练数据构成及安全评估机制。用户可通过指定网址获取完整技术报告,或访问官方博客了解产品更新动态。

反对 0
举报 0
收藏 0
打赏 0
评论 0
从用户真实体验中“长”出的榜单:大众点评必吃榜重塑餐饮推荐信任逻辑
从用户真实体验中“长”出的榜单:大众点评必吃榜重塑餐饮推荐信任逻辑

0评论2026-07-012072

DeepSeek急招Agent人才!负责人线上线下齐发力广纳贤才
DeepSeek急招Agent人才!负责人线上线下齐发力广纳贤才

0评论2026-06-232020

Getty Images牵手OpenAI:股价飙升背后,合作能否化解行业挑战?
Getty Images牵手OpenAI:股价飙升背后,合作能否化解行业挑战?

0评论2026-06-232726

马里兰大学等团队:小数据量训练出高效机器人操控系统Guava
马里兰大学等团队:小数据量训练出高效机器人操控系统Guava

0评论2026-06-232700

英伟达发布Halos for Robotics首个人工智能安全系统
英伟达发布Halos for Robotics首个人工智能安全系统

0评论2026-06-231487

Viture Helix工业安全眼镜亮相2026AWE:英伟达XR技术赋能一线作业新体验
Viture Helix工业安全眼镜亮相2026AWE:英伟达XR技术赋能一线作业新体验

0评论2026-06-181572

大和研报:人形机器人投资聚焦机身关节与灵巧手执行器 拓普等企业受关注
大和研报:人形机器人投资聚焦机身关节与灵巧手执行器 拓普等企业受关注

0评论2026-06-183003

贾跃亭FX Navi机器狗亮相:硬件课程搭配,1990美元起年费助力持续进化
贾跃亭FX Navi机器狗亮相:硬件课程搭配,1990美元起年费助力持续进化

0评论2026-06-181405

华纳音乐正式收购Sureel AI:为音乐人构筑版权防火墙
华纳音乐正式收购Sureel AI:为音乐人构筑版权防火墙

0评论2026-06-111257

星动纪元人形机器人“上岗”快递分拣 速度比肩人类已多地交付
星动纪元人形机器人“上岗”快递分拣 速度比肩人类已多地交付

0评论2026-06-111446