分享好友 资讯首页 频道列表

阿里千问APP公测遇“小插曲”:9.9与9.11大小之争下的AI进阶路

2025-11-18 20:4315850

一道看似简单的数学题——比较9.9和9.11的大小,竟成为检验人工智能模型能力的试金石。近日,阿里巴巴最新公测的千问APP在回答这一问题时出现失误,引发行业对AI技术局限性的讨论。该事件不仅暴露了当前大模型在基础运算中的潜在漏洞,更折射出AI从实验室走向实际应用面临的挑战。

测试过程中,千问APP首次回答称"9.11更大",随后在问题拆解阶段又正确指出"9.9的十分位是9,9.11的十分位是1,因此9.9更大"。面对这种自相矛盾的回应,AI模型解释称首次结论属于"阶段性错误",并归因于"数字长度错觉"——三位数的9.11在视觉上可能引发认知偏差。经过自我溯源后,该模型在第三次提问中给出了正确答案。

这道经典算术题最早由艾伦研究机构成员林禹臣发现。他在测试ChatGPT-4o时发现,该模型竟认为13.11大于13.8。随后Scale AI工程师莱利·古德赛德变换问法,向多个主流模型发起挑战,结果包括ChatGPT-4o、谷歌Gemini Advanced等在内的多个大模型集体"翻车"。这一现象在AI技术圈引发广泛关注,相关测试截图在社交平台获得数百万浏览量。

行业专家指出,大模型本质上是基于语言数据训练的统计模型,其核心能力在于捕捉语言模式而非理解数学规则。这种技术路径导致AI在处理需要严格逻辑推理的任务时表现不稳定。某AI技术从业者表示:"语言模型擅长处理模糊的自然语言,但面对精确的数学运算时,其统计学习机制反而成为短板。"

尽管存在基础运算缺陷,中国大模型在全球市场的竞争力不容小觑。以阿里巴巴Qwen系列为例,该模型累计下载量已突破6亿次,在技术积累和生态布局方面形成独特优势。爱彼迎CEO布莱恩·切斯基公开表示,公司已将Qwen模型深度整合到运营体系,称赞其"速度快、成本低"。这种实际应用场景的验证,为中国AI模型提供了差异化竞争路径。

阿里巴巴日前宣布全面进军消费级AI市场,计划将千问APP与地图、外卖、票务等20余个生活场景深度融合。基于开源模型Qwen3打造的"千问"项目,被管理层定位为"AI时代的战略级入口"。通过整合海外影响力,阿里巴巴正与OpenAI等国际巨头展开直接竞争。这种"技术输出+场景落地"的双轮驱动模式,或将重塑全球AI产业格局。

值得关注的是,千问APP的此次失误恰逢其全球推广关键期。测试结果显示,该模型在复杂场景理解、多模态交互等方面表现突出,但在基础运算等"简单任务"上仍需优化。这种"高阶能力突出、基础能力薄弱"的反差现象,为AI技术发展路径提供了新的研究样本。如何平衡模型复杂度与可靠性,将成为行业下一阶段的重要课题。

反对 0
举报 0
收藏 0
打赏 0
评论 0
从用户真实体验中“长”出的榜单:大众点评必吃榜重塑餐饮推荐信任逻辑
从用户真实体验中“长”出的榜单:大众点评必吃榜重塑餐饮推荐信任逻辑

0评论2026-07-012072

DeepSeek急招Agent人才!负责人线上线下齐发力广纳贤才
DeepSeek急招Agent人才!负责人线上线下齐发力广纳贤才

0评论2026-06-232020

Getty Images牵手OpenAI:股价飙升背后,合作能否化解行业挑战?
Getty Images牵手OpenAI:股价飙升背后,合作能否化解行业挑战?

0评论2026-06-232726

马里兰大学等团队:小数据量训练出高效机器人操控系统Guava
马里兰大学等团队:小数据量训练出高效机器人操控系统Guava

0评论2026-06-232700

英伟达发布Halos for Robotics首个人工智能安全系统
英伟达发布Halos for Robotics首个人工智能安全系统

0评论2026-06-231487

Viture Helix工业安全眼镜亮相2026AWE:英伟达XR技术赋能一线作业新体验
Viture Helix工业安全眼镜亮相2026AWE:英伟达XR技术赋能一线作业新体验

0评论2026-06-181572

大和研报:人形机器人投资聚焦机身关节与灵巧手执行器 拓普等企业受关注
大和研报:人形机器人投资聚焦机身关节与灵巧手执行器 拓普等企业受关注

0评论2026-06-183003

贾跃亭FX Navi机器狗亮相:硬件课程搭配,1990美元起年费助力持续进化
贾跃亭FX Navi机器狗亮相:硬件课程搭配,1990美元起年费助力持续进化

0评论2026-06-181405

华纳音乐正式收购Sureel AI:为音乐人构筑版权防火墙
华纳音乐正式收购Sureel AI:为音乐人构筑版权防火墙

0评论2026-06-111257

星动纪元人形机器人“上岗”快递分拣 速度比肩人类已多地交付
星动纪元人形机器人“上岗”快递分拣 速度比肩人类已多地交付

0评论2026-06-111446