一道看似简单的数学题——比较9.9和9.11的大小,竟成为检验人工智能模型能力的试金石。近日,阿里巴巴最新公测的千问APP在回答这一问题时出现失误,引发行业对AI技术局限性的讨论。该事件不仅暴露了当前大模型在基础运算中的潜在漏洞,更折射出AI从实验室走向实际应用面临的挑战。
测试过程中,千问APP首次回答称"9.11更大",随后在问题拆解阶段又正确指出"9.9的十分位是9,9.11的十分位是1,因此9.9更大"。面对这种自相矛盾的回应,AI模型解释称首次结论属于"阶段性错误",并归因于"数字长度错觉"——三位数的9.11在视觉上可能引发认知偏差。经过自我溯源后,该模型在第三次提问中给出了正确答案。
这道经典算术题最早由艾伦研究机构成员林禹臣发现。他在测试ChatGPT-4o时发现,该模型竟认为13.11大于13.8。随后Scale AI工程师莱利·古德赛德变换问法,向多个主流模型发起挑战,结果包括ChatGPT-4o、谷歌Gemini Advanced等在内的多个大模型集体"翻车"。这一现象在AI技术圈引发广泛关注,相关测试截图在社交平台获得数百万浏览量。
行业专家指出,大模型本质上是基于语言数据训练的统计模型,其核心能力在于捕捉语言模式而非理解数学规则。这种技术路径导致AI在处理需要严格逻辑推理的任务时表现不稳定。某AI技术从业者表示:"语言模型擅长处理模糊的自然语言,但面对精确的数学运算时,其统计学习机制反而成为短板。"
尽管存在基础运算缺陷,中国大模型在全球市场的竞争力不容小觑。以阿里巴巴Qwen系列为例,该模型累计下载量已突破6亿次,在技术积累和生态布局方面形成独特优势。爱彼迎CEO布莱恩·切斯基公开表示,公司已将Qwen模型深度整合到运营体系,称赞其"速度快、成本低"。这种实际应用场景的验证,为中国AI模型提供了差异化竞争路径。
阿里巴巴日前宣布全面进军消费级AI市场,计划将千问APP与地图、外卖、票务等20余个生活场景深度融合。基于开源模型Qwen3打造的"千问"项目,被管理层定位为"AI时代的战略级入口"。通过整合海外影响力,阿里巴巴正与OpenAI等国际巨头展开直接竞争。这种"技术输出+场景落地"的双轮驱动模式,或将重塑全球AI产业格局。
值得关注的是,千问APP的此次失误恰逢其全球推广关键期。测试结果显示,该模型在复杂场景理解、多模态交互等方面表现突出,但在基础运算等"简单任务"上仍需优化。这种"高阶能力突出、基础能力薄弱"的反差现象,为AI技术发展路径提供了新的研究样本。如何平衡模型复杂度与可靠性,将成为行业下一阶段的重要课题。