分享好友 资讯首页 频道列表

阿里千问APP公测遇“小插曲”:9.9与9.11大小之争下的AI进阶路

2025-11-18 20:4313900

一道看似简单的数学题——比较9.9和9.11的大小,竟成为检验人工智能模型能力的试金石。近日,阿里巴巴最新公测的千问APP在回答这一问题时出现失误,引发行业对AI技术局限性的讨论。该事件不仅暴露了当前大模型在基础运算中的潜在漏洞,更折射出AI从实验室走向实际应用面临的挑战。

测试过程中,千问APP首次回答称"9.11更大",随后在问题拆解阶段又正确指出"9.9的十分位是9,9.11的十分位是1,因此9.9更大"。面对这种自相矛盾的回应,AI模型解释称首次结论属于"阶段性错误",并归因于"数字长度错觉"——三位数的9.11在视觉上可能引发认知偏差。经过自我溯源后,该模型在第三次提问中给出了正确答案。

这道经典算术题最早由艾伦研究机构成员林禹臣发现。他在测试ChatGPT-4o时发现,该模型竟认为13.11大于13.8。随后Scale AI工程师莱利·古德赛德变换问法,向多个主流模型发起挑战,结果包括ChatGPT-4o、谷歌Gemini Advanced等在内的多个大模型集体"翻车"。这一现象在AI技术圈引发广泛关注,相关测试截图在社交平台获得数百万浏览量。

行业专家指出,大模型本质上是基于语言数据训练的统计模型,其核心能力在于捕捉语言模式而非理解数学规则。这种技术路径导致AI在处理需要严格逻辑推理的任务时表现不稳定。某AI技术从业者表示:"语言模型擅长处理模糊的自然语言,但面对精确的数学运算时,其统计学习机制反而成为短板。"

尽管存在基础运算缺陷,中国大模型在全球市场的竞争力不容小觑。以阿里巴巴Qwen系列为例,该模型累计下载量已突破6亿次,在技术积累和生态布局方面形成独特优势。爱彼迎CEO布莱恩·切斯基公开表示,公司已将Qwen模型深度整合到运营体系,称赞其"速度快、成本低"。这种实际应用场景的验证,为中国AI模型提供了差异化竞争路径。

阿里巴巴日前宣布全面进军消费级AI市场,计划将千问APP与地图、外卖、票务等20余个生活场景深度融合。基于开源模型Qwen3打造的"千问"项目,被管理层定位为"AI时代的战略级入口"。通过整合海外影响力,阿里巴巴正与OpenAI等国际巨头展开直接竞争。这种"技术输出+场景落地"的双轮驱动模式,或将重塑全球AI产业格局。

值得关注的是,千问APP的此次失误恰逢其全球推广关键期。测试结果显示,该模型在复杂场景理解、多模态交互等方面表现突出,但在基础运算等"简单任务"上仍需优化。这种"高阶能力突出、基础能力薄弱"的反差现象,为AI技术发展路径提供了新的研究样本。如何平衡模型复杂度与可靠性,将成为行业下一阶段的重要课题。

反对 0
举报 0
收藏 0
打赏 0
评论 0
贝索斯投身AI领域创办新公司,马斯克调侃其“跟风”引关注
贝索斯投身AI领域创办新公司,马斯克调侃其“跟风”引关注

0评论2025-11-181351

格罗方德收购AMF布局硅光子领域,扩展产能研发或成行业领头羊
格罗方德收购AMF布局硅光子领域,扩展产能研发或成行业领头羊

0评论2025-11-181452

马斯克xAI新动作!Grok 4.1发布,多领域表现亮眼引关注
马斯克xAI新动作!Grok 4.1发布,多领域表现亮眼引关注

0评论2025-11-181710

佳都科技携AI与开源鸿蒙亮相CCF数字交通大会 共探智慧交通新路径
佳都科技携AI与开源鸿蒙亮相CCF数字交通大会 共探智慧交通新路径

0评论2025-11-18723

贝索斯携62亿融资AI新企“普罗米修斯”入场 瞄准太空与物理AI前沿
贝索斯携62亿融资AI新企“普罗米修斯”入场 瞄准太空与物理AI前沿

0评论2025-11-182158

中国通号自主研发系统助力青藏铁路 构建无人机立体防护网
中国通号自主研发系统助力青藏铁路 构建无人机立体防护网

0评论2025-11-17717

AI:从工具进化为关系重构者,企业如何应对双重变革?
AI:从工具进化为关系重构者,企业如何应对双重变革?

0评论2025-11-171068

商汤医疗再获数亿元融资 蓄力加码开启新征程启航盛典
商汤医疗再获数亿元融资 蓄力加码开启新征程启航盛典

0评论2025-11-172551

《航空心理学与人工智能》:融合创新,为航空安全与人机协同注入新动力
《航空心理学与人工智能》:融合创新,为航空安全与人机协同注入新动力

0评论2025-11-132614

《航空心理学与人工智能》:探索人机协同,赋能航空安全新未来
《航空心理学与人工智能》:探索人机协同,赋能航空安全新未来

0评论2025-11-132665