埃隆·马斯克旗下的xAI公司正加速推进其“世界模型”的研发工作,试图在下一代人工智能系统的竞争中占据领先地位。与meta、谷歌等科技巨头一样,xAI希望打造出能够自主理解并模拟物理环境的AI系统。这类模型不仅能够处理文本和图像,还能实时分析现实世界的动态特性,包括物体的物理属性和空间关系。
根据英伟达的官方定义,世界模型是一种生成式AI,它通过整合文字、图像、视频甚至动作数据,生成具有物理合理性的动态场景。与传统大语言模型不同,这类系统能够理解物体在不同环境中的互动机制,甚至预测其因果关系。例如,一个训练有素的世界模型可以模拟液体流动、物体碰撞等复杂现象,为机器人导航或游戏环境生成提供技术支撑。
xAI已从英伟达招募了两名关键研究员——泽尚·帕特尔和何宜晖,二人均在世界模型领域拥有丰富经验。英伟达凭借其Omniverse平台,在该技术上长期保持领先。此次人才流动被视为xAI强化研发实力的重要举措。知情人士透露,xAI计划将世界模型应用于游戏领域,开发可交互的3D环境,未来还可能扩展至机器人AI系统。
马斯克在社交平台X上宣布,xAI目标在2025年底前推出一款“由AI生成的优秀游戏”,重申了其去年设定的愿景。与此同时,该公司最新发布的图像和视频生成模型已完成“重大升级”,并面向用户免费开放。这一动作被视为xAI在多模态AI领域持续发力的信号。
与传统视频生成模型(如OpenAI的Sora)相比,世界模型的核心优势在于其物理引擎能力。现有模型多通过训练数据预测帧序列,而世界模型能实时解析物体间的因果关系。例如,当模拟一个球体滚下斜坡时,它不仅能生成连贯的动画,还能准确计算速度、摩擦力等物理参数。这种能力被认为可能推动AI从软件层面向实体产品(如人形机器人)渗透。
英伟达此前向《金融时报》表示,世界模型的潜在市场规模可能接近当前全球经济总量。然而,技术落地仍面临重大障碍。训练此类模型需要海量现实世界数据,而数据采集与标注的成本极高。如何确保模型在复杂场景中的鲁棒性,也是开发者需要解决的难题。
游戏行业对世界模型的态度存在分歧。《博德之门3》开发商拉瑞安工作室的发行主管迈克尔·道斯公开质疑AI在游戏设计中的作用。他认为,行业真正缺乏的是“领导力与远见”,而非算法生成的玩法循环。“玩家需要的是能让他们沉浸其中的世界,而不是经过心理学优化的循环机制。”道斯在X平台上写道。
目前,谷歌、meta等公司也在研发类似系统,但尚未有成熟产品面世。xAI的进展能否突破技术瓶颈,并将其转化为实际产品,仍需时间检验。截至发稿,xAI及相关研究员尚未对此事发表评论。