分享好友 资讯首页 频道列表

AI大牛卡帕西开源nanochat:百元成本4小时训练,12小时性能超GPT-2

2025-10-15 02:2614740

不同于卡帕西早期开发的纯预训练模型nanoGPT,此次发布的nanochat构建了完整的全栈训练-推理流程。项目通过精简代码库(仅8304行代码),整合了从数据预处理到强化学习的全流程,其架构设计融合了meta Llama的简化结构与modded-nanoGPT的改进方案。开发者只需启动云GPU实例并运行单个脚本,最快4小时即可完成基础模型训练。

实验数据显示,该系统在成本控制方面表现突出。卡帕西透露,完成指令微调(SFT)阶段的训练仅耗时3小时51分钟,总成本92.4美元(约合人民币657.4元)。当训练时长延长至12小时,模型在CORE评估指标上的表现已超越GPT-2;若投入提升至1000美元(约合人民币7114.7元)进行41.6小时训练,系统可解决基础数学与编程问题,并通过选择题测试。

技术实现层面,项目包含七大核心功能:采用Rust语言重写的训练分词器、基于FineWeb数据集的预训练机制、多阶段中期训练(含用户对话数据与工具使用数据)、指令微调与多基准评估、可选的GRPO强化学习算法、带KV缓存的高效推理引擎,以及自动生成的Markdown评估报告。其中,推理引擎支持Python解释器工具调用,可通过命令行或网页界面交互。

性能测试表明,深度为30的模型训练24小时后(计算量相当于GPT-3的千分之一),在MMLU语言理解基准取得超40分,ARC-Easy常识推理突破70分,GSM8K数学测试达20分以上。卡帕西展示的对话案例显示,基础版系统已具备撰写诗歌、回答常识问题的能力。

开源社区对该项目反应热烈。网友不仅称赞其"极具启发性",更有人制作出可交互的实时代码图谱,帮助开发者直观探索代码结构。有评论指出,这种高效开发模式为AI技术普及开辟了新路径——在适当架构设计下,百美元级成本实现基础对话功能已成为技术现实。

尽管当前版本与商用大模型存在性能差距,但其展现的性价比优势已引发行业关注。随着开源社区持续优化,这种轻量化开发模式或将在教育、客服等场景催生新的应用可能。

反对 0
举报 0
收藏 0
打赏 0
评论 0
“对偶对称”新突破!复旦团队Nature发文破解复杂晶格自组装难题
“对偶对称”新突破!复旦团队Nature发文破解复杂晶格自组装难题

0评论2026-04-021287

长安汽车成立天枢智能机器人公司,开启“移动智能体”生态新征程
长安汽车成立天枢智能机器人公司,开启“移动智能体”生态新征程

0评论2026-04-021930

高德“鹰眼守护”两轮车版上线 小牛电动率先适配助力骑行安全升级
高德“鹰眼守护”两轮车版上线 小牛电动率先适配助力骑行安全升级

0评论2026-03-312584

OpenAI关停Sora真实原因曝光:烧钱无底洞 用户留不住
OpenAI关停Sora真实原因曝光:烧钱无底洞 用户留不住

0评论2026-03-311553

信任赤字:超 75% 美国民众对 AI 持怀疑态度,行业陷入“塔西佗陷阱”
信任赤字:超 75% 美国民众对 AI 持怀疑态度,行业陷入“塔西佗陷阱”

0评论2026-03-311100

高德开源ABot-M0:首个统一架构的具身操作基座模型
高德开源ABot-M0:首个统一架构的具身操作基座模型

0评论2026-03-312387

华为盘古大模型前负责人王云鹤离职 投身AI Agent领域开启创业新程
华为盘古大模型前负责人王云鹤离职 投身AI Agent领域开启创业新程

0评论2026-03-31904

AI智能体成本难控?九大实用做法助企业实现降本增效
AI智能体成本难控?九大实用做法助企业实现降本增效

0评论2026-03-311310

高德开源全球首个统一架构具身操作基座ABot-M0,为智能领域注入新动力
高德开源全球首个统一架构具身操作基座ABot-M0,为智能领域注入新动力

0评论2026-03-311037

深圳首条年产能万台级人形机器人产线投用 助力产业规模化发展
深圳首条年产能万台级人形机器人产线投用 助力产业规模化发展

0评论2026-03-31884