分享好友 资讯首页 频道列表

AI大牛卡帕西开源nanochat:百元成本4小时训练,12小时性能超GPT-2

2025-10-15 02:2613660

不同于卡帕西早期开发的纯预训练模型nanoGPT,此次发布的nanochat构建了完整的全栈训练-推理流程。项目通过精简代码库(仅8304行代码),整合了从数据预处理到强化学习的全流程,其架构设计融合了meta Llama的简化结构与modded-nanoGPT的改进方案。开发者只需启动云GPU实例并运行单个脚本,最快4小时即可完成基础模型训练。

实验数据显示,该系统在成本控制方面表现突出。卡帕西透露,完成指令微调(SFT)阶段的训练仅耗时3小时51分钟,总成本92.4美元(约合人民币657.4元)。当训练时长延长至12小时,模型在CORE评估指标上的表现已超越GPT-2;若投入提升至1000美元(约合人民币7114.7元)进行41.6小时训练,系统可解决基础数学与编程问题,并通过选择题测试。

技术实现层面,项目包含七大核心功能:采用Rust语言重写的训练分词器、基于FineWeb数据集的预训练机制、多阶段中期训练(含用户对话数据与工具使用数据)、指令微调与多基准评估、可选的GRPO强化学习算法、带KV缓存的高效推理引擎,以及自动生成的Markdown评估报告。其中,推理引擎支持Python解释器工具调用,可通过命令行或网页界面交互。

性能测试表明,深度为30的模型训练24小时后(计算量相当于GPT-3的千分之一),在MMLU语言理解基准取得超40分,ARC-Easy常识推理突破70分,GSM8K数学测试达20分以上。卡帕西展示的对话案例显示,基础版系统已具备撰写诗歌、回答常识问题的能力。

开源社区对该项目反应热烈。网友不仅称赞其"极具启发性",更有人制作出可交互的实时代码图谱,帮助开发者直观探索代码结构。有评论指出,这种高效开发模式为AI技术普及开辟了新路径——在适当架构设计下,百美元级成本实现基础对话功能已成为技术现实。

尽管当前版本与商用大模型存在性能差距,但其展现的性价比优势已引发行业关注。随着开源社区持续优化,这种轻量化开发模式或将在教育、客服等场景催生新的应用可能。

反对 0
举报 0
收藏 0
打赏 0
评论 0
海尔与阿里巴巴达成全面AI合作 共探AI+云电商全球化等多领域新路径
海尔与阿里巴巴达成全面AI合作 共探AI+云电商全球化等多领域新路径

0评论2025-10-15980

OpenAI携手博通2026年推定制AI芯片,多元化算力布局下博通市值再攀升
OpenAI携手博通2026年推定制AI芯片,多元化算力布局下博通市值再攀升

0评论2025-10-151865

OpenAI与博通共启10GW自研AI芯片项目,合作或引领AI基础设施新变革
OpenAI与博通共启10GW自研AI芯片项目,合作或引领AI基础设施新变革

0评论2025-10-152846

博通CEO陈福阳详述与OpenAI合作:四年开发10吉瓦定制AI芯片
博通CEO陈福阳详述与OpenAI合作:四年开发10吉瓦定制AI芯片

0评论2025-10-151630

信息学院师生云端探秘科大讯飞,共赴人工智能前沿探索之约
信息学院师生云端探秘科大讯飞,共赴人工智能前沿探索之约

0评论2025-10-152259

三星电子2025年三季业绩预喜,AI助力存储芯片涨价促利润大增
三星电子2025年三季业绩预喜,AI助力存储芯片涨价促利润大增

0评论2025-10-152353

四川首批元宇宙工业研学点发布!解锁科技前沿新玩法
四川首批元宇宙工业研学点发布!解锁科技前沿新玩法

0评论2025-10-151955

三星电子Q3利润预增超三成,AI热潮下存储芯片成增长新引擎
三星电子Q3利润预增超三成,AI热潮下存储芯片成增长新引擎

0评论2025-10-151856

OpenAI与博通合作定制芯片,拟再投数千亿扩增AI算力储备
OpenAI与博通合作定制芯片,拟再投数千亿扩增AI算力储备

0评论2025-10-151881

OpenAI携手博通共启新篇:联合开发10吉瓦级AI加速器,构建算力新生态
OpenAI携手博通共启新篇:联合开发10吉瓦级AI加速器,构建算力新生态

0评论2025-10-15743