分享好友 资讯首页 频道列表

AI教育大牛卡帕西8000行代码打造简易版ChatGPT,百元成本开启AI新体验

2025-10-15 02:2624200

项目基于Rust语言开发,代码总量约8000行,涵盖了从分词器训练到模型预训练、中期训练、监督微调及强化学习的完整流程。用户只需启动云GPU服务器,运行脚本,最快4小时即可在网页界面与训练的大模型对话。

开发过程中,卡帕西摒弃了Hugging Face等流行工具,选择从零构建分词器。他指出,早期Python版本速度过慢,而现有工具过于复杂。新分词器在FineWeb数据集上训练,词汇量65536个,压缩比优于GPT-2,略逊于GPT-4。

预训练阶段使用FineWeb-EDU数据集,包含1822个分片,每个分片约0.25M字符。训练20层Transformer模型需处理11.2B tokens,计算量约4e19 FLOPs。模型参数560M,学习率自动缩放,优化器采用Muon和AdamW。

中期训练在SmolTalk数据集上进行,模型学会处理多轮对话和多项选择题。此阶段混合了MMLU辅助训练集的10万道题目,使模型能关联选项与字母,输出正确答案。训练仅需8分钟,模型即可扮演助手角色。

监督微调阶段进一步优化对话能力,修正领域不匹配问题。此过程约7分钟,模型在ARC-E/C、MMLU等数据集上的表现优于随机猜测,但在GSM8K数学题和Humaneval代码基准上的性能仍较弱。

项目还包含强化学习模块,采用简化的GRPO算法,直接在GSM8K数学题答案上优化性能。运行1.5小时后,模型解决数学题的能力有所提升。卡帕西强调,此阶段尚未完善,未纳入总耗时计算。

整个流程在8×H100 GPU上运行4小时,成本约100美元。若扩展至41.6小时,成本约1000美元,模型性能显著提升,能解决简单数学/代码问题,完成多项选择题。深度30的模型训练24小时后,在MMLU上达40多分,ARC-Easy上达70多分,GSM8K上达20多分。

nanochat的代码库设计统一、易读、可修改,支持更换分词器、调整数据、优化超参数等操作。用户可通过—depth参数改变模型层数,相关设置自动调整。卡帕西希望将其整合为研究工具框架或基准测试工具,目前项目已发布至GitHub,收获4.8k星标。

卡帕西是AI领域知名教育者,曾任特斯拉AI主管,参与创建OpenAI。他通过博客、YouTube教程及斯坦福大学CS231n课程影响众多学者和创业者。去年,他宣布创立Eureka Labs,旨在打造“教师+人工智能的共生”平台,首个课程LLM101n将手把手教用户构建故事生成大模型及Web应用。

反对 0
举报 0
收藏 0
打赏 0
评论 0
Jeep牧马人4xe推送OTA更新出故障,高速疾驰时动力系统竟骤停
Jeep牧马人4xe推送OTA更新出故障,高速疾驰时动力系统竟骤停

0评论2025-10-152746

京东联合宁德时代、广汽推新车,独家回应:仅提供洞察与销售,不涉制造
京东联合宁德时代、广汽推新车,独家回应:仅提供洞察与销售,不涉制造

0评论2025-10-152455

京东11.11火热进行中:带电品类领涨,独家定制与趋势商品销售爆发
京东11.11火热进行中:带电品类领涨,独家定制与趋势商品销售爆发

0评论2025-10-15958

京东就“下场造车”传闻回应:与宁德时代、广汽联合推新,仅提供洞察与销售
京东就“下场造车”传闻回应:与宁德时代、广汽联合推新,仅提供洞察与销售

0评论2025-10-152786

特斯拉“Banish”功能将至:用户下车后车辆自动找位泊车并接驾
特斯拉“Banish”功能将至:用户下车后车辆自动找位泊车并接驾

0评论2025-10-152669

AR镀膜减反射玻璃上手机屏,强光下告别眩光烦恼,清晰视界触手可及
AR镀膜减反射玻璃上手机屏,强光下告别眩光烦恼,清晰视界触手可及

0评论2025-10-151026

京东双11携手宁德时代、广汽,独家推出“国民好车”共赴汽车新旅程
京东双11携手宁德时代、广汽,独家推出“国民好车”共赴汽车新旅程

0评论2025-10-15585

特斯拉Autopilot可视化系统再升级,新增多种车辆及场景渲染模型
特斯拉Autopilot可视化系统再升级,新增多种车辆及场景渲染模型

0评论2025-10-152759

新能源车自燃风险远低于燃油车?数据揭秘真相,购车别被误导!
新能源车自燃风险远低于燃油车?数据揭秘真相,购车别被误导!

0评论2025-10-151532

京东携手广汽与宁德时代,2025京东11.11期间神秘国民好车11月9日将亮相
京东携手广汽与宁德时代,2025京东11.11期间神秘国民好车11月9日将亮相

0评论2025-10-151965