AI教育大牛卡帕西8000行代码打造简易版ChatGPT，百元成本开启AI新体验_智能汽车_

项目基于Rust语言开发，代码总量约8000行，涵盖了从分词器训练到模型预训练、中期训练、监督微调及强化学习的完整流程。用户只需启动云GPU服务器，运行脚本，最快4小时即可在网页界面与训练的大模型对话。

开发过程中，卡帕西摒弃了Hugging Face等流行工具，选择从零构建分词器。他指出，早期Python版本速度过慢，而现有工具过于复杂。新分词器在FineWeb数据集上训练，词汇量65536个，压缩比优于GPT-2，略逊于GPT-4。

预训练阶段使用FineWeb-EDU数据集，包含1822个分片，每个分片约0.25M字符。训练20层Transformer模型需处理11.2B tokens，计算量约4e19 FLOPs。模型参数560M，学习率自动缩放，优化器采用Muon和AdamW。

中期训练在SmolTalk数据集上进行，模型学会处理多轮对话和多项选择题。此阶段混合了MMLU辅助训练集的10万道题目，使模型能关联选项与字母，输出正确答案。训练仅需8分钟，模型即可扮演助手角色。

监督微调阶段进一步优化对话能力，修正领域不匹配问题。此过程约7分钟，模型在ARC-E/C、MMLU等数据集上的表现优于随机猜测，但在GSM8K数学题和Humaneval代码基准上的性能仍较弱。

项目还包含强化学习模块，采用简化的GRPO算法，直接在GSM8K数学题答案上优化性能。运行1.5小时后，模型解决数学题的能力有所提升。卡帕西强调，此阶段尚未完善，未纳入总耗时计算。

整个流程在8×H100 GPU上运行4小时，成本约100美元。若扩展至41.6小时，成本约1000美元，模型性能显著提升，能解决简单数学/代码问题，完成多项选择题。深度30的模型训练24小时后，在MMLU上达40多分，ARC-Easy上达70多分，GSM8K上达20多分。

nanochat的代码库设计统一、易读、可修改，支持更换分词器、调整数据、优化超参数等操作。用户可通过—depth参数改变模型层数，相关设置自动调整。卡帕西希望将其整合为研究工具框架或基准测试工具，目前项目已发布至GitHub，收获4.8k星标。

卡帕西是AI领域知名教育者，曾任特斯拉AI主管，参与创建OpenAI。他通过博客、YouTube教程及斯坦福大学CS231n课程影响众多学者和创业者。去年，他宣布创立Eureka Labs，旨在打造“教师+人工智能的共生”平台，首个课程LLM101n将手把手教用户构建故事生成大模型及Web应用。