分享好友 资讯首页 频道列表

AI教育大牛卡帕西8000行代码打造简易版ChatGPT,百元成本开启AI新体验

2025-10-15 02:2626100

项目基于Rust语言开发,代码总量约8000行,涵盖了从分词器训练到模型预训练、中期训练、监督微调及强化学习的完整流程。用户只需启动云GPU服务器,运行脚本,最快4小时即可在网页界面与训练的大模型对话。

开发过程中,卡帕西摒弃了Hugging Face等流行工具,选择从零构建分词器。他指出,早期Python版本速度过慢,而现有工具过于复杂。新分词器在FineWeb数据集上训练,词汇量65536个,压缩比优于GPT-2,略逊于GPT-4。

预训练阶段使用FineWeb-EDU数据集,包含1822个分片,每个分片约0.25M字符。训练20层Transformer模型需处理11.2B tokens,计算量约4e19 FLOPs。模型参数560M,学习率自动缩放,优化器采用Muon和AdamW。

中期训练在SmolTalk数据集上进行,模型学会处理多轮对话和多项选择题。此阶段混合了MMLU辅助训练集的10万道题目,使模型能关联选项与字母,输出正确答案。训练仅需8分钟,模型即可扮演助手角色。

监督微调阶段进一步优化对话能力,修正领域不匹配问题。此过程约7分钟,模型在ARC-E/C、MMLU等数据集上的表现优于随机猜测,但在GSM8K数学题和Humaneval代码基准上的性能仍较弱。

项目还包含强化学习模块,采用简化的GRPO算法,直接在GSM8K数学题答案上优化性能。运行1.5小时后,模型解决数学题的能力有所提升。卡帕西强调,此阶段尚未完善,未纳入总耗时计算。

整个流程在8×H100 GPU上运行4小时,成本约100美元。若扩展至41.6小时,成本约1000美元,模型性能显著提升,能解决简单数学/代码问题,完成多项选择题。深度30的模型训练24小时后,在MMLU上达40多分,ARC-Easy上达70多分,GSM8K上达20多分。

nanochat的代码库设计统一、易读、可修改,支持更换分词器、调整数据、优化超参数等操作。用户可通过—depth参数改变模型层数,相关设置自动调整。卡帕西希望将其整合为研究工具框架或基准测试工具,目前项目已发布至GitHub,收获4.8k星标。

卡帕西是AI领域知名教育者,曾任特斯拉AI主管,参与创建OpenAI。他通过博客、YouTube教程及斯坦福大学CS231n课程影响众多学者和创业者。去年,他宣布创立Eureka Labs,旨在打造“教师+人工智能的共生”平台,首个课程LLM101n将手把手教用户构建故事生成大模型及Web应用。

反对 0
举报 0
收藏 0
打赏 0
评论 0
长三角量子计算“协同共进”:多技术路线并跑,抢占全球先机
长三角量子计算“协同共进”:多技术路线并跑,抢占全球先机

0评论2026-05-181448

特斯拉解封17份Robotaxi碰撞报告:多数被追尾
特斯拉解封17份Robotaxi碰撞报告:多数被追尾

0评论2026-05-182897

6月1日起新规实施!疲劳驾驶判定升级 三维标准守护出行安全
6月1日起新规实施!疲劳驾驶判定升级 三维标准守护出行安全

0评论2026-05-181748

国产103号赛级汽油问世,高性能环保兼备,家用车无需但意义非凡
国产103号赛级汽油问世,高性能环保兼备,家用车无需但意义非凡

0评论2026-05-18558

蔚来杨波:本周将迎来全新ES8汽车第11万台的交付
蔚来杨波:本周将迎来全新ES8汽车第11万台的交付

0评论2026-05-182237