分享好友 资讯首页 频道列表

AI教育大牛卡帕西8000行代码打造简易版ChatGPT,百元成本开启AI新体验

2025-10-15 02:2625780

项目基于Rust语言开发,代码总量约8000行,涵盖了从分词器训练到模型预训练、中期训练、监督微调及强化学习的完整流程。用户只需启动云GPU服务器,运行脚本,最快4小时即可在网页界面与训练的大模型对话。

开发过程中,卡帕西摒弃了Hugging Face等流行工具,选择从零构建分词器。他指出,早期Python版本速度过慢,而现有工具过于复杂。新分词器在FineWeb数据集上训练,词汇量65536个,压缩比优于GPT-2,略逊于GPT-4。

预训练阶段使用FineWeb-EDU数据集,包含1822个分片,每个分片约0.25M字符。训练20层Transformer模型需处理11.2B tokens,计算量约4e19 FLOPs。模型参数560M,学习率自动缩放,优化器采用Muon和AdamW。

中期训练在SmolTalk数据集上进行,模型学会处理多轮对话和多项选择题。此阶段混合了MMLU辅助训练集的10万道题目,使模型能关联选项与字母,输出正确答案。训练仅需8分钟,模型即可扮演助手角色。

监督微调阶段进一步优化对话能力,修正领域不匹配问题。此过程约7分钟,模型在ARC-E/C、MMLU等数据集上的表现优于随机猜测,但在GSM8K数学题和Humaneval代码基准上的性能仍较弱。

项目还包含强化学习模块,采用简化的GRPO算法,直接在GSM8K数学题答案上优化性能。运行1.5小时后,模型解决数学题的能力有所提升。卡帕西强调,此阶段尚未完善,未纳入总耗时计算。

整个流程在8×H100 GPU上运行4小时,成本约100美元。若扩展至41.6小时,成本约1000美元,模型性能显著提升,能解决简单数学/代码问题,完成多项选择题。深度30的模型训练24小时后,在MMLU上达40多分,ARC-Easy上达70多分,GSM8K上达20多分。

nanochat的代码库设计统一、易读、可修改,支持更换分词器、调整数据、优化超参数等操作。用户可通过—depth参数改变模型层数,相关设置自动调整。卡帕西希望将其整合为研究工具框架或基准测试工具,目前项目已发布至GitHub,收获4.8k星标。

卡帕西是AI领域知名教育者,曾任特斯拉AI主管,参与创建OpenAI。他通过博客、YouTube教程及斯坦福大学CS231n课程影响众多学者和创业者。去年,他宣布创立Eureka Labs,旨在打造“教师+人工智能的共生”平台,首个课程LLM101n将手把手教用户构建故事生成大模型及Web应用。

反对 0
举报 0
收藏 0
打赏 0
评论 0
长安蓝鲸超擎混动技术登场 城区油耗创新低 开启混动新篇章
长安蓝鲸超擎混动技术登场 城区油耗创新低 开启混动新篇章

0评论2026-03-311796

力箭二号遥一首飞成功!“拼积木”设计助力商业航天迈向新高度
力箭二号遥一首飞成功!“拼积木”设计助力商业航天迈向新高度

0评论2026-03-312756

中科宇航樊娜谈商业航天:先满足低轨部署需求,回收降本未来可期
中科宇航樊娜谈商业航天:先满足低轨部署需求,回收降本未来可期

0评论2026-03-311725

力箭二号首飞成功!3颗卫星精准入轨,中国航天再添新辉煌
力箭二号首飞成功!3颗卫星精准入轨,中国航天再添新辉煌

0评论2026-03-311645

力箭二号遥一运载火箭首飞成功 3颗卫星顺利入轨开启新征程
力箭二号遥一运载火箭首飞成功 3颗卫星顺利入轨开启新征程

0评论2026-03-311611

汽车博主发14条微博贬损问界 法院认定侵权判其致歉赔偿
汽车博主发14条微博贬损问界 法院认定侵权判其致歉赔偿

0评论2026-03-311813

力箭二号遥一火箭成功发射 轻舟初样试飞船开启在轨技术试验新征程
力箭二号遥一火箭成功发射 轻舟初样试飞船开启在轨技术试验新征程

0评论2026-03-311487

中国力箭二号成功发射轻舟初样试飞船 开启在轨技术试验新篇章
中国力箭二号成功发射轻舟初样试飞船 开启在轨技术试验新篇章

0评论2026-03-312068

长鹰-8首飞告捷!3.5吨载重无人机开启低空运输新篇章
长鹰-8首飞告捷!3.5吨载重无人机开启低空运输新篇章

0评论2026-03-312579