斯坦福大学CS336课程《从零开始的语言建模》是一门深度聚焦于语言模型全流程开发的实践性课程。课程借鉴操作系统类课程的设计理念,强调学生从无到有搭建完整语言模型的能力,覆盖数据收集与清洗、分词器实现、Transformer架构构建、优化器设计、模型训练与评估等关键环节。课程旨在通过项目驱动的学习方式,使学生深入理解语言模型各组成部分的原理,掌握模型优化与系统调优的方法,应对大规模训练与实际部署中的各类挑战。
学习要求
- 编程基础:需熟练掌握Python,课程作业主要基于Python实现。
- 技术背景:应具备PyTorch使用经验及系统优化相关知识,了解内存层次结构等基本系统概念。
- 数学基础:需掌握线性代数、概率论与统计学的基本内容。
- 机器学习基础:了解深度学习与机器学习的基本概念和模型。
- 课程负荷:本课程为5学分,实践强度大,需投入充足时间完成各项任务。
作业安排
- 作业1:实现语言模型核心模块,包括分词器、Transformer架构与优化器,完成一个小规模语言模型的训练。
- 作业2:用性能分析工具优化模型,实现FlashAttention2的Triton版本,编写分布式训练代码。
- 作业3:深入理解Transformer各组件的功能,通过训练API探索模型扩展规律。
- 作业4:处理原始Common Crawl数据,完成数据清洗、过滤与去重,构建适用预训练的高质量数据集。
- 作业5:应用监督微调与强化学习技术训练模型解决数学问题,可选实现安全对齐方法增强模型可靠性。
课程资源与政策
- 课程官网:https://stanford-cs336.github.io/spring2025/
- 计算资源:建议使用云服务商提供的GPU资源以高效完成作业,课程提供多个推荐选项。
- 学术诚信:支持使用AI工具进行概念咨询或辅助理解,禁止直接用于完成作业。
- 作业提交:通过Gradescope平台提交,设有最多3天的晚交宽限期。
相关文章
暂无评论...











