北大《DeepSeek内部研讨系列》 - 免费PDF资料下载

学习AI 9个月前学吧君

5.9K 0 3

北京大学推出的《DeepSeek内部研讨系列》系统介绍DeepSeek人工智能模型及其应用实践。《DeepSeek原理与落地应用》深入解析DeepSeek模型的基本原理、演进过程与技术创新，重点展示在推理能力、多模态处理及开源生态等方面的核心优势。通过教育、学术、知识付费等多元场景案例，如课程设计、作业评估、论文写作辅助等，具体呈现模型的实际应用价值，突出其经济高效的产品特性。《DeepSeek私有化部署和一体机》专注于模型部署方案，详细阐述个人终端部署、企业高性能部署及资源受限环境下的轻量化部署策略。同时全面介绍DeepSeek一体机的硬件配置、性能表现与适用场景，为各类用户提供从模型选择到实施落地的完整解决方案。

《DeepSeek原理与落地应用》

《DeepSeek原理与落地应用》是北京大学青鸟人工智能研究院、计算机学院元宇宙技术研究所和教育学院学习科学实验室联合推出的内部手册。系统阐述DeepSeek模型的原理架构、发展历程与技术突破，重点介绍在推理能力、多模态支持和开源生态等方面的核心优势。详细展示DeepSeek在教育、学术、医疗、知识付费等领域的落地实践，包括教学设计、作业批改、论文辅助、病理诊断等具体应用场景，通过丰富的提示词示例，帮助用户基于DeepSeek提升工作效率与学习效果。同时深入探讨模型在推理密集型任务、长文档处理、开放领域问答等方面的应用潜力，为AI技术的普惠化发展和国产化生态建设提供有力支撑。

人工智能概念辨析

大模型相关术语：解析多模态（文本、图像、音频、视频）、AI工具（如DeepSeek、豆包等）、通用模型（大语言模型、视觉模型等）与行业模型（教育、医疗、金融等领域）的基本概念。
大模型的发展历程：从人工智能演进脉络出发，介绍运算推理、知识工程、机器学习、神经网络、Transformer架构、编解码器等关键技术发展，以及生成式AI与Diffusion架构等内容。
大模型的发展阶段：对比生成模型与推理模型的特性差异，如OpenAI GPT-4o（生成模型）与OpenAI o1（推理模型）在定位、推理能力、多模态支持、应用场景和交互体验等方面的区别。
生成模型与推理大模型对比：生成模型适用于通用任务与多模态交互，推理模型在复杂逻辑和专业任务中表现优异，但交互响应较慢且多模态支持有限。

DeepSeek R1

公司背景与发展历程：DeepSeek源于幻方量化，是专注于人工智能基础研发的创新科技企业。详细介绍其成立背景、投资架构、市场定位及发展进程。
DeepSeek模型系列：对比分析DeepSeek生成模型（V3）与推理模型（R1）的设计理念、性能表现与应用范围。推理模型（R1）在复杂推理任务中成绩突出，如DROP任务F1得分92.2%，AIME 2024通过率79.8%。
核心优势：强调DeepSeek R1的三大特点——开源开放、成本优化、国产化突破，及其在推理能力方面的重大进展，成为全球大模型领域的重要引领者。
算法与算力突破：介绍DeepSeek R1的训练技术，包括混合专家模型（MOE）、多头潜在注意力（MLA）、强化学习（GRPO）等，及对AI行业的深远影响。
行业影响：DeepSeek-R1凭借低成本与开源特性打破技术垄断，推动价格调整，促进行业创新发展。
使用方式：提供三种使用途径——官方API调用、模型微调训练、直接应用使用，涵盖官网、API接口、移动应用及第三方接入等多种方式。
私有化部署：介绍模型私有化部署方案，包括Ollama部署、vLLM部署等，列举不同版本DeepSeek-R1模型及其特性。

模型原理

GPT工作原理：详细解析GPT的工作机制，包括概率预测、文本生成、Transformer架构、预训练、监督微调、人类反馈强化学习等环节，以及数据来源、参数规模与上下文窗口等内容。
生成模型优劣分析：对比生成模型的优势（如语言理解生成、知识储备、基础推理）与不足（如幻觉现象、知识局限、上下文限制）。
推理模型（DeepSeek-R1）原理：阐述DeepSeek R1的推理机制，包括思维链（Chain of Thought）、知识蒸馏（Distillation）和强化学习（Reinforcement Learning）等技术，提供相关研究文献参考。

落地应用

DeepSeek对话能力：强调DeepSeek使人机对话更加便捷，基于提示词技巧提升交流质量，适合不同层级用户快速上手。
DeepSeek提示词技巧：列举多种提示词方法，如真诚直接、通用公式、通俗表达、反向挑战、风格模仿、犀利点评、深度激发等，协助用户更好地运用DeepSeek处理任务。
- 真诚直接：明确任务目标，清晰表达需求，避免含糊描述。
- 通用公式：按照“我要（做），要给谁用，期望效果，可能问题”的公式组织提示词，帮助模型全面理解任务要求。
- 通俗表达：要求DeepSeek使用易懂的语言回应，避免过度专业或官方表述。
- 反向挑战：提出质疑性问题（如反对观点、批评视角），激发模型的深度思考与全面回答。
- 风格模仿：指定模仿对象或文体风格，使DeepSeek生成符合特定语气或风格的内容。
- 犀利点评：运用特定句式或表达方式（如“笑死”等），激发模型的批判性思维与锐利评价能力。
- 深度激发：在提示词中加入“复盘”“批判性思考”等要求，提升回答内容的深度与质量。
官方提示词解读：介绍DeepSeek官方文档中的提示词分类，如代码类、内容分类、结构化输出、角色扮演、创作类、翻译类、提示词生成等，并提供相关链接。
应用场景：列举DeepSeek R1的应用领域，包括推理密集型任务（如编程任务、数学求解）、教育知识应用（如教学设计、作业批改、个性化教案、医学诊断、论文辅助）、开放领域问答与创作等。
教育学术赋能：详细说明DeepSeek在教育领域的应用，如教学设计、教学活动、作业批改、个性化教案、医学病理诊断、论文全流程辅助、学术研究、知识付费、作业辅导等，提供具体提示词示例。
- 教学设计：规划课程大纲，明确教学内容与设计思路。
- 教学活动：设计变式题目、问题支架、课后作业及分组演练话术。
- 作业批改：为客观题提供解析，为编程题给出解题思路。
- 个性化教案：设计不同难度习题组，标注难度等级。
- 医学病理诊断：生成疾病诊断列表，进行排序并提出检查建议。
- 论文全流程辅助：协助选题确定、大纲生成、文献综述、内容扩展、润色查重。
- 学术研究：辅助文献速读、参考文献整理、学术翻译、研究方法设计、数据分析报告撰写。
- 知识付费：设计课程大纲、直播脚本、社群运营话术、付费问答内容。
- 作业辅导：从知识点定位到能力拓展，设计辅导流程方案。

《DeepSeek 私有化部署和一体机》

《DeepSeek 私有化部署和一体机》是北大青鸟人工智能研究院和北大计算机学院元宇宙技术研究所推出的模型部署指导手册。全面介绍DeepSeek模型的私有化部署方法，包括个人用户与企业级用户的部署方案。涵盖从模型选择到具体实施的全过程，提供针对不同硬件环境与业务需求的优化建议。重点介绍DeepSeek一体机，集成高性能硬件与预装模型的设备，为企业与教育机构提供开箱即用的AI解决方案。提供不同配置一体机的详细规格与性能数据，帮助企业根据自身需求选择合适的型号。

人工智能与DeepSeek

大模型相关术语：介绍多模态、AI工具（如DeepSeek、豆包等）、通用模型（包括大语言模型、生成模型、推理模型等）以及行业模型（如教育、医疗、金融等领域模型）。
大模型发展历程：回顾人工智能演进过程，包括运算推理、知识工程、机器学习、神经网络、Transformer架构等，及生成式AI的兴起，列举国内外多种大模型。
大模型发展阶段：对比生成模型与推理模型的定位、推理能力、多模态支持、应用场景和用户体验。
生成模型与推理模型对比：生成模型擅长多模态内容生成与通用任务，适合大众化应用；推理模型在复杂逻辑推理和专业领域表现优异，适合高精度推理需求。
自2024年起，AI肖睿团队便接入DeepSeek V2：介绍AI肖睿团队对DeepSeek技术体系的研究与应用，包括V2（MoE架构）、V3（MTP）和R1（推理模型）的演进，及知识蒸馏在各版本中的应用。
DeepSeek快速出圈：讲述DeepSeek V3和R1模型的发布及对行业的影响，DeepSeek公司与R1模型在2025年春节后的“出圈”现象。
公司简介：介绍DeepSeek公司的成立背景、团队分布、模型系列及与其他中国大模型企业的关系。
模型演进历史与特点：对比DeepSeek V2、V3和R1三个核心模型的架构、训练方法、关键特性与性能表现。
DeepSeek模型优势：总结DeepSeek模型的特点，如开源生态、模型蒸馏支持、低成本训练等。
DeepSeek模型特点总结：详细介绍DeepSeek模型的基础架构（如MoE、MLA、RL等）、训练框架（如FP8混合精度训练、TTC等）和社会价值。
DeepSeek-R1全家桶：列举DeepSeek-R1的各蒸馏模型及其来源与特性。
蒸馏模型概念：解释模型蒸馏的定义、原理、优势及在DeepSeek中的应用。
DeepSeek-R1蒸馏模型能力对比：提供蒸馏模型的选择经验，包括不同参数量模型的适用场景与性能表现。
DeepSeek模型应用场景：介绍DeepSeek在边缘计算、复杂数学与编程任务、中文场景等领域的应用优势。
使用方式：总结DeepSeek的多种使用途径，包括直接使用官方服务、第三方服务与API调用、个人部署和企业部署。

个人部署DeepSeek

模型部署：
- 硬件配置推荐：提供不同参数量模型的推荐硬件配置，包括CPU、内存、显存和硬盘空间要求。
- 硬件配置最低要求：提供不同参数量模型的最低硬件配置要求。
- 硬件选择建议：根据需求、预算和性能平衡，给出硬件选型建议。
- Ollama功能特点：介绍Ollama工具的特性，如开源免费、简单易用、模型丰富等。
- 软件安装步骤：详细说明Ollama客户端和Docker的安装方法。
- 环境变量配置：解释Ollama环境变量的配置方法与建议。
- 网络配置：介绍如何访问Ollama服务，包括本地部署与远程部署的网络配置注意事项。
环境准备：
- Ollama常用命令：列举Ollama的常用命令，如模型下载、运行模型、查看模型信息等。
- 使用Ollama命令下载模型：介绍下载模型的命令格式、下载过程监控和下载异常处理方法。
- 使用Ollama命令运行模型：介绍运行模型的命令格式、运行状态检查和停止运行方法。
- 模型运行效果：展示模型运行后的实际效果。
- Ollama常见问题：讨论Ollama常见的安全漏洞、未授权访问风险及模型升级后性能下降的解决方案。
前端展示：
- 前端展示：介绍PageAssist、Chatbox、OpenWebUI等前端工具的特点、适用场景和使用方法。
- 三款界面总结：对比PageAssist、Chatbox和OpenWebUI的特性与适用场景。

企业部署DeepSeek

Transformers简介：介绍Transformers库的功能特点，包括支持的模态任务、框架互操作性等。
Transformers部署模型：详细说明使用Transformers部署DeepSeek模型的步骤，包括依赖包安装、模型加载、运行测试和其他框架调用。
生成时常用参数：列举模型生成时常用参数及其含义与注意事项。
vLLM简介：介绍vLLM框架的特点，如PagedAttention技术、性能提升、与Transformers的无缝集成等。
vLLM部署模型：说明使用vLLM部署DeepSeek模型的步骤，包括依赖包安装、模型加载与启动。
vLLM参数说明：详细解释vLLM启动命令中的各参数及其作用。
vLLM实际并发性能测试：提供vLLM在不同设备与模型配置下的并发性能测试数据。
vLLM常见问题及解决方案：讨论vLLM部署过程中可能遇到的注意力机制兼容性问题及解决方法。
企业级70B模型部署案例分享：分享企业级70B模型部署案例，包括服务器配置、部署方案与经验总结。
部署方案简介：介绍DeepSeek R1满血版模型的部署方案，包括硬件需求与成本分析。
方案实现：详细说明硬件环境配置、模型下载和三种低成本部署方案（llama.cpp、KTransformers、Unsloth动态量化）的实施步骤。
- 方案一、llama.cpp：介绍llama.cpp项目的背景、安装流程、推理步骤和测试结果。
- 方案二、KTransformers：介绍KTransformers项目的背景、安装流程、模型运行方法和单并发实测效果。
- 方案三、Unsloth动态量化+Ollama：介绍如何基于llama.cpp工具合并Unsloth动态量化模型的权重文件，借助Ollama工具进行模型注册与调用。
性能测评总结：对比三种低成本部署方案在不同硬件配置下的性能表现。
部署方案总结：对三种低成本部署方案的适用性、优势与局限进行总结。