技术解析篇-DeepSeek入门宝典.pdf
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 技术 解析 DeepSeek 入门 宝典
- 资源描述:
-
1、DeepSeek是什么?DeepSeek 是什么?DeepSeek R1的三大特点 使用DeepSeek的五种方式对比DeepSeek 是什么?DeepSeek是幻方量化于2023年创立的大模型子公司,创始人为梁文锋2024年1月5日,其发布第一个同名AI大模型 DeepSeek LLM2025年1月20日,DeepSeek R1正式发布,为对标对标 OpenAI o1 OpenAI o1正式版的高性能推理模型;R1上线后火速出圈,其应用创造了全球 APP APP 历史上增长最快历史上增长最快的记录 图片来源:AI产品榜图片来源:DeepSeek官网推理表现媲美OpenAI o1正式版R1开源
2、,并公开训练技术,允许开发者访问和学习R1开发成本仅为OpenAI o1的2%左右图注:DeepSeek与OpenAI各版本的准确率对比(图片来源:DeepSeek官网)DeepSeek R1的三大特点高性能高性能开源开源低成本低成本使用DeepSeek的五种方式对比普通用户普通用户作为生产力工具及技术尝鲜https:/ 和 MNN等工具硅基流动、腾讯云、阿里云等https:/ R1核心技术揭秘 R1的基座模型V3 R1的三种变体 R1训练的技术路径 R1的核心技术解析 R1的关键技术贡献R1的基座模型:V3V3V3模型的特征模型的特征V3是去年12月发布的自研 MoE 模型参数与GPT-4大
3、致在同一数量级:V3 有671B 参数,每个Token的计算激活约37B在 14.8T token 上进行了预训练R1R1在在DeepSeekDeepSeek V3 V3基础上进行了开发基础上进行了开发图注:DeepSeek V3与发布时其他主流大模型的准确率对比(图片来源:DeepSeek官网)V3V3:对标GPT-4o,通过指令微调和偏好微调提升性能R1R1:专注于推理能力R1的三种变体DeepSeek V3DeepSeek V3R1-ZeroR1-ZeroR1DeepSeek-R1-Distill基座模型变体 1变体2变体3直接强化学习训练多阶段渐进训练模型蒸馏R1训练的技术路径原图作者
4、:Sebastian RaschkaR1的核心技术解析:强化学习图片来源:基于场景动力学和强化学习的自动驾驶边缘测试场景生成方法R1采用了多种奖励的强化学习,相当于模型的“综合评分系统”,模型在完成任务时根据多个标准获得不同的奖励信号。R1的核心技术解析:冷启动数据R1 策略性地将少量高质量数据作为冷启动。这相当于训练开始前的“入门教程”,帮助模型更快地学会如何进行清晰、有逻辑的推理。R1-Zero生成的 长 思 维 链(CoT)数据挑选示例R1的冷启动数据R1的核心技术解析:监督微调图片来源:PORT:Preference Optimization on Reasoning TracesR1
展开阅读全文
