DeepSeek 基础概念

Jin大约 1 分钟

DeepSeek 基础概念

1、蒸馏版本

蒸馏版本是指通过知识蒸馏（Knowledge Distillation ）技术 将大规模模型的推理能力迁移到更小、更高效的模型版本中，从而在保持较高性能的同时显著降低资源消耗。

1.1、技术原理

核心思想：采用“教师-学生”框架，大模型（教师模型）向小模型（学生模型）传递知识，包括逻辑推理、答案概率分布等

数据蒸馏：用大模型生成高质量训练数据（如包含解题步骤的长思维链数据），经人工审核后供小模型学习
知识迁移：学生模型模仿教师模型的输出特征（如数学题分步解答过程），而非仅学习最终答案

1.2、应用场景

DeepSeek-R1蒸馏版（如Qwen-1.5B）通过将671B满血版的能力压缩至1.5B参数规模，在MATH-500测试中得分83.9，超越GPT-4o的74.6

轻量级任务：
- 智能客服（快速问答）、本地化AI助手（如高校课程助教）等
- 示例：武汉大学用14B蒸馏版为近万门课程提供智能辅导
高并发场景：
- 腾讯云TI平台支持蒸馏版快速API调用，适用于金融、医疗等领域的高频交互需求

1.3、与满血版的对比

维度	蒸馏版（如Qwen-1.5B）	满血版（如R1-671B）
参数量	1.5B-70B	671B（MoE架构）
硬件需求	单卡RTX 3090或CPU	8×H100 + InfiniBand网络
推理速度	15-30 token/秒（短文本）	1.5-3 token/秒（多卡加速）
适用场景	边缘设备、高并发服务	科研分析、国家级AI项目