Deepseek
- DeepSeek-R1
- DeepSeek-R1 (671B)
- DeepSeek-V3
蒸馏模型
- DeepSeek-R1-Distill-Qwen-1.5B:适合轻量级任务,如简单文本生成、基础问答和低资源设备上的应用。
- DeepSeek-R1-Distill-Qwen-7B:适合中等复杂度任务,如文本摘要、翻译、对话生成和内容创作。
- DeepSeek-R1-Distill-Qwen-14B:适合高复杂度任务,如长文本生成、深度问答、知识推理和高级对话系统。
- DeepSeek-R1-Distill-Qwen-32B:适合高精度任务,如复杂推理、大规模知识库问答、专业领域内容生成和研究级应用。
- DeepSeek-R1-Distill-Llama-8B:与7B类似,性能略有提升,适合更复杂的文本生成和理解任务。
- DeepSeek-R1-Distill-Llama-70B