热门模型介绍

目录

热门模型介绍#

DeepSeek 系列及热门思考模型#

PaddleNLP 全面支持 DeepSeek V3/R1/R1-Distill, 及 QwQ-32B 等热门思考模型。

推理方面： DeepSeek V3/R1完整版支持 FP8、INT8、4-bit 量化推理，MTP 投机解码。单机 FP8推理输出超1000 tokens/s; 4-bit 推理输出超2100 tokens/s! 发布新版推理部署镜像，热门模型一键部署。推理部署使用文档全面更新，体验全面提升！

训练方面：凭借数据并行、数据分组切分并行、模型并行、流水线并行以及专家并行等一系列先进的分布式训练能力，结合 Paddle 框架独有的列稀疏注意力掩码表示技术——FlashMask 方法，DeepSeek-R1系列模型在训练过程中显著降低了显存消耗，同时取得了卓越的训练性能提升。

模型系列	模型名称
DeepSeek-R1	deepseek-ai/DeepSeek-R1, deepseek-ai/DeepSeek-R1-Zero, deepseek-ai/DeepSeek-R1-Distill-Llama-70B, deepseek-ai/DeepSeek-R1-Distill-Llama-8B, deepseek-ai/DeepSeek-R1-Distill-Qwen-14B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-32B, deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
QwQ	Qwen/QwQ-32B, Qwen/QwQ-32B-Preview

PP-UIE 系列#

PP-UIE 自研下一代通用信息抽取模型全新发布。强化零样本学习能力，支持极少甚至零标注数据实现高效冷启动与迁移学习，显著降低数据标注成本；具备处理长文本能力，支持 8192 个 Token 长度文档信息抽取，实现跨段落识别关键信息，形成完整理解；提供完整可定制化的训练和推理全流程，训练效率相较于 LLama-Factory 实现了1.8倍的提升。

模型系列	模型名称
PP-UIE	paddlenlp/PP-UIE-0.5B,paddlenlp/PP-UIE-1.5B, paddlenlp/PP-UIE-7B, paddlenlp/PP-UIE-14B