Klear-Reasoner – 快手开源的推理模型

智能 2025-08-20 15:07

声明：该文章来自（AI工具集）版权由原作者所有，K2OS渲染引擎提供网页加速服务。

Klear-Reasoner是什么

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决传统方法中探索能力受限和负样本收敛慢的问题，在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reasoner 的训练细节和全流程公开，为推理模型的发展提供重要的参考和复现路径。

Klear-Reasoner的主要功能

数学推理：Klear-Reasoner 在复杂的数学问题上表现出色，能解决高难度的数学竞赛题目。
代码生成与推理：能生成高质量的代码，通过 LiveCodeBench V5 和 V6 的评测，分别达到 66.0% 和 58.1% 的准确率。
长思维链推理：Klear-Reasoner 能处理复杂的长思维链任务，通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，提升模型在多步推理中的表现。
数据质量优化：在训练过程中，Klear-Reasoner 优先选择高质量数据源，确保模型学习到准确的推理模式，保留部分错误样本提升模型的探索能力。

Klear-Reasoner的技术原理

长思维链监督微调（long CoT SFT）：用高质量的数据源进行监督微调，确保模型学习到准确的推理模式。优先选择少数高质量数据源，避免低质量数据引入噪声。保留部分错误样本，尤其是在高难度任务中，有助于模型的探索能力。
强化学习（RL）：用强化学习进一步提升模型的推理能力，特别是在数学和代码任务上。基于软奖励机制，根据测试用例的通过率给予奖励，缓解奖励稀疏问题，提升训练效率。过滤掉测试用例存在问题的数据，确保训练数据的高质量。
GPPO（Gradient-Preserving Clipping Policy Optimization）算法：传统 PPO 和 GRPO 算法中，clip 操作会丢弃高熵 token 的梯度，限制模型的探索能力，导致负样本延迟收敛。GPPO 基于 stop gradient 操作，将 clip 操作与梯度反向传播解耦，保留所有 token 的梯度。对于高熵 token，GPPO 保留其梯度并约束在一定范围内。对于负样本 token，GPPO 保留梯度并限制在一定幅度内，加快错误修正速度。
软奖励机制：在代码任务的强化学习中，用软奖励机制（根据测试用例的通过率给予奖励）比硬奖励（完全通过得分，否则为零）更有效。软奖励机制能缓解奖励稀疏问题，增加训练信号的密度，降低梯度估计的方差，使模型的学习过程更稳定、更高效。