- train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch) - GRPOStrategy 统一 on-policy 模式,ratio = exp(logπ_θ - logπ_ref),PPO 裁剪目标,sync_interval 自动同步 ref_model - ChatCompletionRequest 新增 top_k 参数,不再硬编码 - 补充 README 完整训练参数表(含此前缺失的 max_grad_norm / adamw / window_size / stride 等) |
||
|---|---|---|
| .. | ||
| README-zh-CN.md | ||
| dataflow.md | ||
| design.md | ||
| introduction.md | ||
| params.md | ||