AstrAI

History

ViperEkura bc7c82977e feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表 - train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch) - GRPOStrategy 统一 on-policy 模式，ratio = exp(logπ_θ - logπ_ref)，PPO 裁剪目标，sync_interval 自动同步 ref_model - ChatCompletionRequest 新增 top_k 参数，不再硬编码 - 补充 README 完整训练参数表（含此前缺失的 max_grad_norm / adamw / window_size / stride 等）	2026-05-09 12:22:33 +08:00
..
docs	feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表	2026-05-09 12:22:33 +08:00
images	docs: 更新说明内容	2026-03-31 15:18:49 +08:00

ViperEkura bc7c82977e feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表

- train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch)
- GRPOStrategy 统一 on-policy 模式，ratio = exp(logπ_θ - logπ_ref)，PPO 裁剪目标，sync_interval 自动同步 ref_model
- ChatCompletionRequest 新增 top_k 参数，不再硬编码
- 补充 README 完整训练参数表（含此前缺失的 max_grad_norm / adamw / window_size / stride 等）

2026-05-09 12:22:33 +08:00

docs

feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表

2026-05-09 12:22:33 +08:00

images

docs: 更新说明内容

2026-03-31 15:18:49 +08:00