AstrAI/astrai/inference
ViperEkura bc7c82977e feat: GRPO CLI 接入 + on-policy,OpenAI API top_k 参数化,补充训练参数表
- train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch)
- GRPOStrategy 统一 on-policy 模式,ratio = exp(logπ_θ - logπ_ref),PPO 裁剪目标,sync_interval 自动同步 ref_model
- ChatCompletionRequest 新增 top_k 参数,不再硬编码
- 补充 README 完整训练参数表(含此前缺失的 max_grad_norm / adamw / window_size / stride 等)
2026-05-09 12:22:33 +08:00
..
__init__.py refactor: 统一采样路径为 Strategy + batch tensor,删除 apply_sampling_strategies 2026-05-08 19:07:14 +08:00
cache.py refactor: 分页 KV cache 替换固定 slot,删除 PrefixCache 及相关死代码 2026-05-08 20:44:05 +08:00
engine.py refactor: 分页 KV cache 替换固定 slot,删除 PrefixCache 及相关死代码 2026-05-08 20:44:05 +08:00
sampling.py refactor: 分页 KV cache 替换固定 slot,删除 PrefixCache 及相关死代码 2026-05-08 20:44:05 +08:00
scheduler.py fix: 减少调度器延迟 — 移除解码路径 5ms 睡眠,修复 refill 任务丢失 bug 2026-05-08 21:13:52 +08:00
server.py feat: GRPO CLI 接入 + on-policy,OpenAI API top_k 参数化,补充训练参数表 2026-05-09 12:22:33 +08:00