AstrAI

History

ViperEkura bc7c82977e feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表 - train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch) - GRPOStrategy 统一 on-policy 模式，ratio = exp(logπ_θ - logπ_ref)，PPO 裁剪目标，sync_interval 自动同步 ref_model - ChatCompletionRequest 新增 top_k 参数，不再硬编码 - 补充 README 完整训练参数表（含此前缺失的 max_grad_norm / adamw / window_size / stride 等）		2026-05-09 12:22:33 +08:00
..
config	feat: 实现模型动态注册机制	2026-04-05 19:38:12 +08:00
dataset	chore: 修改错误拼写	2026-04-06 10:37:19 +08:00
inference	feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表	2026-05-09 12:22:33 +08:00
model	refactor: 分页 KV cache 替换固定 slot，删除 PrefixCache 及相关死代码	2026-05-08 20:44:05 +08:00
parallel	refactor: 优化参数传递，清理导入样式	2026-04-03 22:06:32 +08:00
tokenize	refactor: 精简推理引擎代码，优化参数传递规范	2026-04-09 14:17:48 +08:00
trainer	feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表	2026-05-09 12:22:33 +08:00
__init__.py	chore: 优化未使用的模块	2026-04-06 09:54:17 +08:00
factory.py	chore: 修改类名，优化导入顺序	2026-04-05 22:27:57 +08:00
serialization.py	refactor: 从data 模块分离tokenizer	2026-04-04 16:12:58 +08:00