AstrAI/astrai/trainer
ViperEkura 08dde46778 fix: 修复训练循环 step/backward 顺序,重构为三重循环嵌套
- 训练循环改用 itertools.batched 实现 epoch→step→batch 三重嵌套
- on_step_begin 包裹 batch 循环,on_step_end 后接 optimizer.step/scheduler.step
- 修复首次 iteration=0 时 optimizer.step() 在 backward 之前触发的 bug
- GradientClippingCallback 改为 on_step_end(梯度已累积,step 前裁剪)
- SchedulerCallback 移除,schduler.step 由 trainer 在 optimizer.step 后直接调用
- metric_util 提取 _grad_stat 公共 helper,if param.grad: 修正为 is not None
2026-05-15 14:44:44 +08:00
..
__init__.py chore: 修改类名,优化导入顺序 2026-04-05 22:27:57 +08:00
metric_util.py fix: 修复训练循环 step/backward 顺序,重构为三重循环嵌套 2026-05-15 14:44:44 +08:00
schedule.py feat: 优化工厂模式的实现 2026-04-04 15:49:46 +08:00
strategy.py feat: GRPO CLI 接入 + on-policy,OpenAI API top_k 参数化,补充训练参数表 2026-05-09 12:22:33 +08:00
train_callback.py fix: 修复训练循环 step/backward 顺序,重构为三重循环嵌套 2026-05-15 14:44:44 +08:00
train_context.py feat: Checkpoint 支持 extra 通用扩展数据,用户通过函数自定义保存/恢复优化器等状态 2026-05-09 15:50:38 +08:00
trainer.py fix: 修复训练循环 step/backward 顺序,重构为三重循环嵌套 2026-05-15 14:44:44 +08:00