- 训练循环改用 itertools.batched 实现 epoch→step→batch 三重嵌套 - on_step_begin 包裹 batch 循环,on_step_end 后接 optimizer.step/scheduler.step - 修复首次 iteration=0 时 optimizer.step() 在 backward 之前触发的 bug - GradientClippingCallback 改为 on_step_end(梯度已累积,step 前裁剪) - SchedulerCallback 移除,schduler.step 由 trainer 在 optimizer.step 后直接调用 - metric_util 提取 _grad_stat 公共 helper,if param.grad: 修正为 is not None |
||
|---|---|---|
| .. | ||
| config | ||
| dataset | ||
| inference | ||
| model | ||
| parallel | ||
| tokenize | ||
| trainer | ||
| __init__.py | ||
| factory.py | ||
| serialization.py | ||