- executor: use_orig_params 硬编码 True,FSDP 不替换 Parameter 对象 - strategy: DPO/GRPO ref 模型创建后移到 device - sample: TemperatureStrategy clamp 1e-8,engine 验证改为 >0 - scheduler: 异常不 re-raise 避免 daemon 静默死亡,stop() 发回调给 waiting 任务 |
||
|---|---|---|
| .. | ||
| __init__.py | ||
| metric_util.py | ||
| optim.py | ||
| schedule.py | ||
| strategy.py | ||
| train_callback.py | ||
| train_context.py | ||
| trainer.py | ||