- executor: use_orig_params 硬编码 True,FSDP 不替换 Parameter 对象 - strategy: DPO/GRPO ref 模型创建后移到 device - sample: TemperatureStrategy clamp 1e-8,engine 验证改为 >0 - scheduler: 异常不 re-raise 避免 daemon 静默死亡,stop() 发回调给 waiting 任务 |
||
|---|---|---|
| .. | ||
| api | ||
| core | ||
| __init__.py | ||
| engine.py | ||
| sample.py | ||