- state_dict_fn 传入 CheckpointCallback,修复多卡 DDP 下 key 前缀丢失 - MLA 增加 use_qk_norm 支持,消除参数静默丢失 - moe_topk_method 统一命名为 topk_method - checkpoint 回调移至最前 |
||
|---|---|---|
| .. | ||
| config | ||
| dataset | ||
| inference | ||
| model | ||
| parallel | ||
| tokenize | ||
| trainer | ||
| __init__.py | ||
| factory.py | ||
| serialization.py | ||