AstrAI/astrai/trainer
ViperEkura 445378667f feat : NEFTune 噪声注入 + label_smoothing 默认值修正
- Embedding.forward 训练时注入 randn 噪声,缩放系数 neftune_noise_alpha / sqrt(seq_len)
- TrainConfig.neftune_alpha 通过 config 传递(默认 0=关闭)
- TrainContextBuilder 将 config.neftune_alpha 写入 embed_tokens
- --neftune_alpha CLI 参数(典型值 5.0)
- label_smoothing 默认值 0.05 -> 0.0
2026-06-11 15:32:43 +08:00
..
__init__.py feat: 新增 Muon 优化器 2026-05-17 16:44:03 +08:00
metric_util.py feat: 训练中新增验证循环 2026-05-17 16:12:42 +08:00
optim.py perf: Muon step 改用 torch._foreach_* 批处理并移除 NS 迭代的冗余 bf16 转换 2026-05-23 19:50:12 +08:00
schedule.py refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
strategy.py refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
train_callback.py fix : 并行训练 state_dict 收集与训练/推理并发缺陷 2026-05-29 21:12:52 +08:00
train_context.py feat : NEFTune 噪声注入 + label_smoothing 默认值修正 2026-06-11 15:32:43 +08:00
trainer.py refactor : on_batch_begin 移入 accumulate 上下文 2026-06-06 01:19:21 +08:00