AstrAI/astrai
ViperEkura 445378667f feat : NEFTune 噪声注入 + label_smoothing 默认值修正
- Embedding.forward 训练时注入 randn 噪声,缩放系数 neftune_noise_alpha / sqrt(seq_len)
- TrainConfig.neftune_alpha 通过 config 传递(默认 0=关闭)
- TrainContextBuilder 将 config.neftune_alpha 写入 embed_tokens
- --neftune_alpha CLI 参数(典型值 5.0)
- label_smoothing 默认值 0.05 -> 0.0
2026-06-11 15:32:43 +08:00
..
config feat : NEFTune 噪声注入 + label_smoothing 默认值修正 2026-06-11 15:32:43 +08:00
dataset refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
inference refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
model feat : NEFTune 噪声注入 + label_smoothing 默认值修正 2026-06-11 15:32:43 +08:00
parallel refactor : 移除 LocalStrategy._clear_env 冗余清理 2026-06-02 11:40:45 +08:00
preprocessing refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
tokenize refactor : Pipeline 去除去重,ids 重命名为 sequence,泛型透传 2026-05-31 15:14:27 +08:00
trainer feat : NEFTune 噪声注入 + label_smoothing 默认值修正 2026-06-11 15:32:43 +08:00
__init__.py release : v1.3.7 2026-05-29 17:46:03 +08:00
factory.py refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
protocols.py refactor: 重构训练后端为 Executor 模式 2026-05-24 20:35:44 +08:00
serialization.py feat : load_json/load_safetensors 支持 broadcast,跨节点分布式加载 2026-05-28 20:44:58 +08:00