AstrAI/astrai/model/components
ViperEkura 445378667f feat : NEFTune 噪声注入 + label_smoothing 默认值修正
- Embedding.forward 训练时注入 randn 噪声,缩放系数 neftune_noise_alpha / sqrt(seq_len)
- TrainConfig.neftune_alpha 通过 config 传递(默认 0=关闭)
- TrainContextBuilder 将 config.neftune_alpha 写入 embed_tokens
- --neftune_alpha CLI 参数(典型值 5.0)
- label_smoothing 默认值 0.05 -> 0.0
2026-06-11 15:32:43 +08:00
..
__init__.py refactor: 拆分 module.py 为 components 子包 2026-05-15 20:08:36 +08:00
attention.py refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
decoder_block.py fix: 修复 MLA 多个 bug 并缩小测试模型参数 2026-05-16 14:57:43 +08:00
embedding.py feat : NEFTune 噪声注入 + label_smoothing 默认值修正 2026-06-11 15:32:43 +08:00
linear.py refactor: 改用递归子模块 init 替代统一 normal_(0.006) 2026-05-17 10:44:18 +08:00
lora.py refactor: 统一序列化层,消除分散的 I/O 路径 2026-05-26 16:44:40 +08:00
mlp.py refactor : 清理工厂和配置系统中的死代码与冗余抽象 2026-06-07 11:39:50 +08:00
norm.py refactor: 拆分 module.py 为 components 子包 2026-05-15 20:08:36 +08:00
rope.py feat: 新增NTK-Aware RoPE缩放支持 2026-05-25 21:22:07 +08:00