AstrAI/astrai
ViperEkura 48a53121ba refactor: 工厂 kwargs 过滤及组件参数清理
- BaseFactory.create() 按 __init__ 签名过滤多余 kwargs
- 移除 GQA/MLA/MLP/DeepSeekMoE 中多余的 **kwargs
- MLP/DeepSeekMoE 参数名统一为 dim_ffn
- scheduler max_seq_len 增加 None 显式判断
- 默认 max_prompt_len 提升至 2048
2026-05-16 16:47:41 +08:00
..
config fix: 修复 MLA 多个 bug 并缩小测试模型参数 2026-05-16 14:57:43 +08:00
dataset fix: MultiSegmentFetcher 空 dict 崩溃 + BaseDataset assert 替换为显式 raise 2026-05-12 11:41:45 +08:00
inference refactor: 工厂 kwargs 过滤及组件参数清理 2026-05-16 16:47:41 +08:00
model refactor: 工厂 kwargs 过滤及组件参数清理 2026-05-16 16:47:41 +08:00
parallel refactor: 移除 device_ids 参数设计,统一通过 CUDA_VISIBLE_DEVICES 控制 GPU 分配;更新 README 训练示例 2026-05-09 14:55:43 +08:00
tokenize fix: 修复 CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致、scheduler 时序、非流式截断等 bug 2026-05-09 14:36:42 +08:00
trainer fix: 修复训练循环 step/backward 顺序,重构为三重循环嵌套 2026-05-15 14:44:44 +08:00
__init__.py chore: 版本号升至 1.3.5 2026-05-15 18:23:27 +08:00
factory.py refactor: 工厂 kwargs 过滤及组件参数清理 2026-05-16 16:47:41 +08:00
serialization.py refactor: 抽取 BaseStorage 存储抽象,支持 JSON 原始文本数据加载 2026-05-12 11:17:24 +08:00