AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	8f1b32f2b6	fix: 移除多余 request 参数并增强 tokenizer 健壮性 - 路由和 _get_engine 不再需要 request 参数，直接引用模块级 app - from_pretrained 增加文件完整性校验，缺 tokenizer.json 则抛 FileNotFoundError - 移除 from_pretrained 中未使用的 **kwargs	2026-05-17 12:52:18 +08:00
ViperEkura	c241a5dcef	refactor: 优化并行训练配置与启动管理 - 配置新增 start_method 支持 spawn/fork/forkserver 选择 - 启动方式 mp.spawn 改为 mp.start_processes，支持 daemon=True - validate() 改为基于 metadata 的反射式校验，不再硬编码字段列表 - CLI 新增 --start_method 参数	2026-05-17 12:33:10 +08:00
ViperEkura	a44fd22a99	fix: 修复训练与模型参数传递问题 - state_dict_fn 传入 CheckpointCallback，修复多卡 DDP 下 key 前缀丢失 - MLA 增加 use_qk_norm 支持，消除参数静默丢失 - moe_topk_method 统一命名为 topk_method - checkpoint 回调移至最前	2026-05-17 11:20:13 +08:00
ViperEkura	f91bfee33e	refactor: Config序列化统一BaseConfig基类 - 新增astrai/config/base.py，提供to_dict/from_dict基类 - 统一命名：load/save → from_file/to_file - Checkpoint.meta合并训练配置到meta.json - sys.stderr.warn → warnings.warn - from_file改为classmethod	2026-05-16 22:06:39 +08:00
ViperEkura	d7a7f570ed	refactor: 训练循环改为两重迭代并统一参数命名 - 训练循环从三重(epoch→batched→batch)改为二重(epoch→batch) - batch_size → batch_per_device, accumulation_steps → grad_accum_steps - scheduler 移入 step block 对齐 optimizer 更新步 - GradientClippingCallback 改用 on_step_begin 避免零梯度裁剪 - 移除 _train_impl 误导性的 -> Checkpoint 标注 - total_steps 修除为向下取整并精简为一行 - warmup_steps 改为 warmup_ratio (默认0.05)	2026-05-16 21:27:35 +08:00
ViperEkura	0ba8c70ce1	fix: 修复 MLA 多个 bug 并缩小测试模型参数 - MLA kv_b_proj 输出维度和 q_rope 切分偏移修复 - 打通 MLA 配置从 ModelConfig 到 DecoderBlock 的传递路径 - rope_theta 配置不再被忽略，MLA 使用 qk_rope_head_dim - tie_weight 使用 is True 避免 None 隐式生效 - norm_eps/rope base 类型标注修正 - 测试模型参数缩小 (dim=8, head_dim=4) - 新增 6 种架构配置 × 2 场景的前向传播测试	2026-05-16 14:57:43 +08:00
ViperEkura	e12f1a7ee5	feat: BaseModelConfig + DeepSeekMoE + 工厂模式替代 if/else - BaseModelConfig: fields() 精确字段匹配 + 类型矫正 + 未知key警告 - DeepSeekMoE: 共享专家 + 路由专家 + top-K 门控 - AttnFactory/FFNFactory: 装饰器注册，DecoderBlock 零分支 - config 用 attn_type/ffn_type 驱动组件选择	2026-05-15 20:34:52 +08:00
ViperEkura	b98c9cefdc	refactor: 移除 device_ids 参数设计，统一通过 CUDA_VISIBLE_DEVICES 控制 GPU 分配；更新 README 训练示例 - setup.py: 移除 device_ids 参数，setup_parallel 直接用 rank 作为设备索引 - train_config.py: 移除 device_ids 字段 - trainer.py: 不再传递 device_ids - train.py: ddp_wrap 用 get_rank() 直接取值 - README.md, README-zh-CN.md: 训练示例改为多行命令风格，去掉参数表格	2026-05-09 14:55:43 +08:00
ViperEkura	fc278d17ab	feat: 实现模型动态注册机制	2026-04-05 19:38:12 +08:00
ViperEkura	c94a246c71	chore: 重命名目录	2026-04-04 17:03:22 +08:00
ViperEkura	bd9741dc5f	refactor: 从data 模块分离tokenizer	2026-04-04 16:12:58 +08:00
ViperEkura	0852b852f8	refactor: 优化参数传递，清理导入样式	2026-04-03 22:06:32 +08:00
ViperEkura	912d7c7f54	chore: 更新脚本并且修改gitignore	2026-04-02 15:40:31 +08:00
ViperEkura	9f1561afe7	reafactor: 修改ModelParameter	2026-03-31 16:00:55 +08:00
ViperEkura	2e009cf59a	chore: 更新项目名称	2026-03-31 09:34:11 +08:00

15 Commits