AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	42a391f0fb	feat: 训练中新增验证循环 - TrainConfig 添加 val_dataset/val_step 字段 - TrainContext 添加 val_dataloader/val_loss 字段 - 新增 ValidationCallback 按 step 触发验证 + 训练结束时验证 - ProgressBar/MetricLogger 支持 val_loss 展示与记录	2026-05-17 16:12:42 +08:00
ViperEkura	c241a5dcef	refactor: 优化并行训练配置与启动管理 - 配置新增 start_method 支持 spawn/fork/forkserver 选择 - 启动方式 mp.spawn 改为 mp.start_processes，支持 daemon=True - validate() 改为基于 metadata 的反射式校验，不再硬编码字段列表 - CLI 新增 --start_method 参数	2026-05-17 12:33:10 +08:00
ViperEkura	a44fd22a99	fix: 修复训练与模型参数传递问题 - state_dict_fn 传入 CheckpointCallback，修复多卡 DDP 下 key 前缀丢失 - MLA 增加 use_qk_norm 支持，消除参数静默丢失 - moe_topk_method 统一命名为 topk_method - checkpoint 回调移至最前	2026-05-17 11:20:13 +08:00
ViperEkura	d7a7f570ed	refactor: 训练循环改为两重迭代并统一参数命名 - 训练循环从三重(epoch→batched→batch)改为二重(epoch→batch) - batch_size → batch_per_device, accumulation_steps → grad_accum_steps - scheduler 移入 step block 对齐 optimizer 更新步 - GradientClippingCallback 改用 on_step_begin 避免零梯度裁剪 - 移除 _train_impl 误导性的 -> Checkpoint 标注 - total_steps 修除为向下取整并精简为一行 - warmup_steps 改为 warmup_ratio (默认0.05)	2026-05-16 21:27:35 +08:00
ViperEkura	08dde46778	fix: 修复训练循环 step/backward 顺序，重构为三重循环嵌套 - 训练循环改用 itertools.batched 实现 epoch→step→batch 三重嵌套 - on_step_begin 包裹 batch 循环，on_step_end 后接 optimizer.step/scheduler.step - 修复首次 iteration=0 时 optimizer.step() 在 backward 之前触发的 bug - GradientClippingCallback 改为 on_step_end（梯度已累积，step 前裁剪） - SchedulerCallback 移除，schduler.step 由 trainer 在 optimizer.step 后直接调用 - metric_util 提取 _grad_stat 公共 helper，if param.grad: 修正为 is not None	2026-05-15 14:44:44 +08:00
ViperEkura	b98c9cefdc	refactor: 移除 device_ids 参数设计，统一通过 CUDA_VISIBLE_DEVICES 控制 GPU 分配；更新 README 训练示例 - setup.py: 移除 device_ids 参数，setup_parallel 直接用 rank 作为设备索引 - train_config.py: 移除 device_ids 字段 - trainer.py: 不再传递 device_ids - train.py: ddp_wrap 用 get_rank() 直接取值 - README.md, README-zh-CN.md: 训练示例改为多行命令风格，去掉参数表格	2026-05-09 14:55:43 +08:00
ViperEkura	283bcaf2ff	fix: 修复 CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致、scheduler 时序、非流式截断等 bug - train.py: 补上 --batch_size、--grpo_clip_eps，删除 3 处重复 --group_size - generate.py: --model_dir 改为 --param_path 对齐 README - automodel.py: from_pretrained 新增 strict 参数（默认 True） - parallel/setup.py: 修复 device_ids 索引越界 - train_callback.py: scheduler.step() 移至 on_step_end - test_train_strategy.py: 测试中补 optimizer.step() - engine.py: 非流式改为循环等待所有任务完成，补 remove_task 清理 - scheduler.py: Task 添加 _pages_freed 标志，杜绝双重释放 - trainer.py: accumulation_steps=0 时 clamp 为 1 - tokenizer.py: save_pretrained 添加 _tokenizer is None 检查 - benchmark.py: 修复 ModelConfig 过时 import 路径 - inference/__init__.py: 修复 stale docstring	2026-05-09 14:36:42 +08:00
ViperEkura	a6f5ff3b37	fix: 修复 remove_task 未释放 KV cache slot 导致第二轮对话死锁 - remove_task() 现在释放 KV cache slot 和 prefix cache 引用 - _refill_active_batch 中 alloc 失败时将剩余 task 推回 waiting_queue - 主循环增加 try/except 异常兜底，发送 _STOP 给所有 task - 重构：server.py 全局变量改为 ServerState 类；automodel.py 使用 Registry 替代裸 dict；合并 TrainContextBuilder 的 with_* 方法到 build()	2026-05-08 14:53:04 +08:00
ViperEkura	39766aa1dc	chore: 修改类名，优化导入顺序	2026-04-05 22:27:57 +08:00
ViperEkura	bd9741dc5f	refactor: 从data 模块分离tokenizer	2026-04-04 16:12:58 +08:00
ViperEkura	3346c75584	feat: 优化工厂模式的实现	2026-04-04 15:49:46 +08:00
ViperEkura	0852b852f8	refactor: 优化参数传递，清理导入样式	2026-04-03 22:06:32 +08:00
ViperEkura	2e009cf59a	chore: 更新项目名称	2026-03-31 09:34:11 +08:00

13 Commits