AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	f91bfee33e	refactor: Config序列化统一BaseConfig基类 - 新增astrai/config/base.py，提供to_dict/from_dict基类 - 统一命名：load/save → from_file/to_file - Checkpoint.meta合并训练配置到meta.json - sys.stderr.warn → warnings.warn - from_file改为classmethod	2026-05-16 22:06:39 +08:00
ViperEkura	d7a7f570ed	refactor: 训练循环改为两重迭代并统一参数命名 - 训练循环从三重(epoch→batched→batch)改为二重(epoch→batch) - batch_size → batch_per_device, accumulation_steps → grad_accum_steps - scheduler 移入 step block 对齐 optimizer 更新步 - GradientClippingCallback 改用 on_step_begin 避免零梯度裁剪 - 移除 _train_impl 误导性的 -> Checkpoint 标注 - total_steps 修除为向下取整并精简为一行 - warmup_steps 改为 warmup_ratio (默认0.05)	2026-05-16 21:27:35 +08:00
ViperEkura	7dea929788	refactor: checkpoint 按 HF 方式存独立 .pt 文件，callback 接管恢复 - Checkpoint.save/load: extra 逐 key 写为 {key}.pt 而非单个 extra.pt - meta.json 新增 timestamp - CheckpointCallback: save_extra/load_extra 静态方法 + extra_keys 类属性 - on_train_begin 接管 optimizer/scheduler 恢复，TrainContextBuilder 不再传 load_extra_fn	2026-05-16 18:29:04 +08:00
ViperEkura	08dde46778	fix: 修复训练循环 step/backward 顺序，重构为三重循环嵌套 - 训练循环改用 itertools.batched 实现 epoch→step→batch 三重嵌套 - on_step_begin 包裹 batch 循环，on_step_end 后接 optimizer.step/scheduler.step - 修复首次 iteration=0 时 optimizer.step() 在 backward 之前触发的 bug - GradientClippingCallback 改为 on_step_end（梯度已累积，step 前裁剪） - SchedulerCallback 移除，schduler.step 由 trainer 在 optimizer.step 后直接调用 - metric_util 提取 _grad_stat 公共 helper，if param.grad: 修正为 is not None	2026-05-15 14:44:44 +08:00
ViperEkura	18fe6e9339	refactor: 消除多处重复模式，统一工厂和参数传递 - AutoModel 继承 BaseFactory，消除自建 Registry（-30 行） - executor.execute_prefill 删除重复 forward 代码块（bug） - train_callback 移除 Protocol 上矛盾的 issubclass 检查 - engine.py 内部方法统一传 GenerationParams，校验内聚 - protocol.py SSEBuilder 类→函数，handle() 用 GenerationParams - StreamContext 动态属性改为显式 dataclass 字段 - BaseFactory 新增 get_component_class 方法	2026-05-14 18:00:50 +08:00
ViperEkura	ca4e6b907c	feat: Checkpoint 支持 extra 通用扩展数据，用户通过函数自定义保存/恢复优化器等状态 - serialization.py: Checkpoint 新增 extra: dict 字段， save() 写入 extra.pt，load() 自动恢复 - train_callback.py: CheckpointCallback 新增 save_extra_fn 参数，用户传入 (context) -> dict 决定保存哪些额外状态 - train_context.py: TrainContextBuilder 新增 load_extra_fn 参数，用户传入 (extra, context) 从 checkpoint 恢复状态	2026-05-09 15:50:38 +08:00
ViperEkura	db99d8b254	fix: 修复文档多处不准确 + inference scheduler 越界 bug + SchedulerCallback 回调阶段修正文档 (6 个文件): - design.md: 15+ 处修正 — persistent_key_values→paged_cache, MLA 字段重写, Server/ParallelSetup 不存在类移除, 关系箭头方向修复, SchedulerCallback 阶段修正等 - dataflow.md: 重写数据流图和描述, 修复训练回调顺序、数据键名、MLA 归属、MetricTracker 等错误 - introduction.md: 层数 32→24, MLP 图双 Linear 修正, 默认值/响应字段/health 端点修复 - params.md: 补充 grpo 及 4 个 GRPO 参数 - README.md / README-zh-CN.md: generate.py 补全必需参数, 删除重复注释, HuggingFace 声明修正代码 (2 个文件): - scheduler.py: n_pages 池加 page_size 余量防止越界; decode 前预分配页 - train_callback.py: SchedulerCallback 从 on_step_end 改回 on_batch_end (按 batch 步进学习率)	2026-05-09 15:40:17 +08:00
ViperEkura	b98c9cefdc	refactor: 移除 device_ids 参数设计，统一通过 CUDA_VISIBLE_DEVICES 控制 GPU 分配；更新 README 训练示例 - setup.py: 移除 device_ids 参数，setup_parallel 直接用 rank 作为设备索引 - train_config.py: 移除 device_ids 字段 - trainer.py: 不再传递 device_ids - train.py: ddp_wrap 用 get_rank() 直接取值 - README.md, README-zh-CN.md: 训练示例改为多行命令风格，去掉参数表格	2026-05-09 14:55:43 +08:00
ViperEkura	283bcaf2ff	fix: 修复 CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致、scheduler 时序、非流式截断等 bug - train.py: 补上 --batch_size、--grpo_clip_eps，删除 3 处重复 --group_size - generate.py: --model_dir 改为 --param_path 对齐 README - automodel.py: from_pretrained 新增 strict 参数（默认 True） - parallel/setup.py: 修复 device_ids 索引越界 - train_callback.py: scheduler.step() 移至 on_step_end - test_train_strategy.py: 测试中补 optimizer.step() - engine.py: 非流式改为循环等待所有任务完成，补 remove_task 清理 - scheduler.py: Task 添加 _pages_freed 标志，杜绝双重释放 - trainer.py: accumulation_steps=0 时 clamp 为 1 - tokenizer.py: save_pretrained 添加 _tokenizer is None 检查 - benchmark.py: 修复 ModelConfig 过时 import 路径 - inference/__init__.py: 修复 stale docstring	2026-05-09 14:36:42 +08:00
ViperEkura	bc7c82977e	feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表 - train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch) - GRPOStrategy 统一 on-policy 模式，ratio = exp(logπ_θ - logπ_ref)，PPO 裁剪目标，sync_interval 自动同步 ref_model - ChatCompletionRequest 新增 top_k 参数，不再硬编码 - 补充 README 完整训练参数表（含此前缺失的 max_grad_norm / adamw / window_size / stride 等）	2026-05-09 12:22:33 +08:00
ViperEkura	a6f5ff3b37	fix: 修复 remove_task 未释放 KV cache slot 导致第二轮对话死锁 - remove_task() 现在释放 KV cache slot 和 prefix cache 引用 - _refill_active_batch 中 alloc 失败时将剩余 task 推回 waiting_queue - 主循环增加 try/except 异常兜底，发送 _STOP 给所有 task - 重构：server.py 全局变量改为 ServerState 类；automodel.py 使用 Registry 替代裸 dict；合并 TrainContextBuilder 的 with_* 方法到 build()	2026-05-08 14:53:04 +08:00
ViperEkura	3fee87897d	chore: 修改拼写错误问题	2026-04-06 09:28:16 +08:00
ViperEkura	39766aa1dc	chore: 修改类名，优化导入顺序	2026-04-05 22:27:57 +08:00
ViperEkura	9c31d78a22	chore: 将data 模块命名为dataset	2026-04-04 16:16:27 +08:00
ViperEkura	bd9741dc5f	refactor: 从data 模块分离tokenizer	2026-04-04 16:12:58 +08:00
ViperEkura	3346c75584	feat: 优化工厂模式的实现	2026-04-04 15:49:46 +08:00
ViperEkura	e97536758f	refactor: 优化工厂模式结构	2026-04-04 11:33:58 +08:00
ViperEkura	0852b852f8	refactor: 优化参数传递，清理导入样式	2026-04-03 22:06:32 +08:00
ViperEkura	2e009cf59a	chore: 更新项目名称	2026-03-31 09:34:11 +08:00

19 Commits