AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	737585a32a	feat: 新增NTK-Aware RoPE缩放支持 - RotaryEmbedding接受rope_scaling配置,自动计算scaled base - AutoRegressiveLMConfig和EncoderConfig新增rope_scaling字段	2026-05-25 21:22:07 +08:00
ViperEkura	a4688021bf	feat: 新增LoRA微调模块 - LoRALinear基于register_parameter托管base weight，state_dict路径不变 - inject_lora/merge_lora/save_lora/load_lora完备封装 - 24个单元测试覆盖注入、合并、存取、边界场景	2026-05-25 20:15:31 +08:00
ViperEkura	7df6eb9211	feat: 新增FSDP并行后端 - FSDPExecutor通过**fsdp_kwargs直传FSDP参数 - unwrap_model同时支持DDP和FSDP - parallel_mode新增fsdp选项	2026-05-25 19:43:14 +08:00
ViperEkura	3ab4f237e5	refactor: 重构训练后端为 Executor 模式 - backend.py → executor.py，BaseTrainingBackend → BaseExecutor - 新增 NoneExecutor（单卡）和 DDPExecutor（DDP，world_size=1 自动降级） - 新增 GradientState 分离梯度同步状态，AccumOptimizer/AccumScheduler 包裹拦截 - 新增 astrai/protocols.py：OptimizerProtocol/SchedulerProtocol 结构子类型 - TrainContext.backend → executor，TrainConfig 移除 parallel_wrapper/state_dict_fn，新增 parallel_mode/executor_kwargs - 训练循环用 accumulate() 包裹，on_optimizer_step 命名约定=gate - scripts/tools/train.py 移除 ddp_wrap/prepare_checkpoint，新增 --parallel_mode	2026-05-24 20:35:44 +08:00
ViperEkura	8cbf3f36e2	feat: 新增训练后端工厂框架 - BaseTrainingBackend 定义 prepare/accumulate/unwrap_model 抽象 - DDPTrainingBackend 支持全部 DDP 参数并通过 BackendFactory 注册 - unwrap_model 改为实例方法，由子类各自实现	2026-05-24 15:15:14 +08:00
ViperEkura	0594ce1017	perf: Muon step 改用 torch._foreach_* 批处理并移除 NS 迭代的冗余 bf16 转换	2026-05-23 19:50:12 +08:00
ViperEkura	ff509ff39f	fix: decode后task_extend失败时提前中止，scheduler崩溃时通知waiting任务	2026-05-20 19:23:13 +08:00
ViperEkura	785d65436c	fix: 修复 to_dict list 类型丢失与 OpenAI stop 参数失效 - to_dict() 增加 list 类型序列化支持，metrics 等字段不再丢失 - OpenAIHandler 补充 get_stop_sequences/on_token，读取 request.stop 并检测停止序列 - 文档类图补充缺失字段、修正关系分类、ChatCompletionRequest 字段增加 Optional	2026-05-19 21:07:07 +08:00
ViperEkura	64be81b7b3	feat: ProgressBarCallback 支持日志行输出到 stdout - serialization 和 metric_logger 的 timestamp 统一使用 ISO 8601 格式 - ProgressBarCallback 新增 log_interval/file 参数，默认输出到 sys.stdout	2026-05-19 19:12:38 +08:00
ViperEkura	45479b5731	feat: metric 参数通过 TrainConfig 传递 - TrainConfig 新增 log_dir/log_interval/metrics 配置字段 - metric_logger 调用改用 **kwargs 传递，BaseFactory.create 自动过滤	2026-05-19 17:50:24 +08:00
ViperEkura	14b0d56197	fix: 修复无法创建子进程的问题 - mp.start_processes daemon=False	2026-05-18 09:40:32 +08:00
ViperEkura	2c2697390d	feat: 新增 GradientCheckpointingCallback - TrainConfig.gradient_checkpointing_modules 指定模块类型 - apply 递归遍历，兼容 DDP，不硬编码模型结构 - modules=None 时静默跳过，零开销	2026-05-17 18:21:05 +08:00
ViperEkura	10ebd7211f	feat: 新增 Muon 优化器 - 2D 参数用 Newton-Schulz 正交化 + Nesterov 动量更新 - 1D 参数用 AdamW 更新 - 支持 lr/momentum/weight_decay/ns_steps 配置	2026-05-17 16:44:03 +08:00
ViperEkura	42a391f0fb	feat: 训练中新增验证循环 - TrainConfig 添加 val_dataset/val_step 字段 - TrainContext 添加 val_dataloader/val_loss 字段 - 新增 ValidationCallback 按 step 触发验证 + 训练结束时验证 - ProgressBar/MetricLogger 支持 val_loss 展示与记录	2026-05-17 16:12:42 +08:00
ViperEkura	97c7ac0f4f	refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder - AutoRegressiveLM 注册名改为 autoregressive_lm - 新增 EmbeddingEncoder 支持 mean/cls/last pooling - ModelConfig 增加 pooling_type / normalize_embeddings 字段 - 导入、注释、测试全部同步更新	2026-05-17 15:29:20 +08:00
ViperEkura	8f1b32f2b6	fix: 移除多余 request 参数并增强 tokenizer 健壮性 - 路由和 _get_engine 不再需要 request 参数，直接引用模块级 app - from_pretrained 增加文件完整性校验，缺 tokenizer.json 则抛 FileNotFoundError - 移除 from_pretrained 中未使用的 **kwargs	2026-05-17 12:52:18 +08:00
ViperEkura	c241a5dcef	refactor: 优化并行训练配置与启动管理 - 配置新增 start_method 支持 spawn/fork/forkserver 选择 - 启动方式 mp.spawn 改为 mp.start_processes，支持 daemon=True - validate() 改为基于 metadata 的反射式校验，不再硬编码字段列表 - CLI 新增 --start_method 参数	2026-05-17 12:33:10 +08:00
ViperEkura	44dab27fdc	feat: 数据集加载时校验必填字段 - BaseDataset.required_keys 属性声明所需存储 key - load() 时自动校验，缺失立即抛 KeyError - SEQ/SFT/DPO/GRPO 各自声明 required_keys	2026-05-17 11:50:38 +08:00
ViperEkura	a44fd22a99	fix: 修复训练与模型参数传递问题 - state_dict_fn 传入 CheckpointCallback，修复多卡 DDP 下 key 前缀丢失 - MLA 增加 use_qk_norm 支持，消除参数静默丢失 - moe_topk_method 统一命名为 topk_method - checkpoint 回调移至最前	2026-05-17 11:20:13 +08:00
ViperEkura	1d54491809	refactor: 改用递归子模块 init 替代统一 normal_(0.006) - Embedding.reset_parameters: normal_(std=0.02) - Linear.reset_parameters: kaiming_uniform_ + uniform_ bias - Transformer._init_weights 通过 apply 递归调用子模块 reset_parameters - 移除全局 normal_(0.006) 覆盖，各模块使用更合适的分布	2026-05-17 10:44:18 +08:00
ViperEkura	f91bfee33e	refactor: Config序列化统一BaseConfig基类 - 新增astrai/config/base.py，提供to_dict/from_dict基类 - 统一命名：load/save → from_file/to_file - Checkpoint.meta合并训练配置到meta.json - sys.stderr.warn → warnings.warn - from_file改为classmethod	2026-05-16 22:06:39 +08:00
ViperEkura	d7a7f570ed	refactor: 训练循环改为两重迭代并统一参数命名 - 训练循环从三重(epoch→batched→batch)改为二重(epoch→batch) - batch_size → batch_per_device, accumulation_steps → grad_accum_steps - scheduler 移入 step block 对齐 optimizer 更新步 - GradientClippingCallback 改用 on_step_begin 避免零梯度裁剪 - 移除 _train_impl 误导性的 -> Checkpoint 标注 - total_steps 修除为向下取整并精简为一行 - warmup_steps 改为 warmup_ratio (默认0.05)	2026-05-16 21:27:35 +08:00
ViperEkura	7dea929788	refactor: checkpoint 按 HF 方式存独立 .pt 文件，callback 接管恢复 - Checkpoint.save/load: extra 逐 key 写为 {key}.pt 而非单个 extra.pt - meta.json 新增 timestamp - CheckpointCallback: save_extra/load_extra 静态方法 + extra_keys 类属性 - on_train_begin 接管 optimizer/scheduler 恢复，TrainContextBuilder 不再传 load_extra_fn	2026-05-16 18:29:04 +08:00
ViperEkura	04c0dc7a47	refactor: Storage 改用工厂模式，server reload 接入 uvicorn - 新增 StorageFactory(BaseFactory[BaseStorage]) 替代手写 dict 注册 - H5Storage / JSONStorage 通过 @StorageFactory.register 注册 - dataset.py 使用 StorageFactory.create() 替代 create_storage() - 删除 create_storage / available_storage_types 死函数 - server.py reload 参数正式传入 uvicorn.run()	2026-05-16 17:00:26 +08:00
ViperEkura	48a53121ba	refactor: 工厂 kwargs 过滤及组件参数清理 - BaseFactory.create() 按 __init__ 签名过滤多余 kwargs - 移除 GQA/MLA/MLP/DeepSeekMoE 中多余的 **kwargs - MLP/DeepSeekMoE 参数名统一为 dim_ffn - scheduler max_seq_len 增加 None 显式判断 - 默认 max_prompt_len 提升至 2048	2026-05-16 16:47:41 +08:00
ViperEkura	0ba8c70ce1	fix: 修复 MLA 多个 bug 并缩小测试模型参数 - MLA kv_b_proj 输出维度和 q_rope 切分偏移修复 - 打通 MLA 配置从 ModelConfig 到 DecoderBlock 的传递路径 - rope_theta 配置不再被忽略，MLA 使用 qk_rope_head_dim - tie_weight 使用 is True 避免 None 隐式生效 - norm_eps/rope base 类型标注修正 - 测试模型参数缩小 (dim=8, head_dim=4) - 新增 6 种架构配置 × 2 场景的前向传播测试	2026-05-16 14:57:43 +08:00
ViperEkura	e12f1a7ee5	feat: BaseModelConfig + DeepSeekMoE + 工厂模式替代 if/else - BaseModelConfig: fields() 精确字段匹配 + 类型矫正 + 未知key警告 - DeepSeekMoE: 共享专家 + 路由专家 + top-K 门控 - AttnFactory/FFNFactory: 装饰器注册，DecoderBlock 零分支 - config 用 attn_type/ffn_type 驱动组件选择	2026-05-15 20:34:52 +08:00
ViperEkura	ef25efffa2	refactor: 拆分 module.py 为 components 子包 - rope/linear/norm/embedding/mlp/attention/decoder_block 各自独立文件 - 依赖单向无循环 - 公开接口不变，外部无需修改	2026-05-15 20:08:36 +08:00
ViperEkura	19532440b4	chore: 版本号升至 1.3.5	2026-05-15 18:23:27 +08:00
ViperEkura	9096e413c3	refactor: RotaryEmbedding 合并 cos/sin 为单一复数缓存 - get_rotary_emb() 返回复数张量替代 Tuple[cos, sin] - RotaryEmbedding 存储单一 freqs_cis buffer 替代分离的 cos_cached/sin_cached - forward 中 view_as_complex 重建复数	2026-05-15 18:03:59 +08:00
ViperEkura	08dde46778	fix: 修复训练循环 step/backward 顺序，重构为三重循环嵌套 - 训练循环改用 itertools.batched 实现 epoch→step→batch 三重嵌套 - on_step_begin 包裹 batch 循环，on_step_end 后接 optimizer.step/scheduler.step - 修复首次 iteration=0 时 optimizer.step() 在 backward 之前触发的 bug - GradientClippingCallback 改为 on_step_end（梯度已累积，step 前裁剪） - SchedulerCallback 移除，schduler.step 由 trainer 在 optimizer.step 后直接调用 - metric_util 提取 _grad_stat 公共 helper，if param.grad: 修正为 is not None	2026-05-15 14:44:44 +08:00
ViperEkura	513f1f7826	perf: waiting_queue 改用 deque，pull_candidates 从 O(n²) 降到 O(1) - list.pop(0) 每次左移全部元素，改 deque.popleft() 指针操作 - return_to_waiting 从 slice 整体复制改 appendleft 逐个插入 - 热路径 refill 阶段不再卡顿	2026-05-14 21:38:00 +08:00
ViperEkura	e3382f6bb5	fix: 修复推理引擎 batch decode 中多项正确性与并发问题 - scheduler: decode 分组由幂次分桶改为精确 next_pos，消除 KV cache 位置错乱 - task: activate() 加锁操作 active_tasks，消除数据竞争 - engine: wait_completion 加超时，防止分配失败时永久死锁 - sample: TopKStrategy 向量化为 per-sample threshold，尊重各 task 的 top_k - cache: Storage.write/gather 中 -1 页改用 mask 处理，防数据污染 - executor: prefill 逐 task 循环改为单次 tensor 调用	2026-05-14 21:31:39 +08:00
ViperEkura	205b40bd28	refactor: 重构 cache 和 inference 参数体系，分离存储与分配 - 合并 GenerationRequest/GenerationParams，统一 max_tokens 参数名 - PagePool/PrefixCache 分离为 Allocator + PrefixCache + PagePool - 拆分 KV 存储为独立 Storage 类，PagedCache → KVCache，CacheView → KvcacheView - Allocator.inc_ref 移除 LRU 防止竞争，Storage.write 增加负页防御 - Allocator/PrefixCache/TaskTable 加 threading.Lock 保证线程安全 - server.py uvicorn.run 改为传 app 对象修复导入错误 - benchmark.py 适配 KVCache 新 API	2026-05-14 20:05:08 +08:00
ViperEkura	18fe6e9339	refactor: 消除多处重复模式，统一工厂和参数传递 - AutoModel 继承 BaseFactory，消除自建 Registry（-30 行） - executor.execute_prefill 删除重复 forward 代码块（bug） - train_callback 移除 Protocol 上矛盾的 issubclass 检查 - engine.py 内部方法统一传 GenerationParams，校验内聚 - protocol.py SSEBuilder 类→函数，handle() 用 GenerationParams - StreamContext 动态属性改为显式 dataclass 字段 - BaseFactory 新增 get_component_class 方法	2026-05-14 18:00:50 +08:00
ViperEkura	2196c34c52	refactor: 重构 inference 模块架构，引入设计模式并分组文件 - 新增 protocol.py 协议层，Template Method 模式消除流/非流分支 45% 重复 - SSEBuilder 统一 SSE 构造，StopChecker 独立 stop_sequence 检测 - AnthropicHandler 追踪已产出文本，修复 stop 时重复 delta - server.py 路由从约 100 行缩减至 3 行 - 拆分为 core/（cache/executor/scheduler/task）和 api/（protocol/server） - 外部保持二级导入路径（from astrai.inference import Name） - 删除所有分隔线注释，代码按语义自然分组	2026-05-14 17:42:37 +08:00
ViperEkura	466c2e1efd	fix: process_attention_mask 中 expand 后的 inplace 写导致 alias 报错 - pad.view.expand 产生的视图多元素指向同一内存，attend &= 写入报错 - 改为 .expand().clone() 独立内存后再 inplace	2026-05-14 16:30:31 +08:00
ViperEkura	7e26d848ab	perf: apply_rotary_emb 改用复数乘法 - get_rotary_emb 保留 cos/sin 实数存储，forward 组合为 complex - apply_rotary_emb 用 view_as_complex 复数乘法替代多次 view mul stack - 移除 GQA MLA DecoderBlock 中的 Tuple Tensor Tensor 类型 - 解码从 4.24s 降到 3.49s	2026-05-14 16:20:16 +08:00
ViperEkura	ed95ef245c	perf: 消除 RotaryEmbedding.forward 中 position_ids GPU 同步 - cos/sin 缓存预分配到 max_len，移除运行时动态扩容逻辑 - 移除未使用的 max_len_cached 属性 - 解码累计从 4.23s → 3.99s（+5.7%）	2026-05-14 15:53:21 +08:00
ViperEkura	6d6ef99e66	perf: 消除 PagedCache.write 中的 position_ids GPU 同步，解码提速 15% - CacheView.write 用 total_len - k.size(1) 推导 start_pos，替代 position_ids[0,0].item() - 移除 GQA/MLA/DecoderBlock 中不再使用的 position_ids 参数 - PagedCache.write 参数 position_ids:Tensor → start_pos:int	2026-05-14 15:37:48 +08:00
ViperEkura	6269bacfc3	refactor: decode 按页分桶批处理，position_ids 改为 per-task 构建	2026-05-14 14:22:11 +08:00
ViperEkura	c0effc9f5b	refactor: 位置编码改用 position_ids [B,S]，简化 attention mask 构建 - RotaryEmbedding/CacheView 接受 position_ids 替代 start_pos - process_attention_mask 用 position_ids >= arange 做逐位置 causal - 训练/无 KV cache 时 position_ids=None 内部自动处理 - 移除 executor/benchmark 中冗余的 input_mask 构造	2026-05-14 13:26:31 +08:00
ViperEkura	df0845e916	chore: 解耦 Executor/Scheduler/TaskManager，修复 stop 页泄漏，移除 ServerState 全局单例	2026-05-12 13:47:55 +08:00
ViperEkura	6e49d27057	fix: MultiSegmentFetcher 空 dict 崩溃 + BaseDataset assert 替换为显式 raise - MultiSegmentFetcher.__len__: min([]) → 加空检查返回 0 - BaseDataset.get_index: assert 替换为 RuntimeError / ValueError - BaseDataset.__len__: assert 替换为 early return 0	2026-05-12 11:41:45 +08:00
ViperEkura	5889179c54	refactor: 抽取 BaseStorage 存储抽象，支持 JSON 原始文本数据加载 - 新增 astrai/dataset/storage.py：BaseStorage/H5Storage/JSONStorage + Fetchers + 序列化函数 - BaseDataset.load() 接入存储抽象，自动检测 HDF5/JSON 格式 - JSON 支持原始文本 + tokenizer callable 加载时 tokenize - 新增 BaseDataset.count / keys 属性进行长度观测 - serialization.py 精简为只保留 Checkpoint 类 - 函数放前、类放后，删除分隔注释	2026-05-12 11:17:24 +08:00
ViperEkura	38e18fdfd3	refactor: PagedCache Facade 模式，提取 PagePool/PrefixCache/TaskTable - cache.py: 提取 PagePool (位图+LRU)、PrefixCache (前缀哈希)、TaskTable (任务页表) PagedCache 降为 Facade 组合三者 + 张量存储，公开 API 不变 - executor.py: 移除 allocate_pages_for_activation/free_task_pages/get_cached_tokens 三冗余委托方法，去掉 page_size 构造参数(改用 page_cache.page_size) - scheduler.py: 直接调用 self._page_cache.* 代替已移除的 Executor 委托 - 移除 CacheView.__slots__、PagePool.ref_count、PagedCache.alloc/pages_needed/inc_ref PrefixCache.evict 等死/冗余方法	2026-05-11 15:22:21 +08:00
ViperEkura	4753958f92	refactor: 页状态移入 PagedCache，Task 纯化为域对象 - PagedCache 增 task_alloc/task_free/task_extend/task_cached/task_record_hashes/make_table_tensor - Task 移除 page_table/n_pages/_prefix_cached_tokens/_pages_freed - Executor 移除 _PageState，页操作全部委托 PagedCache - CacheView.gather 截断逻辑下沉到 PagedCache.gather - 各类补充单行职责 docstring	2026-05-11 14:42:39 +08:00
ViperEkura	73d6cc0f26	refactor: TaskManager 剥离页管理，STOP 移至 task.py - TaskManager 移除 page_cache/page_size 依赖，增 pull_candidates/activate/return_to_waiting - Executor 增 allocate_pages_for_activation/free_task_pages，承接全部页操作 - STOP 从 cache.py 移至 task.py - scheduler loop 显式装配: 清理→释页 / 拉取→分配→激活 - sampling.py → sample.py	2026-05-11 14:04:31 +08:00
ViperEkura	317ed90bac	refactor: 拆分 scheduler 为 TaskManager + Executor - InferenceScheduler 退化为编排器，委托 TaskManager 管理任务生命周期 + Executor 执行模型前向 - Task/TaskStatus/TaskManager 移至 task.py - Executor 移至 executor.py (原 BatchExecutor) - scheduler.py 437 行 -> 142 行	2026-05-11 13:50:11 +08:00
ViperEkura	951df8155c	perf: gather 向量化	2026-05-10 21:01:03 +08:00

1 2 3

110 Commits