AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	6e150ea6d0	refactor : Storage 层重构为 Store，移除 Fetcher 中间层，支持多段数据与显式长度 - 合并 BaseStorage + MultiSegmentFetcher + BaseSegmentFetcher 三层为 Store ABC - Store._data 直接持有 Dict[str, List[Tensor]]，不做强制拼接避免 OOM - _fetch_key 统一用 bisect 跨段切片，单段多段同一路径 - _length 显式存储（min total across keys），__len__ 返回 O(1) - MmapStore/H5Store/JSONStore 统一走 _normalize() 注册分段并预计算累积长度 - 所有 I/O 函数 (save_h5/load_h5/json_to_bin 等) 保持不变	2026-05-28 14:23:49 +08:00
ViperEkura	4145d35e3c	refactor: 检查点加载重构，路径替代对象传递 - model: nn.Module -> model_fn 工厂函数，spawn 边界只传字符串 - Trainer.train(resume_dir=path) — Checkpoint 不再通过 pickle 传递 - TrainContextBuilder.with_resume_dir(path) — 自动检测 meta.json 分流 resume/from-scratch - CheckpointCallback: 拆分 state_dict 收集（全 rank）与磁盘写入（rank-0），修复 FSDP 死锁 - serialization: load_torch 支持 broadcast，消除 _load_extra/_load_torch_broadcast - optimizer/scheduler 恢复逻辑内联到 build()，在 executor.prepare() 之后执行 - pyproject.toml: ruff exclude build/ 避免 CI 扫描构建产物	2026-05-27 20:15:29 +08:00
ViperEkura	65ab69543b	refactor: 统一序列化层，消除分散的 I/O 路径 - Checkpoint 改为 @dataclass，内聚 save/load 方法 - 提取 save_safetensors/load_safetensors/save_json/load_json 共享工具 - 新增 save_model/load_model_config/load_model_weights 模块函数 - automodel 和 lora 统一委托到 serialization 模块	2026-05-26 16:44:40 +08:00
ViperEkura	dd1b39f435	fix: ProgressBar默认输出到stdout - file参数默认值改为None, 内部用 or sys.stdout 兜底 - 清理inference API中未使用的import (Optional, time, field) - 删除test_protocol中未使用的ctx变量	2026-05-26 13:27:05 +08:00
ViperEkura	94d6e713e9	test: 补充推理协议层单测覆盖 - StopChecker、GenContext、StopInfo 单测 - OpenAIResponseBuilder / AnthropicResponseBuilder 全部方法 - Anthropic 停止序列裁剪逻辑（含 unyielded 边界） - GenerationRequest 参数校验含负值边界 - Scheduler prefill 短路验证	2026-05-26 00:21:52 +08:00
ViperEkura	a4688021bf	feat: 新增LoRA微调模块 - LoRALinear基于register_parameter托管base weight，state_dict路径不变 - inject_lora/merge_lora/save_lora/load_lora完备封装 - 24个单元测试覆盖注入、合并、存取、边界场景	2026-05-25 20:15:31 +08:00
ViperEkura	7fa69572c0	fix: 测试日志写入临时目录避免冗余文件	2026-05-24 20:54:59 +08:00
ViperEkura	785d65436c	fix: 修复 to_dict list 类型丢失与 OpenAI stop 参数失效 - to_dict() 增加 list 类型序列化支持，metrics 等字段不再丢失 - OpenAIHandler 补充 get_stop_sequences/on_token，读取 request.stop 并检测停止序列 - 文档类图补充缺失字段、修正关系分类、ChatCompletionRequest 字段增加 Optional	2026-05-19 21:07:07 +08:00
ViperEkura	2c2697390d	feat: 新增 GradientCheckpointingCallback - TrainConfig.gradient_checkpointing_modules 指定模块类型 - apply 递归遍历，兼容 DDP，不硬编码模型结构 - modules=None 时静默跳过，零开销	2026-05-17 18:21:05 +08:00
ViperEkura	97c7ac0f4f	refactor: Transformer更名为AutoRegressiveLM并新增EmbeddingEncoder - AutoRegressiveLM 注册名改为 autoregressive_lm - 新增 EmbeddingEncoder 支持 mean/cls/last pooling - ModelConfig 增加 pooling_type / normalize_embeddings 字段 - 导入、注释、测试全部同步更新	2026-05-17 15:29:20 +08:00
ViperEkura	a44fd22a99	fix: 修复训练与模型参数传递问题 - state_dict_fn 传入 CheckpointCallback，修复多卡 DDP 下 key 前缀丢失 - MLA 增加 use_qk_norm 支持，消除参数静默丢失 - moe_topk_method 统一命名为 topk_method - checkpoint 回调移至最前	2026-05-17 11:20:13 +08:00
ViperEkura	f91bfee33e	refactor: Config序列化统一BaseConfig基类 - 新增astrai/config/base.py，提供to_dict/from_dict基类 - 统一命名：load/save → from_file/to_file - Checkpoint.meta合并训练配置到meta.json - sys.stderr.warn → warnings.warn - from_file改为classmethod	2026-05-16 22:06:39 +08:00
ViperEkura	d7a7f570ed	refactor: 训练循环改为两重迭代并统一参数命名 - 训练循环从三重(epoch→batched→batch)改为二重(epoch→batch) - batch_size → batch_per_device, accumulation_steps → grad_accum_steps - scheduler 移入 step block 对齐 optimizer 更新步 - GradientClippingCallback 改用 on_step_begin 避免零梯度裁剪 - 移除 _train_impl 误导性的 -> Checkpoint 标注 - total_steps 修除为向下取整并精简为一行 - warmup_steps 改为 warmup_ratio (默认0.05)	2026-05-16 21:27:35 +08:00
ViperEkura	7dea929788	refactor: checkpoint 按 HF 方式存独立 .pt 文件，callback 接管恢复 - Checkpoint.save/load: extra 逐 key 写为 {key}.pt 而非单个 extra.pt - meta.json 新增 timestamp - CheckpointCallback: save_extra/load_extra 静态方法 + extra_keys 类属性 - on_train_begin 接管 optimizer/scheduler 恢复，TrainContextBuilder 不再传 load_extra_fn	2026-05-16 18:29:04 +08:00
ViperEkura	04c0dc7a47	refactor: Storage 改用工厂模式，server reload 接入 uvicorn - 新增 StorageFactory(BaseFactory[BaseStorage]) 替代手写 dict 注册 - H5Storage / JSONStorage 通过 @StorageFactory.register 注册 - dataset.py 使用 StorageFactory.create() 替代 create_storage() - 删除 create_storage / available_storage_types 死函数 - server.py reload 参数正式传入 uvicorn.run()	2026-05-16 17:00:26 +08:00
ViperEkura	0ba8c70ce1	fix: 修复 MLA 多个 bug 并缩小测试模型参数 - MLA kv_b_proj 输出维度和 q_rope 切分偏移修复 - 打通 MLA 配置从 ModelConfig 到 DecoderBlock 的传递路径 - rope_theta 配置不再被忽略，MLA 使用 qk_rope_head_dim - tie_weight 使用 is True 避免 None 隐式生效 - norm_eps/rope base 类型标注修正 - 测试模型参数缩小 (dim=8, head_dim=4) - 新增 6 种架构配置 × 2 场景的前向传播测试	2026-05-16 14:57:43 +08:00
ViperEkura	e3382f6bb5	fix: 修复推理引擎 batch decode 中多项正确性与并发问题 - scheduler: decode 分组由幂次分桶改为精确 next_pos，消除 KV cache 位置错乱 - task: activate() 加锁操作 active_tasks，消除数据竞争 - engine: wait_completion 加超时，防止分配失败时永久死锁 - sample: TopKStrategy 向量化为 per-sample threshold，尊重各 task 的 top_k - cache: Storage.write/gather 中 -1 页改用 mask 处理，防数据污染 - executor: prefill 逐 task 循环改为单次 tensor 调用	2026-05-14 21:31:39 +08:00
ViperEkura	205b40bd28	refactor: 重构 cache 和 inference 参数体系，分离存储与分配 - 合并 GenerationRequest/GenerationParams，统一 max_tokens 参数名 - PagePool/PrefixCache 分离为 Allocator + PrefixCache + PagePool - 拆分 KV 存储为独立 Storage 类，PagedCache → KVCache，CacheView → KvcacheView - Allocator.inc_ref 移除 LRU 防止竞争，Storage.write 增加负页防御 - Allocator/PrefixCache/TaskTable 加 threading.Lock 保证线程安全 - server.py uvicorn.run 改为传 app 对象修复导入错误 - benchmark.py 适配 KVCache 新 API	2026-05-14 20:05:08 +08:00
ViperEkura	2196c34c52	refactor: 重构 inference 模块架构，引入设计模式并分组文件 - 新增 protocol.py 协议层，Template Method 模式消除流/非流分支 45% 重复 - SSEBuilder 统一 SSE 构造，StopChecker 独立 stop_sequence 检测 - AnthropicHandler 追踪已产出文本，修复 stop 时重复 delta - server.py 路由从约 100 行缩减至 3 行 - 拆分为 core/（cache/executor/scheduler/task）和 api/（protocol/server） - 外部保持二级导入路径（from astrai.inference import Name） - 删除所有分隔线注释，代码按语义自然分组	2026-05-14 17:42:37 +08:00
ViperEkura	6d6ef99e66	perf: 消除 PagedCache.write 中的 position_ids GPU 同步，解码提速 15% - CacheView.write 用 total_len - k.size(1) 推导 start_pos，替代 position_ids[0,0].item() - 移除 GQA/MLA/DecoderBlock 中不再使用的 position_ids 参数 - PagedCache.write 参数 position_ids:Tensor → start_pos:int	2026-05-14 15:37:48 +08:00
ViperEkura	c0effc9f5b	refactor: 位置编码改用 position_ids [B,S]，简化 attention mask 构建 - RotaryEmbedding/CacheView 接受 position_ids 替代 start_pos - process_attention_mask 用 position_ids >= arange 做逐位置 causal - 训练/无 KV cache 时 position_ids=None 内部自动处理 - 移除 executor/benchmark 中冗余的 input_mask 构造	2026-05-14 13:26:31 +08:00
ViperEkura	df0845e916	chore: 解耦 Executor/Scheduler/TaskManager，修复 stop 页泄漏，移除 ServerState 全局单例	2026-05-12 13:47:55 +08:00
ViperEkura	7440e9c809	style: 重命名 test_scheduler_concurrency 为 test_scheduler	2026-05-12 12:24:36 +08:00
ViperEkura	7d4029c2a4	test: inference 模块补全单元测试，cache/sample/engine/task - test_cache: page_hash, PagePool, PrefixCache, TaskTable, PagedCache write/gather - test_sample: TemperatureStrategy, TopKStrategy, TopPStrategy, SamplingPipeline, sample() - test_engine: _Result 线程安全, generate stream/non-stream batch/single - test_task: Task 生命周期, TaskManager 队列操作 - 4 新文件, +771 行, 116 total tests	2026-05-12 12:17:57 +08:00
ViperEkura	0ca6c9e6eb	test: 增加 13 个边界条件测试，不需要 base_test_env 的函数移除该参数 - Fetcher 空/边界/跨段测试 - Storage 未加载 fetch 异常 - detect_format 无效路径/不支持格式 - create_storage 无效类型 - JSON pre-tokenized 无 tokenizer - load_json 跳过 config.json - Dataset 未加载/数据过短 - 所有 import 提到文件顶部	2026-05-12 11:47:30 +08:00
ViperEkura	5203b7f53e	perf: 测试优化，model 改为 session 共享，scheduler 用 Event 替代 sleep - 拆出 session-scoped test_tokenizer + test_model，14 次创建 → 1 次 - 删除无用 test_env fixture - 固定模型维度，消除随机性 - 添加 pytest markers 配置	2026-05-12 11:35:18 +08:00
ViperEkura	5889179c54	refactor: 抽取 BaseStorage 存储抽象，支持 JSON 原始文本数据加载 - 新增 astrai/dataset/storage.py：BaseStorage/H5Storage/JSONStorage + Fetchers + 序列化函数 - BaseDataset.load() 接入存储抽象，自动检测 HDF5/JSON 格式 - JSON 支持原始文本 + tokenizer callable 加载时 tokenize - 新增 BaseDataset.count / keys 属性进行长度观测 - serialization.py 精简为只保留 Checkpoint 类 - 函数放前、类放后，删除分隔注释	2026-05-12 11:17:24 +08:00
ViperEkura	3583c46b66	feat: 推理引擎前缀缓存（KV cache 复用） - cache.py: 新增模块级 page_hash() 多项式滚动哈希函数；PagedCache 新增 record_page/lookup_prefix/inc_ref，free() 自动清理哈希映射 - scheduler.py: Task 新增 _prefix_cached_tokens；_refill_active_batch 先查缓存命中页(inc_ref)再分配剩余页；合并 _execute_prefill 为单一方法，按 (prompt_len, start_pos) 分组批量执行全量/部分 prefill； _record_page_hashes 注册完整页哈希；修复 device/dtype 默认值从硬编码改为 None（自动检测模型设备） - test: mock model 补充 dtype/device 适配自动检测	2026-05-09 23:53:57 +08:00
ViperEkura	283bcaf2ff	fix: 修复 CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致、scheduler 时序、非流式截断等 bug - train.py: 补上 --batch_size、--grpo_clip_eps，删除 3 处重复 --group_size - generate.py: --model_dir 改为 --param_path 对齐 README - automodel.py: from_pretrained 新增 strict 参数（默认 True） - parallel/setup.py: 修复 device_ids 索引越界 - train_callback.py: scheduler.step() 移至 on_step_end - test_train_strategy.py: 测试中补 optimizer.step() - engine.py: 非流式改为循环等待所有任务完成，补 remove_task 清理 - scheduler.py: Task 添加 _pages_freed 标志，杜绝双重释放 - trainer.py: accumulation_steps=0 时 clamp 为 1 - tokenizer.py: save_pretrained 添加 _tokenizer is None 检查 - benchmark.py: 修复 ModelConfig 过时 import 路径 - inference/__init__.py: 修复 stale docstring	2026-05-09 14:36:42 +08:00
ViperEkura	d73f52a2f8	feat: 新增 Anthropic 兼容 /v1/messages API，移除旧版 /generate 端点 - 新增 /v1/messages 端点，兼容 Anthropic Messages API 格式 - 支持流式 SSE（message_start → content_block_delta → message_stop） - 支持 system 顶层提示词与 stop_sequences 停止序列 - 新增 AnthropicMessage / MessagesRequest Pydantic 模型 - 移除旧版 /generate 端点及相关测试用例 - 更新 README.md / README-zh-CN.md / introduction.md 文档	2026-05-09 11:47:22 +08:00
ViperEkura	f81e2b4a73	feat: OpenAI 兼容的 chat completion API（流式+非流式+usage）	2026-05-08 21:54:55 +08:00
ViperEkura	30cc2d67a4	refactor: 分页 KV cache 替换固定 slot，删除 PrefixCache 及相关死代码 - 用 PagedCache + CacheView 替换固定 slot 式 KV cache，attention 层只通过 page_table 间接索引 - 删除 PrefixCache（radix tree）及 scheduler 中所有 prefix cache 命中/插入/释放逻辑 - 删除无用函数：pin、version、free_count、_mark_seq_mask 及 seq_mask 分配 - 修复 write 在多页 prefill 时 offset 为负导致 chunk 计算错误 - _make_page_table_tensor 改用 list 拼接一次 tensor，去掉逐元素赋值 - 清理 model 接口参数：kv_cache, slot_indices → paged_cache（CacheView） - 精简 docstring 为单行，删除冗余 section 注释和旧代码 - 修复 test_scheduler_concurrency.py 缺少 import pytest	2026-05-08 20:44:05 +08:00
ViperEkura	44d7a4e959	refactor: 设计模式优化 inference 模块导入结构 - 新建 cache.py：SlotAllocator 对象池 + PrefixCacheManager - 新建 sampling.py：Temperature/TopK/TopP 可组合策略 - TaskStatus 改用 Enum，GenerationParams 值对象模式 - _STOP 移至 cache.py，解除 engine→scheduler 轻量耦合 - 更新测试导入路径，ruff 格式检查通过	2026-05-08 16:57:57 +08:00
ViperEkura	a6f5ff3b37	fix: 修复 remove_task 未释放 KV cache slot 导致第二轮对话死锁 - remove_task() 现在释放 KV cache slot 和 prefix cache 引用 - _refill_active_batch 中 alloc 失败时将剩余 task 推回 waiting_queue - 主循环增加 try/except 异常兜底，发送 _STOP 给所有 task - 重构：server.py 全局变量改为 ServerState 类；automodel.py 使用 Registry 替代裸 dict；合并 TrainContextBuilder 的 with_* 方法到 build()	2026-05-08 14:53:04 +08:00
ViperEkura	520de3ebe8	refactor: 重构推理引擎控制逻辑，修复连续批处理核心缺陷 - 修复 decode 阶段新任务覆盖已有任务的严重缺陷 - 修复线程安全问题（热路径无锁竞争） - 修复前缀缓存引用计数管理不当导致缓存被驱逐 - 修复 pad_id 缺失导致全量 prefill 崩溃 - 修复 RoPE 位置错乱（不同位置任务共用 start_pos） - 新增 slot 版本追踪实现前缀缓存零拷贝复用 - 新增异步流式生成接口避免阻塞事件循环 - 添加完整英文文档字符串	2026-05-06 16:04:06 +08:00
ViperEkura	a2ae742988	chore: 增加并发测试	2026-04-09 18:10:28 +08:00
ViperEkura	ace8f6ee68	chore: 优化未使用的模块	2026-04-06 09:54:17 +08:00
ViperEkura	39766aa1dc	chore: 修改类名，优化导入顺序	2026-04-05 22:27:57 +08:00
ViperEkura	fc278d17ab	feat: 实现模型动态注册机制	2026-04-05 19:38:12 +08:00
ViperEkura	2b26f03bd3	refactor: 拆分engine.py 文件	2026-04-05 00:07:21 +08:00
ViperEkura	861d33b1a1	refactor: 更新inference 部分的实现	2026-04-04 23:49:18 +08:00
ViperEkura	c94a246c71	chore: 重命名目录	2026-04-04 17:03:22 +08:00
ViperEkura	9c31d78a22	chore: 将data 模块命名为dataset	2026-04-04 16:16:27 +08:00
ViperEkura	bd9741dc5f	refactor: 从data 模块分离tokenizer	2026-04-04 16:12:58 +08:00
ViperEkura	b531232a9b	style: 修改为显式导入	2026-04-04 16:02:49 +08:00
ViperEkura	e97536758f	refactor: 优化工厂模式结构	2026-04-04 11:33:58 +08:00
ViperEkura	0852b852f8	refactor: 优化参数传递，清理导入样式	2026-04-03 22:06:32 +08:00
ViperEkura	3a7d98a950	fix: 修复测试部分导入问题	2026-04-03 15:01:39 +08:00
ViperEkura	475de51c7d	feat: 增加server, 并且修改测试单元	2026-04-02 15:05:07 +08:00
ViperEkura	2e009cf59a	chore: 更新项目名称	2026-03-31 09:34:11 +08:00

1 2

97 Commits