AstrAI

Commit Graph

Author	SHA1	Message	Date
ViperEkura	4753958f92	refactor: 页状态移入 PagedCache，Task 纯化为域对象 - PagedCache 增 task_alloc/task_free/task_extend/task_cached/task_record_hashes/make_table_tensor - Task 移除 page_table/n_pages/_prefix_cached_tokens/_pages_freed - Executor 移除 _PageState，页操作全部委托 PagedCache - CacheView.gather 截断逻辑下沉到 PagedCache.gather - 各类补充单行职责 docstring	2026-05-11 14:42:39 +08:00
ViperEkura	73d6cc0f26	refactor: TaskManager 剥离页管理，STOP 移至 task.py - TaskManager 移除 page_cache/page_size 依赖，增 pull_candidates/activate/return_to_waiting - Executor 增 allocate_pages_for_activation/free_task_pages，承接全部页操作 - STOP 从 cache.py 移至 task.py - scheduler loop 显式装配: 清理→释页 / 拉取→分配→激活 - sampling.py → sample.py	2026-05-11 14:04:31 +08:00
ViperEkura	317ed90bac	refactor: 拆分 scheduler 为 TaskManager + Executor - InferenceScheduler 退化为编排器，委托 TaskManager 管理任务生命周期 + Executor 执行模型前向 - Task/TaskStatus/TaskManager 移至 task.py - Executor 移至 executor.py (原 BatchExecutor) - scheduler.py 437 行 -> 142 行	2026-05-11 13:50:11 +08:00
ViperEkura	951df8155c	perf: gather 向量化	2026-05-10 21:01:03 +08:00
ViperEkura	a58fab8d6e	fix: max_seq_len 检查改为仅 prompt 超限发 STOP，max_tokens 超出部分 clamp	2026-05-10 20:17:47 +08:00
ViperEkura	a3c8296135	fix: page cache 分配失败越界崩溃 + 长度超限终止 - astrai/inference/scheduler.py: add_task 增加 max_seq_len 检查，超限时直接发 STOP 信号终止 - astrai/inference/scheduler.py: _maybe_alloc_page 返回 bool，alloc 失败时标记 ABORTED + 发 STOP - astrai/inference/scheduler.py: _execute_decode 过滤分配失败任务，避免 page_table 越界 - astrai/inference/scheduler.py: _remove_finished_tasks 清理 ABORTED 任务并释放 pages - astrai/inference/scheduler.py: _execute_prefill input_mask 改为覆盖全部 prompt_len - astrai/model/transformer.py: seq_mask is None 分支补全 start_pos + seq_len 列	2026-05-10 20:14:38 +08:00
ViperEkura	c95ace41aa	fix: prefill 时 attention mask 长度不足导致 expand 崩溃 - astrai/inference/scheduler.py: prefill input_mask 由 [batch, seq_len] 改为 [batch, prompt_len]，覆盖全部 KV 位置 - astrai/model/transformer.py: seq_mask is None 分支补全 start_pos + seq_len 列，避免 expand 非 singleton 维度不匹配	2026-05-10 19:56:41 +08:00
ViperEkura	3da428e0e4	perf: PagedCache 持久前缀缓存 + LRU 逐出 - astrai/inference/cache.py: refcount 归零时保留 hash 映射，页加入 LRU evictable 池 - alloc() 无空闲页时从 LRU 逐出，优先释放 _free_mask - lookup_prefix/inc_ref 触发 _touch 更新 LRU 序 - record_page 设置 pin 标记并从 LRU 移除	2026-05-10 18:05:11 +08:00
ViperEkura	133a9de98f	feat: _generate_streaming 支持 batch 模式 - _Result.append 存储 (idx, token) 元组，pop_all 返回对应列表 - 单 prompt: Generator[str]（向后兼容） - 多 prompt: Generator[Tuple[int, str]]，token 交错到达，调用方自行分流 - 不使用 dispatch 线程 / Queue，避免同步开销和内存积压	2026-05-10 17:42:20 +08:00
ViperEkura	523eacf5fe	release: v1.3.4 - refactor: 分页 KV cache（PagedCache+CacheView）替换固定 slot，删除 PrefixCache - refactor: 推理引擎控制逻辑重写，修复连续批处理核心缺陷、线程安全问题 - refactor: KV 缓存槽位下沉到注意力层，移除 _remap_kv / _writeback_kv - refactor: 统一采样路径为 SamplingPipeline batch tensor，删除 apply_sampling_strategies - refactor: 设计模式优化 inference 模块导入结构（cache/sampling 独立） - feat: 推理引擎前缀缓存（KV cache 复用） - feat: OpenAI 兼容 chat completion API（流式+非流式+usage） - feat: Anthropic 兼容 /v1/messages API，移除旧版 /generate 端点 - feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化 - feat: Checkpoint 支持 extra 通用扩展数据 - feat: Docker Compose 一键部署（GPU/CPU 双模式） - feat: GRPO 训练参数补充，批处理训练参数表 - fix: 调度器延迟优化 — 移除 5ms 睡眠，修复 refill 任务丢失 - fix: CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致 - fix: 长对话截断方向错误，保留最新 token 而非最早 - fix: remove_task 未释放 KV cache slot 导致第二轮对话死锁 - fix: KV cache 槽位索引错位、版本校验缺失、注意力掩码 - fix: scheduler 越界 bug，SchedulerCallback 回调阶段修正 - perf: _Result 改用 Condition.wait_for 消除非流式 CPU 空转 - perf: decode 每步张量预分配；input_ids 改用一次构建代替逐元素赋值 - refactor: 移除 device_ids 参数，统一 CUDA_VISIBLE_DEVICES - docs: 更新文档以匹配分页 KV cache 等代码重构 - docs: 修正多处文档错误、补充训练参数说明	2026-05-10 15:59:18 +08:00
ViperEkura	cffedaad5e	perf: 消除非流式推理 CPU 空转并减少 decode GPU 张量冗余分配 - engine.py: _Result 改用 threading.Condition.wait_for 替代 Event busy-wait，非流式模式线程被内核挂起而非 1760 万次空转 - scheduler.py: _execute_decode 将 temperature/top_k/top_p 张量移至循环外预先分配，避免每步重复 torch.tensor()；input_ids 改用 torch.empty 避免不必要的 zero 初始化（两处均为完全覆盖） - _execute_prefill: input_ids 同改为 torch.empty	2026-05-10 15:32:11 +08:00
ViperEkura	3583c46b66	feat: 推理引擎前缀缓存（KV cache 复用） - cache.py: 新增模块级 page_hash() 多项式滚动哈希函数；PagedCache 新增 record_page/lookup_prefix/inc_ref，free() 自动清理哈希映射 - scheduler.py: Task 新增 _prefix_cached_tokens；_refill_active_batch 先查缓存命中页(inc_ref)再分配剩余页；合并 _execute_prefill 为单一方法，按 (prompt_len, start_pos) 分组批量执行全量/部分 prefill； _record_page_hashes 注册完整页哈希；修复 device/dtype 默认值从硬编码改为 None（自动检测模型设备） - test: mock model 补充 dtype/device 适配自动检测	2026-05-09 23:53:57 +08:00
ViperEkura	ca4e6b907c	feat: Checkpoint 支持 extra 通用扩展数据，用户通过函数自定义保存/恢复优化器等状态 - serialization.py: Checkpoint 新增 extra: dict 字段， save() 写入 extra.pt，load() 自动恢复 - train_callback.py: CheckpointCallback 新增 save_extra_fn 参数，用户传入 (context) -> dict 决定保存哪些额外状态 - train_context.py: TrainContextBuilder 新增 load_extra_fn 参数，用户传入 (extra, context) 从 checkpoint 恢复状态	2026-05-09 15:50:38 +08:00
ViperEkura	db99d8b254	fix: 修复文档多处不准确 + inference scheduler 越界 bug + SchedulerCallback 回调阶段修正文档 (6 个文件): - design.md: 15+ 处修正 — persistent_key_values→paged_cache, MLA 字段重写, Server/ParallelSetup 不存在类移除, 关系箭头方向修复, SchedulerCallback 阶段修正等 - dataflow.md: 重写数据流图和描述, 修复训练回调顺序、数据键名、MLA 归属、MetricTracker 等错误 - introduction.md: 层数 32→24, MLP 图双 Linear 修正, 默认值/响应字段/health 端点修复 - params.md: 补充 grpo 及 4 个 GRPO 参数 - README.md / README-zh-CN.md: generate.py 补全必需参数, 删除重复注释, HuggingFace 声明修正代码 (2 个文件): - scheduler.py: n_pages 池加 page_size 余量防止越界; decode 前预分配页 - train_callback.py: SchedulerCallback 从 on_step_end 改回 on_batch_end (按 batch 步进学习率)	2026-05-09 15:40:17 +08:00
ViperEkura	b98c9cefdc	refactor: 移除 device_ids 参数设计，统一通过 CUDA_VISIBLE_DEVICES 控制 GPU 分配；更新 README 训练示例 - setup.py: 移除 device_ids 参数，setup_parallel 直接用 rank 作为设备索引 - train_config.py: 移除 device_ids 字段 - trainer.py: 不再传递 device_ids - train.py: ddp_wrap 用 get_rank() 直接取值 - README.md, README-zh-CN.md: 训练示例改为多行命令风格，去掉参数表格	2026-05-09 14:55:43 +08:00
ViperEkura	283bcaf2ff	fix: 修复 CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致、scheduler 时序、非流式截断等 bug - train.py: 补上 --batch_size、--grpo_clip_eps，删除 3 处重复 --group_size - generate.py: --model_dir 改为 --param_path 对齐 README - automodel.py: from_pretrained 新增 strict 参数（默认 True） - parallel/setup.py: 修复 device_ids 索引越界 - train_callback.py: scheduler.step() 移至 on_step_end - test_train_strategy.py: 测试中补 optimizer.step() - engine.py: 非流式改为循环等待所有任务完成，补 remove_task 清理 - scheduler.py: Task 添加 _pages_freed 标志，杜绝双重释放 - trainer.py: accumulation_steps=0 时 clamp 为 1 - tokenizer.py: save_pretrained 添加 _tokenizer is None 检查 - benchmark.py: 修复 ModelConfig 过时 import 路径 - inference/__init__.py: 修复 stale docstring	2026-05-09 14:36:42 +08:00
ViperEkura	bc7c82977e	feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表 - train.py 新增 --train_type=grpo 及参数 (--grpo_clip_eps, --grpo_kl_coef, --group_size, --grpo_sync_interval, --start_epoch) - GRPOStrategy 统一 on-policy 模式，ratio = exp(logπ_θ - logπ_ref)，PPO 裁剪目标，sync_interval 自动同步 ref_model - ChatCompletionRequest 新增 top_k 参数，不再硬编码 - 补充 README 完整训练参数表（含此前缺失的 max_grad_norm / adamw / window_size / stride 等）	2026-05-09 12:22:33 +08:00
ViperEkura	34a511e36e	feat: 新增 Docker Compose 一键部署，支持 GPU/CPU 双模式	2026-05-09 11:57:46 +08:00
ViperEkura	d73f52a2f8	feat: 新增 Anthropic 兼容 /v1/messages API，移除旧版 /generate 端点 - 新增 /v1/messages 端点，兼容 Anthropic Messages API 格式 - 支持流式 SSE（message_start → content_block_delta → message_stop） - 支持 system 顶层提示词与 stop_sequences 停止序列 - 新增 AnthropicMessage / MessagesRequest Pydantic 模型 - 移除旧版 /generate 端点及相关测试用例 - 更新 README.md / README-zh-CN.md / introduction.md 文档	2026-05-09 11:47:22 +08:00
ViperEkura	9d96b0431d	docs: 更新文档以匹配分页 KV cache 等代码重构	2026-05-08 22:41:13 +08:00
ViperEkura	f81e2b4a73	feat: OpenAI 兼容的 chat completion API（流式+非流式+usage）	2026-05-08 21:54:55 +08:00
ViperEkura	4e324d8f26	fix: benchmark 改用 PagedCache 替代已删除的 persistent_key_values	2026-05-08 21:26:55 +08:00
ViperEkura	6ed0506491	fix: 减少调度器延迟 — 移除解码路径 5ms 睡眠，修复 refill 任务丢失 bug	2026-05-08 21:13:52 +08:00
ViperEkura	30cc2d67a4	refactor: 分页 KV cache 替换固定 slot，删除 PrefixCache 及相关死代码 - 用 PagedCache + CacheView 替换固定 slot 式 KV cache，attention 层只通过 page_table 间接索引 - 删除 PrefixCache（radix tree）及 scheduler 中所有 prefix cache 命中/插入/释放逻辑 - 删除无用函数：pin、version、free_count、_mark_seq_mask 及 seq_mask 分配 - 修复 write 在多页 prefill 时 offset 为负导致 chunk 计算错误 - _make_page_table_tensor 改用 list 拼接一次 tensor，去掉逐元素赋值 - 清理 model 接口参数：kv_cache, slot_indices → paged_cache（CacheView） - 精简 docstring 为单行，删除冗余 section 注释和旧代码 - 修复 test_scheduler_concurrency.py 缺少 import pytest	2026-05-08 20:44:05 +08:00
ViperEkura	7ddebf2cd9	refactor: 统一采样路径为 Strategy + batch tensor，删除 apply_sampling_strategies - TemperatureStrategy / TopKStrategy / TopPStrategy 支持 Union[float, Tensor] - SamplingPipeline.sample() 一条调用完成 apply + softmax + multinomial - 新增 sample() 独立函数作为 scheduler 入口 - scheduler decode 改为 batch tensor 参数传递，支持任意 batch size - 删除 apply_sampling_strategies（被 sample() 取代）	2026-05-08 19:07:14 +08:00
ViperEkura	78dc2bd41c	docs: 修正文档错误并补充训练参数说明 - README: 补充训练参数速查表，完善训练命令示例 - design.md: 同步 inference 类图（SlotAllocator、GenerationParams、采样策略等新增类），修正参数名和类型错误，统一泛型符号 - params.md: 修正默认值（batch_size=1、num_workers=4），移除不存在参数（grpo_*、model_type、resume_dir），补充完整示例 - dataflow.md: _RadixNode 命名修正	2026-05-08 18:07:57 +08:00
ViperEkura	44d7a4e959	refactor: 设计模式优化 inference 模块导入结构 - 新建 cache.py：SlotAllocator 对象池 + PrefixCacheManager - 新建 sampling.py：Temperature/TopK/TopP 可组合策略 - TaskStatus 改用 Enum，GenerationParams 值对象模式 - _STOP 移至 cache.py，解除 engine→scheduler 轻量耦合 - 更新测试导入路径，ruff 格式检查通过	2026-05-08 16:57:57 +08:00
ViperEkura	c4401512f2	fix: 修复长对话截断方向错误，保留最新 token 而非最早 - add_task 中 prompt 超长时改为保留末尾 token（prompt_ids[-max_prompt_len:]）而非开头 token，确保多轮对话时模型能看到最近的提问上下文	2026-05-08 15:52:48 +08:00
ViperEkura	a6f5ff3b37	fix: 修复 remove_task 未释放 KV cache slot 导致第二轮对话死锁 - remove_task() 现在释放 KV cache slot 和 prefix cache 引用 - _refill_active_batch 中 alloc 失败时将剩余 task 推回 waiting_queue - 主循环增加 try/except 异常兜底，发送 _STOP 给所有 task - 重构：server.py 全局变量改为 ServerState 类；automodel.py 使用 Registry 替代裸 dict；合并 TrainContextBuilder 的 with_* 方法到 build()	2026-05-08 14:53:04 +08:00
ViperEkura	ffff05b2c6	refactor: 替换魔法字符串为_STOP sentinel，修复generator清理逻辑	2026-05-06 20:37:16 +08:00
ViperEkura	b89f8436ea	refactor: 将KV缓存槽位映射下沉到模型注意力层，移除_remap_kv和_writeback_kv	2026-05-06 20:01:22 +08:00
ViperEkura	123f25e339	fix: 修复KV缓存槽位索引错位、版本校验缺失与注意力掩码问题，合并预填充方法	2026-05-06 19:51:14 +08:00
ViperEkura	520de3ebe8	refactor: 重构推理引擎控制逻辑，修复连续批处理核心缺陷 - 修复 decode 阶段新任务覆盖已有任务的严重缺陷 - 修复线程安全问题（热路径无锁竞争） - 修复前缀缓存引用计数管理不当导致缓存被驱逐 - 修复 pad_id 缺失导致全量 prefill 崩溃 - 修复 RoPE 位置错乱（不同位置任务共用 start_pos） - 新增 slot 版本追踪实现前缀缓存零拷贝复用 - 新增异步流式生成接口避免阻塞事件循环 - 添加完整英文文档字符串	2026-05-06 16:04:06 +08:00
ViperEkura	466c34d7a8	ci: 添加 Docker 镜像自动构建工作流	2026-04-10 13:09:58 +08:00
ViperEkura	6831a15424	docs: 更新镜像构建部分说明	2026-04-10 12:59:50 +08:00
ViperEkura	0f9e5c5049	build: 修改docker 配置	2026-04-10 12:53:08 +08:00
ViperEkura	cb0e7f2a80	build: 修改docker 构建流程	2026-04-10 11:25:00 +08:00
ViperEkura	296db909aa	docs: 更新设计文档	2026-04-09 20:05:54 +08:00
ViperEkura	a2ae742988	chore: 增加并发测试	2026-04-09 18:10:28 +08:00
ViperEkura	29beb174a5	fix: 修复删除节点问题	2026-04-09 16:58:29 +08:00
ViperEkura	bbeaff4c60	refactor: 精简推理引擎代码，优化参数传递规范	2026-04-09 14:17:48 +08:00
ViperEkura	ab5e207f42	feat: 增加缓存处理	2026-04-08 20:54:14 +08:00
ViperEkura	b0eff02446	chore: 修改RMSNorm 实现	2026-04-06 20:27:01 +08:00
ViperEkura	408f0cb513	docs: 更新网络接口文档	2026-04-06 13:39:51 +08:00
ViperEkura	64b78ecce3	fix: 增加旋转位置编码扩展	2026-04-06 13:29:39 +08:00
ViperEkura	f2ffdf60d0	chore: 修改错误拼写	2026-04-06 10:37:19 +08:00
ViperEkura	ace8f6ee68	chore: 优化未使用的模块	2026-04-06 09:54:17 +08:00
ViperEkura	a57a16430d	fix: 修复tokenizer存储的问题	2026-04-06 09:36:29 +08:00
ViperEkura	3fee87897d	chore: 修改拼写错误问题	2026-04-06 09:28:16 +08:00
ViperEkura	3f67e53088	fix: 修复tokenizer 参数问题	2026-04-06 09:22:46 +08:00

1 2 3 4 5 ...

340 Commits All Branches Search

340 Commits

All Branches