ViperEkura
|
9d96b0431d
|
docs: 更新文档以匹配分页 KV cache 等代码重构
|
2026-05-08 22:41:13 +08:00 |
ViperEkura
|
f81e2b4a73
|
feat: OpenAI 兼容的 chat completion API(流式+非流式+usage)
|
2026-05-08 21:54:55 +08:00 |
ViperEkura
|
4e324d8f26
|
fix: benchmark 改用 PagedCache 替代已删除的 persistent_key_values
|
2026-05-08 21:26:55 +08:00 |
ViperEkura
|
6ed0506491
|
fix: 减少调度器延迟 — 移除解码路径 5ms 睡眠,修复 refill 任务丢失 bug
|
2026-05-08 21:13:52 +08:00 |
ViperEkura
|
30cc2d67a4
|
refactor: 分页 KV cache 替换固定 slot,删除 PrefixCache 及相关死代码
- 用 PagedCache + CacheView 替换固定 slot 式 KV cache,attention 层只通过 page_table 间接索引
- 删除 PrefixCache(radix tree)及 scheduler 中所有 prefix cache 命中/插入/释放逻辑
- 删除无用函数:pin、version、free_count、_mark_seq_mask 及 seq_mask 分配
- 修复 write 在多页 prefill 时 offset 为负导致 chunk 计算错误
- _make_page_table_tensor 改用 list 拼接一次 tensor,去掉逐元素赋值
- 清理 model 接口参数:kv_cache, slot_indices → paged_cache(CacheView)
- 精简 docstring 为单行,删除冗余 section 注释和旧代码
- 修复 test_scheduler_concurrency.py 缺少 import pytest
|
2026-05-08 20:44:05 +08:00 |
ViperEkura
|
7ddebf2cd9
|
refactor: 统一采样路径为 Strategy + batch tensor,删除 apply_sampling_strategies
- TemperatureStrategy / TopKStrategy / TopPStrategy 支持 Union[float, Tensor]
- SamplingPipeline.sample() 一条调用完成 apply + softmax + multinomial
- 新增 sample() 独立函数作为 scheduler 入口
- scheduler decode 改为 batch tensor 参数传递,支持任意 batch size
- 删除 apply_sampling_strategies(被 sample() 取代)
|
2026-05-08 19:07:14 +08:00 |
ViperEkura
|
78dc2bd41c
|
docs: 修正文档错误并补充训练参数说明
- README: 补充训练参数速查表,完善训练命令示例
- design.md: 同步 inference 类图(SlotAllocator、GenerationParams、采样策略等
新增类),修正参数名和类型错误,统一泛型符号
- params.md: 修正默认值(batch_size=1、num_workers=4),移除不存在参数
(grpo_*、model_type、resume_dir),补充完整示例
- dataflow.md: _RadixNode 命名修正
|
2026-05-08 18:07:57 +08:00 |
ViperEkura
|
44d7a4e959
|
refactor: 设计模式优化 inference 模块导入结构
- 新建 cache.py:SlotAllocator 对象池 + PrefixCacheManager
- 新建 sampling.py:Temperature/TopK/TopP 可组合策略
- TaskStatus 改用 Enum,GenerationParams 值对象模式
- _STOP 移至 cache.py,解除 engine→scheduler 轻量耦合
- 更新测试导入路径,ruff 格式检查通过
|
2026-05-08 16:57:57 +08:00 |
ViperEkura
|
c4401512f2
|
fix: 修复长对话截断方向错误,保留最新 token 而非最早
- add_task 中 prompt 超长时改为保留末尾 token(prompt_ids[-max_prompt_len:])
而非开头 token,确保多轮对话时模型能看到最近的提问上下文
|
2026-05-08 15:52:48 +08:00 |
ViperEkura
|
a6f5ff3b37
|
fix: 修复 remove_task 未释放 KV cache slot 导致第二轮对话死锁
- remove_task() 现在释放 KV cache slot 和 prefix cache 引用
- _refill_active_batch 中 alloc 失败时将剩余 task 推回 waiting_queue
- 主循环增加 try/except 异常兜底,发送 _STOP 给所有 task
- 重构:server.py 全局变量改为 ServerState 类;automodel.py
使用 Registry 替代裸 dict;合并 TrainContextBuilder 的 with_*
方法到 build()
|
2026-05-08 14:53:04 +08:00 |
ViperEkura
|
ffff05b2c6
|
refactor: 替换魔法字符串为_STOP sentinel,修复generator清理逻辑
|
2026-05-06 20:37:16 +08:00 |
ViperEkura
|
b89f8436ea
|
refactor: 将KV缓存槽位映射下沉到模型注意力层,移除_remap_kv和_writeback_kv
|
2026-05-06 20:01:22 +08:00 |
ViperEkura
|
123f25e339
|
fix: 修复KV缓存槽位索引错位、版本校验缺失与注意力掩码问题,合并预填充方法
|
2026-05-06 19:51:14 +08:00 |
ViperEkura
|
520de3ebe8
|
refactor: 重构推理引擎控制逻辑,修复连续批处理核心缺陷
- 修复 decode 阶段新任务覆盖已有任务的严重缺陷
- 修复线程安全问题(热路径无锁竞争)
- 修复前缀缓存引用计数管理不当导致缓存被驱逐
- 修复 pad_id 缺失导致全量 prefill 崩溃
- 修复 RoPE 位置错乱(不同位置任务共用 start_pos)
- 新增 slot 版本追踪实现前缀缓存零拷贝复用
- 新增异步流式生成接口避免阻塞事件循环
- 添加完整英文文档字符串
|
2026-05-06 16:04:06 +08:00 |
ViperEkura
|
466c34d7a8
|
ci: 添加 Docker 镜像自动构建工作流
|
2026-04-10 13:09:58 +08:00 |
ViperEkura
|
6831a15424
|
docs: 更新镜像构建部分说明
|
2026-04-10 12:59:50 +08:00 |
ViperEkura
|
0f9e5c5049
|
build: 修改docker 配置
|
2026-04-10 12:53:08 +08:00 |
ViperEkura
|
cb0e7f2a80
|
build: 修改docker 构建流程
|
2026-04-10 11:25:00 +08:00 |
ViperEkura
|
296db909aa
|
docs: 更新设计文档
|
2026-04-09 20:05:54 +08:00 |
ViperEkura
|
a2ae742988
|
chore: 增加并发测试
|
2026-04-09 18:10:28 +08:00 |
ViperEkura
|
29beb174a5
|
fix: 修复删除节点问题
|
2026-04-09 16:58:29 +08:00 |
ViperEkura
|
bbeaff4c60
|
refactor: 精简推理引擎代码,优化参数传递规范
|
2026-04-09 14:17:48 +08:00 |
ViperEkura
|
ab5e207f42
|
feat: 增加缓存处理
|
2026-04-08 20:54:14 +08:00 |
ViperEkura
|
b0eff02446
|
chore: 修改RMSNorm 实现
|
2026-04-06 20:27:01 +08:00 |
ViperEkura
|
408f0cb513
|
docs: 更新网络接口文档
|
2026-04-06 13:39:51 +08:00 |
ViperEkura
|
64b78ecce3
|
fix: 增加旋转位置编码扩展
|
2026-04-06 13:29:39 +08:00 |
ViperEkura
|
f2ffdf60d0
|
chore: 修改错误拼写
|
2026-04-06 10:37:19 +08:00 |
ViperEkura
|
ace8f6ee68
|
chore: 优化未使用的模块
|
2026-04-06 09:54:17 +08:00 |
ViperEkura
|
a57a16430d
|
fix: 修复tokenizer存储的问题
|
2026-04-06 09:36:29 +08:00 |
ViperEkura
|
3fee87897d
|
chore: 修改拼写错误问题
|
2026-04-06 09:28:16 +08:00 |
ViperEkura
|
3f67e53088
|
fix: 修复tokenizer 参数问题
|
2026-04-06 09:22:46 +08:00 |
ViperEkura
|
bf7adb35b3
|
docs: 更新文档
|
2026-04-06 00:50:37 +08:00 |
ViperEkura
|
feaa3fca36
|
ci: 优化 GitHub Actions 工作流
|
2026-04-05 22:40:16 +08:00 |
ViperEkura
|
39766aa1dc
|
chore: 修改类名,优化导入顺序
|
2026-04-05 22:27:57 +08:00 |
ViperEkura
|
9b22b1651e
|
refactor: 优化工具脚本接口并修复批处理问题
|
2026-04-05 21:56:22 +08:00 |
ViperEkura
|
e58dbd7c57
|
chore: 精简实现代码部分
|
2026-04-05 21:16:38 +08:00 |
ViperEkura
|
d2fe8afbd1
|
chore: 更新文档, 修正代码格式
|
2026-04-05 20:59:52 +08:00 |
ViperEkura
|
23ce4bc3ae
|
fix: 修复异常处理问题
|
2026-04-05 20:44:35 +08:00 |
ViperEkura
|
d2b36cc85d
|
fix: 修复特殊token 的问题
|
2026-04-05 20:09:47 +08:00 |
ViperEkura
|
fc278d17ab
|
feat: 实现模型动态注册机制
|
2026-04-05 19:38:12 +08:00 |
ViperEkura
|
ff43a2fab8
|
docs: 更新设计文档
|
2026-04-05 00:17:35 +08:00 |
ViperEkura
|
2b26f03bd3
|
refactor: 拆分engine.py 文件
|
2026-04-05 00:07:21 +08:00 |
ViperEkura
|
861d33b1a1
|
refactor: 更新inference 部分的实现
|
2026-04-04 23:49:18 +08:00 |
ViperEkura
|
99b821ebf5
|
docs: 更新文档类图等
|
2026-04-04 18:11:36 +08:00 |
ViperEkura
|
c94a246c71
|
chore: 重命名目录
|
2026-04-04 17:03:22 +08:00 |
ViperEkura
|
2dc9545d7f
|
refactor: 实现 chat template 分派设置
|
2026-04-04 16:56:31 +08:00 |
ViperEkura
|
9c31d78a22
|
chore: 将data 模块命名为dataset
|
2026-04-04 16:16:27 +08:00 |
ViperEkura
|
bd9741dc5f
|
refactor: 从data 模块分离tokenizer
|
2026-04-04 16:12:58 +08:00 |
ViperEkura
|
b531232a9b
|
style: 修改为显式导入
|
2026-04-04 16:02:49 +08:00 |
ViperEkura
|
3346c75584
|
feat: 优化工厂模式的实现
|
2026-04-04 15:49:46 +08:00 |