AstrAI

History

ViperEkura cffedaad5e perf: 消除非流式推理 CPU 空转并减少 decode GPU 张量冗余分配 - engine.py: _Result 改用 threading.Condition.wait_for 替代 Event busy-wait，非流式模式线程被内核挂起而非 1760 万次空转 - scheduler.py: _execute_decode 将 temperature/top_k/top_p 张量移至循环外预先分配，避免每步重复 torch.tensor()；input_ids 改用 torch.empty 避免不必要的 zero 初始化（两处均为完全覆盖） - _execute_prefill: input_ids 同改为 torch.empty		2026-05-10 15:32:11 +08:00
..
__init__.py	fix: 修复 CLI 参数缺失/重复、device_ids 越界、generate 参数名不一致、scheduler 时序、非流式截断等 bug	2026-05-09 14:36:42 +08:00
cache.py	feat: 推理引擎前缀缓存（KV cache 复用）	2026-05-09 23:53:57 +08:00
engine.py	perf: 消除非流式推理 CPU 空转并减少 decode GPU 张量冗余分配	2026-05-10 15:32:11 +08:00
sampling.py	refactor: 分页 KV cache 替换固定 slot，删除 PrefixCache 及相关死代码	2026-05-08 20:44:05 +08:00
scheduler.py	perf: 消除非流式推理 CPU 空转并减少 decode GPU 张量冗余分配	2026-05-10 15:32:11 +08:00
server.py	feat: GRPO CLI 接入 + on-policy，OpenAI API top_k 参数化，补充训练参数表	2026-05-09 12:22:33 +08:00