- 新建 cache.py:SlotAllocator 对象池 + PrefixCacheManager - 新建 sampling.py:Temperature/TopK/TopP 可组合策略 - TaskStatus 改用 Enum,GenerationParams 值对象模式 - _STOP 移至 cache.py,解除 engine→scheduler 轻量耦合 - 更新测试导入路径,ruff 格式检查通过 |
||
|---|---|---|
| .. | ||
| data | ||
| inference | ||
| module | ||
| parallel | ||
| trainer | ||
| conftest.py | ||