- 新建 cache.py:SlotAllocator 对象池 + PrefixCacheManager - 新建 sampling.py:Temperature/TopK/TopP 可组合策略 - TaskStatus 改用 Enum,GenerationParams 值对象模式 - _STOP 移至 cache.py,解除 engine→scheduler 轻量耦合 - 更新测试导入路径,ruff 格式检查通过 |
||
|---|---|---|
| .. | ||
| __init__.py | ||
| cache.py | ||
| engine.py | ||
| sampling.py | ||
| scheduler.py | ||
| server.py | ||