- 新建 cache.py:SlotAllocator 对象池 + PrefixCacheManager - 新建 sampling.py:Temperature/TopK/TopP 可组合策略 - TaskStatus 改用 Enum,GenerationParams 值对象模式 - _STOP 移至 cache.py,解除 engine→scheduler 轻量耦合 - 更新测试导入路径,ruff 格式检查通过 |
||
|---|---|---|
| .. | ||
| download.py | ||
| generate_ar.py | ||
| generate_batch.py | ||
| stream_chat.py | ||