- _Result.append 存储 (idx, token) 元组,pop_all 返回对应列表 - 单 prompt: Generator[str](向后兼容) - 多 prompt: Generator[Tuple[int, str]],token 交错到达,调用方自行分流 - 不使用 dispatch 线程 / Queue,避免同步开销和内存积压 |
||
|---|---|---|
| .. | ||
| __init__.py | ||
| cache.py | ||
| engine.py | ||
| sampling.py | ||
| scheduler.py | ||
| server.py | ||