原公式全用 floor 少算 optimizer step,改用逐层 ceiling (ceil_div via (a+b-1)//b)对齐 DDP sampler padding + DataLoader drop_last=False 尾批 + batched 尾组截断。 |
||
|---|---|---|
| .. | ||
| demo | ||
| tools | ||
| docker.sh | ||
| pre_commit.sh | ||
原公式全用 floor 少算 optimizer step,改用逐层 ceiling (ceil_div via (a+b-1)//b)对齐 DDP sampler padding + DataLoader drop_last=False 尾批 + batched 尾组截断。 |
||
|---|---|---|
| .. | ||
| demo | ||
| tools | ||
| docker.sh | ||
| pre_commit.sh | ||