docs: AdamW beta 默认值改为 (0.9, 0.95)
- 与 Muon 优化器的 AdamW 子优化器保持一致 - 同步更新 train.py/training.md/params.md/README
This commit is contained in:
parent
10ebd7211f
commit
7621f05d3f
|
|
@ -90,8 +90,8 @@ nohup python scripts/tools/train.py \
|
|||
--warmup_ratio=0.05 \
|
||||
--max_lr=1e-4 \
|
||||
--max_grad_norm=1.0 \
|
||||
--adamw_beta1=0.95 \
|
||||
--adamw_beta2=0.99 \
|
||||
--adamw_beta1=0.9 \
|
||||
--adamw_beta2=0.95 \
|
||||
--adamw_weight_decay=0.01 \
|
||||
--window_size=2048 \
|
||||
--ckpt_interval=10000 \
|
||||
|
|
|
|||
|
|
@ -96,8 +96,8 @@ nohup python scripts/tools/train.py \
|
|||
--warmup_ratio=0.05 \
|
||||
--max_lr=1e-4 \
|
||||
--max_grad_norm=1.0 \
|
||||
--adamw_beta1=0.95 \
|
||||
--adamw_beta2=0.99 \
|
||||
--adamw_beta1=0.9 \
|
||||
--adamw_beta2=0.95 \
|
||||
--adamw_weight_decay=0.01 \
|
||||
--window_size=2048 \
|
||||
--ckpt_interval=10000 \
|
||||
|
|
|
|||
|
|
@ -25,8 +25,8 @@
|
|||
|
||||
| Parameter | Description | Default |
|
||||
|-----------|-------------|---------|
|
||||
| `--adamw_beta1` | AdamW beta1 | 0.95 |
|
||||
| `--adamw_beta2` | AdamW beta2 | 0.99 |
|
||||
| `--adamw_beta1` | AdamW beta1 | 0.9 |
|
||||
| `--adamw_beta2` | AdamW beta2 | 0.95 |
|
||||
| `--adamw_weight_decay` | AdamW weight decay | 0.01 |
|
||||
|
||||
### Data Loading
|
||||
|
|
@ -81,8 +81,8 @@ nohup python scripts/tools/train.py \
|
|||
--warmup_ratio=0.05 \
|
||||
--max_lr=1e-4 \
|
||||
--max_grad_norm=1.0 \
|
||||
--adamw_beta1=0.95 \
|
||||
--adamw_beta2=0.99 \
|
||||
--adamw_beta1=0.9 \
|
||||
--adamw_beta2=0.95 \
|
||||
--adamw_weight_decay=0.01 \
|
||||
--window_size=2048 \
|
||||
--ckpt_interval=10000 \
|
||||
|
|
|
|||
|
|
@ -196,8 +196,8 @@ nohup python scripts/tools/train.py \
|
|||
--warmup_ratio=0.05 \
|
||||
--max_lr=1e-4 \
|
||||
--max_grad_norm=1.0 \
|
||||
--adamw_beta1=0.95 \
|
||||
--adamw_beta2=0.99 \
|
||||
--adamw_beta1=0.9 \
|
||||
--adamw_beta2=0.95 \
|
||||
--adamw_weight_decay=0.01 \
|
||||
--window_size=2048 \
|
||||
--ckpt_interval=10000 \
|
||||
|
|
|
|||
|
|
@ -69,14 +69,14 @@ def parse_args() -> argparse.Namespace:
|
|||
parser.add_argument(
|
||||
"--adamw_beta1",
|
||||
type=float,
|
||||
default=0.95,
|
||||
help="Beta values for AdamW optimizer.",
|
||||
default=0.9,
|
||||
help="Beta1 for AdamW optimizer.",
|
||||
)
|
||||
parser.add_argument(
|
||||
"--adamw_beta2",
|
||||
type=float,
|
||||
default=0.99,
|
||||
help="Beta values for AdamW optimizer.",
|
||||
default=0.95,
|
||||
help="Beta2 for AdamW optimizer.",
|
||||
)
|
||||
parser.add_argument(
|
||||
"--adamw_weight_decay",
|
||||
|
|
|
|||
Loading…
Reference in New Issue