fix: 修正AdamW超参数默认值与文档示例
- 交换adamw_beta1/adamw_beta2默认值:beta1=0.95, beta2=0.99 - label_smoothing默认值改为0.05 - 文档示例统一更新:train_type=pt, weight_decay=0.01 - 移除文档中过时的strategy default标注
This commit is contained in:
parent
f91bfee33e
commit
e1638a7ade
10
README.md
10
README.md
|
|
@ -82,7 +82,7 @@ export CUDA_VISIBLE_DEVICES=0,1,2,3
|
||||||
|
|
||||||
nohup python scripts/tools/train.py \
|
nohup python scripts/tools/train.py \
|
||||||
--nprocs=4 \
|
--nprocs=4 \
|
||||||
--train_type=sft \
|
--train_type=pt \
|
||||||
--data_root_path=/path/to/dataset \
|
--data_root_path=/path/to/dataset \
|
||||||
--param_path=/path/to/model \
|
--param_path=/path/to/model \
|
||||||
--batch_per_device=4 \
|
--batch_per_device=4 \
|
||||||
|
|
@ -90,14 +90,14 @@ nohup python scripts/tools/train.py \
|
||||||
--warmup_ratio=0.05 \
|
--warmup_ratio=0.05 \
|
||||||
--max_lr=1e-4 \
|
--max_lr=1e-4 \
|
||||||
--max_grad_norm=1.0 \
|
--max_grad_norm=1.0 \
|
||||||
--adamw_beta1=0.99 \
|
--adamw_beta1=0.95 \
|
||||||
--adamw_beta2=0.95 \
|
--adamw_beta2=0.99 \
|
||||||
--adamw_weight_decay=1e-5 \
|
--adamw_weight_decay=0.01 \
|
||||||
--window_size=2048 \
|
--window_size=2048 \
|
||||||
--ckpt_interval=10000 \
|
--ckpt_interval=10000 \
|
||||||
--ckpt_dir=./checkpoint \
|
--ckpt_dir=./checkpoint \
|
||||||
--random_seed=3407 \
|
--random_seed=3407 \
|
||||||
--label_smoothing=0.1 \
|
--label_smoothing=0.05 \
|
||||||
> out.log 2> err.log &
|
> out.log 2> err.log &
|
||||||
```
|
```
|
||||||
|
|
||||||
|
|
|
||||||
|
|
@ -88,7 +88,7 @@ export CUDA_VISIBLE_DEVICES=0,1,2,3
|
||||||
|
|
||||||
nohup python scripts/tools/train.py \
|
nohup python scripts/tools/train.py \
|
||||||
--nprocs=4 \
|
--nprocs=4 \
|
||||||
--train_type=sft \
|
--train_type=pt \
|
||||||
--data_root_path=/path/to/dataset \
|
--data_root_path=/path/to/dataset \
|
||||||
--param_path=/path/to/model \
|
--param_path=/path/to/model \
|
||||||
--batch_per_device=4 \
|
--batch_per_device=4 \
|
||||||
|
|
@ -96,14 +96,14 @@ nohup python scripts/tools/train.py \
|
||||||
--warmup_ratio=0.05 \
|
--warmup_ratio=0.05 \
|
||||||
--max_lr=1e-4 \
|
--max_lr=1e-4 \
|
||||||
--max_grad_norm=1.0 \
|
--max_grad_norm=1.0 \
|
||||||
--adamw_beta1=0.99 \
|
--adamw_beta1=0.95 \
|
||||||
--adamw_beta2=0.95 \
|
--adamw_beta2=0.99 \
|
||||||
--adamw_weight_decay=1e-5 \
|
--adamw_weight_decay=0.01 \
|
||||||
--window_size=2048 \
|
--window_size=2048 \
|
||||||
--ckpt_interval=10000 \
|
--ckpt_interval=10000 \
|
||||||
--ckpt_dir=./checkpoint \
|
--ckpt_dir=./checkpoint \
|
||||||
--random_seed=3407 \
|
--random_seed=3407 \
|
||||||
--label_smoothing=0.1 \
|
--label_smoothing=0.05 \
|
||||||
> out.log 2> err.log &
|
> out.log 2> err.log &
|
||||||
```
|
```
|
||||||
|
|
||||||
|
|
|
||||||
|
|
@ -25,8 +25,8 @@
|
||||||
|
|
||||||
| Parameter | Description | Default |
|
| Parameter | Description | Default |
|
||||||
|-----------|-------------|---------|
|
|-----------|-------------|---------|
|
||||||
| `--adamw_beta1` | AdamW beta1 | 0.9 |
|
| `--adamw_beta1` | AdamW beta1 | 0.95 |
|
||||||
| `--adamw_beta2` | AdamW beta2 | 0.95 |
|
| `--adamw_beta2` | AdamW beta2 | 0.99 |
|
||||||
| `--adamw_weight_decay` | AdamW weight decay | 0.01 |
|
| `--adamw_weight_decay` | AdamW weight decay | 0.01 |
|
||||||
|
|
||||||
### Data Loading
|
### Data Loading
|
||||||
|
|
@ -60,7 +60,7 @@
|
||||||
| Parameter | Description | Default | Used by |
|
| Parameter | Description | Default | Used by |
|
||||||
|-----------|-------------|---------|---------|
|
|-----------|-------------|---------|---------|
|
||||||
| `--dpo_beta` | DPO beta value | 0.1 | `dpo` |
|
| `--dpo_beta` | DPO beta value | 0.1 | `dpo` |
|
||||||
| `--label_smoothing` | Label smoothing for cross-entropy loss | 0.1 (CLI) / 0.0 (strategy default) | `seq`, `sft` |
|
| `--label_smoothing` | Label smoothing for cross-entropy loss | 0.05 | `seq`, `sft` |
|
||||||
| `--group_size` | GRPO group size | 4 | `grpo` |
|
| `--group_size` | GRPO group size | 4 | `grpo` |
|
||||||
| `--grpo_clip_eps` | GRPO clipping epsilon | 0.2 | `grpo` |
|
| `--grpo_clip_eps` | GRPO clipping epsilon | 0.2 | `grpo` |
|
||||||
| `--grpo_kl_coef` | GRPO KL penalty coefficient | 0.01 | `grpo` |
|
| `--grpo_kl_coef` | GRPO KL penalty coefficient | 0.01 | `grpo` |
|
||||||
|
|
@ -73,7 +73,7 @@ export CUDA_VISIBLE_DEVICES=0,1,2,3
|
||||||
|
|
||||||
nohup python scripts/tools/train.py \
|
nohup python scripts/tools/train.py \
|
||||||
--nprocs=4 \
|
--nprocs=4 \
|
||||||
--train_type=sft \
|
--train_type=pt \
|
||||||
--data_root_path=/path/to/dataset \
|
--data_root_path=/path/to/dataset \
|
||||||
--param_path=/path/to/model \
|
--param_path=/path/to/model \
|
||||||
--batch_per_device=4 \
|
--batch_per_device=4 \
|
||||||
|
|
@ -81,14 +81,14 @@ nohup python scripts/tools/train.py \
|
||||||
--warmup_ratio=0.05 \
|
--warmup_ratio=0.05 \
|
||||||
--max_lr=1e-4 \
|
--max_lr=1e-4 \
|
||||||
--max_grad_norm=1.0 \
|
--max_grad_norm=1.0 \
|
||||||
--adamw_beta1=0.99 \
|
--adamw_beta1=0.95 \
|
||||||
--adamw_beta2=0.95 \
|
--adamw_beta2=0.99 \
|
||||||
--adamw_weight_decay=1e-5 \
|
--adamw_weight_decay=0.01 \
|
||||||
--window_size=2048 \
|
--window_size=2048 \
|
||||||
--ckpt_interval=10000 \
|
--ckpt_interval=10000 \
|
||||||
--ckpt_dir=./checkpoint \
|
--ckpt_dir=./checkpoint \
|
||||||
--random_seed=3407 \
|
--random_seed=3407 \
|
||||||
--label_smoothing=0.1 \
|
--label_smoothing=0.05 \
|
||||||
> out.log 2> err.log &
|
> out.log 2> err.log &
|
||||||
```
|
```
|
||||||
|
|
||||||
|
|
|
||||||
|
|
@ -188,7 +188,7 @@ export CUDA_VISIBLE_DEVICES=0,1,2,3
|
||||||
|
|
||||||
nohup python scripts/tools/train.py \
|
nohup python scripts/tools/train.py \
|
||||||
--nprocs=4 \
|
--nprocs=4 \
|
||||||
--train_type=sft \
|
--train_type=pt \
|
||||||
--data_root_path=/path/to/dataset \
|
--data_root_path=/path/to/dataset \
|
||||||
--param_path=/path/to/model \
|
--param_path=/path/to/model \
|
||||||
--batch_per_device=4 \
|
--batch_per_device=4 \
|
||||||
|
|
@ -196,14 +196,14 @@ nohup python scripts/tools/train.py \
|
||||||
--warmup_ratio=0.05 \
|
--warmup_ratio=0.05 \
|
||||||
--max_lr=1e-4 \
|
--max_lr=1e-4 \
|
||||||
--max_grad_norm=1.0 \
|
--max_grad_norm=1.0 \
|
||||||
--adamw_beta1=0.99 \
|
--adamw_beta1=0.95 \
|
||||||
--adamw_beta2=0.95 \
|
--adamw_beta2=0.99 \
|
||||||
--adamw_weight_decay=1e-5 \
|
--adamw_weight_decay=0.01 \
|
||||||
--window_size=2048 \
|
--window_size=2048 \
|
||||||
--ckpt_interval=10000 \
|
--ckpt_interval=10000 \
|
||||||
--ckpt_dir=./checkpoint \
|
--ckpt_dir=./checkpoint \
|
||||||
--random_seed=3407 \
|
--random_seed=3407 \
|
||||||
--label_smoothing=0.1 \
|
--label_smoothing=0.05 \
|
||||||
> out.log 2> err.log &
|
> out.log 2> err.log &
|
||||||
```
|
```
|
||||||
|
|
||||||
|
|
|
||||||
|
|
@ -69,13 +69,13 @@ def parse_args() -> argparse.Namespace:
|
||||||
parser.add_argument(
|
parser.add_argument(
|
||||||
"--adamw_beta1",
|
"--adamw_beta1",
|
||||||
type=float,
|
type=float,
|
||||||
default=0.9,
|
default=0.95,
|
||||||
help="Beta values for AdamW optimizer.",
|
help="Beta values for AdamW optimizer.",
|
||||||
)
|
)
|
||||||
parser.add_argument(
|
parser.add_argument(
|
||||||
"--adamw_beta2",
|
"--adamw_beta2",
|
||||||
type=float,
|
type=float,
|
||||||
default=0.95,
|
default=0.99,
|
||||||
help="Beta values for AdamW optimizer.",
|
help="Beta values for AdamW optimizer.",
|
||||||
)
|
)
|
||||||
parser.add_argument(
|
parser.add_argument(
|
||||||
|
|
@ -116,7 +116,7 @@ def parse_args() -> argparse.Namespace:
|
||||||
parser.add_argument(
|
parser.add_argument(
|
||||||
"--label_smoothing",
|
"--label_smoothing",
|
||||||
type=float,
|
type=float,
|
||||||
default=0.1,
|
default=0.05,
|
||||||
help="cross_entropy function label smoothing parameter",
|
help="cross_entropy function label smoothing parameter",
|
||||||
)
|
)
|
||||||
|
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue