python paraphrase_detection.py --use_gpu --batch_size=32
root@autodl-container-b61844b5bd-eed4965e:~/Build-GPT-2# python paraphrase_detection.py --use_gpu
Loaded 283003 train examples from data/quora-train.csv
Loaded 40429 train examples from data/quora-dev.csv
train-0: 11%|███████▋ | 999/8844 [01:25<10:56, 11.95it/s]Epoch 0, Batch 1000: train loss :: 0.548
train-0: 23%|███████████████▏ | 1999/8844 [02:52<09:41, 11.77it/s]Epoch 0, Batch 2000: train loss :: 0.487
train-0: 34%|██████████████████████▋ | 2999/8844 [04:17<08:28, 11.50it/s]Epoch 0, Batch 3000: train loss :: 0.456
train-0: 45%|██████████████████████████████▎ | 3999/8844 [05:43<06:46, 11.93it/s]Epoch 0, Batch 4000: train loss :: 0.437
train-0: 57%|█████████████████████████████████████▊ | 4999/8844 [07:09<05:30, 11.63it/s]Epoch 0, Batch 5000: train loss :: 0.422
train-0: 68%|█████████████████████████████████████████████▍ | 5999/8844 [08:34<04:08, 11.45it/s]Epoch 0, Batch 6000: train loss :: 0.411
train-0: 79%|█████████████████████████████████████████████████████ | 6999/8844 [09:59<02:38, 11.61it/s]Epoch 0, Batch 7000: train loss :: 0.402
train-0: 90%|████████████████████████████████████████████████████████████▌ | 7999/8844 [11:25<01:14, 11.28it/s]Epoch 0, Batch 8000: train loss :: 0.394
train-0: 100%|███████████████████████████████████████████████████████████████████| 8844/8844 [12:37<00:00, 11.67it/s]
eval: 100%|██████████████████████████████████████████████████████████████████████| 1264/1264 [00:33<00:00, 38.01it/s]
save the model to 10-1e-05-paraphrase.pt
Epoch 0: train loss :: 0.388, dev acc :: 0.859
train-1: 11%|███████▋ | 998/8844 [01:25<11:12, 11.66it/s]Epoch 1, Batch 1000: train loss :: 0.315
train-1: 23%|███████████████▏ | 1998/8844 [02:51<09:47, 11.66it/s]Epoch 1, Batch 2000: train loss :: 0.312
train-1: 34%|██████████████████████▋ | 2998/8844 [04:18<08:16, 11.77it/s]Epoch 1, Batch 3000: train loss :: 0.309
train-1: 45%|██████████████████████████████▎ | 3998/8844 [05:44<07:07, 11.34it/s]Epoch 1, Batch 4000: train loss :: 0.307
train-1: 57%|█████████████████████████████████████▊ | 4998/8844 [07:10<05:29, 11.68it/s]Epoch 1, Batch 5000: train loss :: 0.306
train-1: 68%|█████████████████████████████████████████████▍ | 5998/8844 [08:37<04:05, 11.57it/s]Epoch 1, Batch 6000: train loss :: 0.305
train-1: 79%|█████████████████████████████████████████████████████ | 6998/8844 [09:57<02:40, 11.49it/s]Epoch 1, Batch 7000: train loss :: 0.304
train-1: 90%|████████████████████████████████████████████████████████████▌ | 7998/8844 [11:24<01:08, 12.28it/s]Epoch 1, Batch 8000: train loss :: 0.302
train-1: 100%|███████████████████████████████████████████████████████████████████| 8844/8844 [12:37<00:00, 11.68it/s]
eval: 100%|██████████████████████████████████████████████████████████████████████| 1264/1264 [00:31<00:00, 39.57it/s]
save the model to 10-1e-05-paraphrase.pt
Epoch 1: train loss :: 0.301, dev acc :: 0.872
train-2: 11%|███████▋ | 999/8844 [01:25<10:54, 11.98it/s]Epoch 2, Batch 1000: train loss :: 0.260
train-2: 23%|███████████████▏ | 1999/8844 [02:52<09:46, 11.67it/s]Epoch 2, Batch 2000: train loss :: 0.262
train-2: 34%|██████████████████████▋ | 2999/8844 [04:17<08:25, 11.57it/s]Epoch 2, Batch 3000: train loss :: 0.261
train-2: 45%|██████████████████████████████▎ | 3999/8844 [05:44<06:56, 11.63it/s]Epoch 2, Batch 4000: train loss :: 0.261
train-2: 57%|█████████████████████████████████████▊ | 4999/8844 [07:09<05:27, 11.76it/s]Epoch 2, Batch 5000: train loss :: 0.261
train-2: 68%|█████████████████████████████████████████████▍ | 5999/8844 [08:33<04:03, 11.70it/s]Epoch 2, Batch 6000: train loss :: 0.261
train-2: 79%|█████████████████████████████████████████████████████ | 6999/8844 [09:59<02:37, 11.72it/s]Epoch 2, Batch 7000: train loss :: 0.260
train-2: 90%|████████████████████████████████████████████████████████████▌ | 7999/8844 [11:25<01:13, 11.57it/s]Epoch 2, Batch 8000: train loss :: 0.260
train-2: 100%|███████████████████████████████████████████████████████████████████| 8844/8844 [12:38<00:00, 11.66it/s]
eval: 100%|██████████████████████████████████████████████████████████████████████| 1264/1264 [00:31<00:00, 39.90it/s]
save the model to 10-1e-05-paraphrase.pt
Epoch 2: train loss :: 0.260, dev acc :: 0.886
train-3: 11%|███████▋ | 999/8844 [01:26<11:27, 11.41it/s]Epoch 3, Batch 1000: train loss :: 0.224
train-3: 23%|███████████████▏ | 1999/8844 [02:51<09:39, 11.81it/s]Epoch 3, Batch 2000: train loss :: 0.225
train-3: 34%|██████████████████████▋ | 2999/8844 [04:14<08:06, 12.02it/s]Epoch 3, Batch 3000: train loss :: 0.226
train-3: 45%|██████████████████████████████▎ | 3999/8844 [05:40<06:57, 11.59it/s]Epoch 3, Batch 4000: train loss :: 0.227
train-3: 57%|█████████████████████████████████████▊ | 4999/8844 [07:06<05:37, 11.39it/s]Epoch 3, Batch 5000: train loss :: 0.228
train-3: 68%|█████████████████████████████████████████████▍ | 5999/8844 [08:33<04:11, 11.32it/s]Epoch 3, Batch 6000: train loss :: 0.227
train-3: 79%|█████████████████████████████████████████████████████ | 6999/8844 [09:58<02:39, 11.58it/s]Epoch 3, Batch 7000: train loss :: 0.228
train-3: 90%|████████████████████████████████████████████████████████████▌ | 7999/8844 [11:24<01:10, 11.97it/s]Epoch 3, Batch 8000: train loss :: 0.228
train-3: 100%|███████████████████████████████████████████████████████████████████| 8844/8844 [12:37<00:00, 11.67it/s]
eval: 100%|██████████████████████████████████████████████████████████████████████| 1264/1264 [00:32<00:00, 39.46it/s]
Epoch 3: train loss :: 0.228, dev acc :: 0.886
train-4: 11%|███████▋ | 999/8844 [01:26<11:36, 11.26it/s]Epoch 4, Batch 1000: train loss :: 0.194
train-4: 23%|███████████████▏ | 1999/8844 [02:49<10:08, 11.26it/s]Epoch 4, Batch 2000: train loss :: 0.195
train-4: 34%|██████████████████████▋ | 2999/8844 [04:16<08:39, 11.24it/s]Epoch 4, Batch 3000: train loss :: 0.197
train-4: 45%|██████████████████████████████▎ | 3999/8844 [05:42<06:54, 11.70it/s]Epoch 4, Batch 4000: train loss :: 0.198
train-4: 57%|█████████████████████████████████████▊ | 4999/8844 [07:06<05:27, 11.74it/s]Epoch 4, Batch 5000: train loss :: 0.199
train-4: 68%|█████████████████████████████████████████████▍ | 5999/8844 [08:32<04:36, 10.31it/s]Epoch 4, Batch 6000: train loss :: 0.199
train-4: 79%|█████████████████████████████████████████████████████ | 6999/8844 [09:58<02:26, 12.59it/s]Epoch 4, Batch 7000: train loss :: 0.199
train-4: 90%|████████████████████████████████████████████████████████████▌ | 7999/8844 [11:25<01:12, 11.68it/s]Epoch 4, Batch 8000: train loss :: 0.200
train-4: 100%|███████████████████████████████████████████████████████████████████| 8844/8844 [12:38<00:00, 11.67it/s]
eval: 100%|██████████████████████████████████████████████████████████████████████| 1264/1264 [00:31<00:00, 39.75it/s]
save the model to 10-1e-05-paraphrase.pt
Epoch 4: train loss :: 0.200, dev acc :: 0.889
train-5: 11%|███████▋ | 999/8844 [01:26<11:18, 11.57it/s]Epoch 5, Batch 1000: train loss :: 0.169
train-5: 23%|███████████████▏ | 1999/8844 [02:52<09:47, 11.65it/s]Epoch 5, Batch 2000: train loss :: 0.168
train-5: 34%|██████████████████████▋ | 2999/8844 [04:17<08:09, 11.94it/s]Epoch 5, Batch 3000: train loss :: 0.171
train-5: 45%|██████████████████████████████▎ | 3999/8844 [05:43<07:10, 11.26it/s]Epoch 5, Batch 4000: train loss :: 0.172
train-5: 57%|█████████████████████████████████████▊ | 4999/8844 [07:10<05:31, 11.61it/s]Epoch 5, Batch 5000: train loss :: 0.172
train-5: 68%|█████████████████████████████████████████████▍ | 5999/8844 [08:36<04:05, 11.60it/s]Epoch 5, Batch 6000: train loss :: 0.173
train-5: 79%|█████████████████████████████████████████████████████ | 6999/8844 [10:02<02:35, 11.89it/s]Epoch 5, Batch 7000: train loss :: 0.173
train-5: 90%|████████████████████████████████████████████████████████████▌ | 7999/8844 [11:28<01:12, 11.69it/s]Epoch 5, Batch 8000: train loss :: 0.173
train-5: 100%|███████████████████████████████████████████████████████████████████| 8844/8844 [12:41<00:00, 11.61it/s]
eval: 100%|██████████████████████████████████████████████████████████████████████| 1264/1264 [00:32<00:00, 39.30it/s]
save the model to 10-1e-05-paraphrase.pt
Epoch 5: train loss :: 0.174, dev acc :: 0.892
train-6: 11%|███████▋ | 999/8844 [01:25<10:56, 11.94it/s]Epoch 6, Batch 1000: train loss :: 0.146
train-6: 23%|███████████████▏ | 1999/8844 [02:51<09:56, 11.48it/s]Epoch 6, Batch 2000: train loss :: 0.146
train-6: 34%|██████████████████████▋ | 2999/8844 [04:17<06:57, 14.01it/s]Epoch 6, Batch 3000: train loss :: 0.149
train-6: 45%|██████████████████████████████▎ | 3999/8844 [05:42<06:49, 11.83it/s]Epoch 6, Batch 4000: train loss :: 0.150
train-6: 57%|█████████████████████████████████████▊ | 4999/8844 [07:09<05:33, 11.54it/s]Epoch 6, Batch 5000: train loss :: 0.151
train-6: 68%|█████████████████████████████████████████████▍ | 5999/8844 [08:35<03:50, 12.33it/s]Epoch 6, Batch 6000: train loss :: 0.151
train-6: 79%|█████████████████████████████████████████████████████ | 6999/8844 [10:01<02:38, 11.65it/s]Epoch 6, Batch 7000: train loss :: 0.151
train-6: 90%|████████████████████████████████████████████████████████████▌ | 7999/8844 [11:27<01:12, 11.59it/s]Epoch 6, Batch 8000: train loss :: 0.152
train-6: 100%|███████████████████████████████████████████████████████████████████| 8844/8844 [12:40<00:00, 11.62it/s]
eval: 100%|██████████████████████████████████████████████████████████████████████| 1264/1264 [00:32<00:00, 38.54it/s]
save the model to 10-1e-05-paraphrase.pt
Epoch 6: train loss :: 0.152, dev acc :: 0.896
其实第一轮就已经达到比较好的效果。后面五轮仅仅是提高了0.05的准确率。
做的很好的原因在于,我们是在gpt2 base model上微调的,所以说借助了原先底模的力量
root@autodl-container-b61844b5bd-eed4965e:~/Build-GPT-2# python paraphrase_detection.py --use_gpu --use_lora --lora_r=16 --lora_alpha=32 --batch_size=32 --epochs=5
Loaded 283003 train examples from data/quora-train.csv
Loaded 40429 train examples from data/quora-dev.csv
LoRA configuration: r=16, alpha=32
LoRA enabled: Only training LoRA parameters and classification head
Total parameters: 125,326,850
Trainable parameters: 296,450
Trainable ratio: 0.24%
train-0: 3%|█▏ | 223/8844 [00 train-0: 3%|█▏ | 225/8844 [00 train-0: 3%|█▏ | 227/8844 [00 train-0: 3%|█▏ | 229/8844 [00 train-0: 3%|█▏ | 231/8844 [00 train-0: 3%|█▏ | 233/8844 [00 train-0: 3%|█▏ | 235/8844 [00 train-0: 3%|█▏ | 237/8844 [00 train-0: 3%|█▏ | 239/8844 [00 train-0: 3%|█▎ | 241/8844 [00 train-0: 3%|█▎ | 243/8844 [00 train-0: 3%|█▎ | 245/8844 [00 train-0: 3%|█▎ | 247/8844 [00 train-0: 3%|█▎ | 249/8844 [00 train-0: 3%|█▎ | 251/8844 [00 train-0: 3%|█▎ | 253/8844 [00 train-0: 3%|█▎ | 255/8844 [00 train-0: 3%|█▎ | 257/8844 [00 train-0: 3%|█▎ | 259/8844 [00 train-0: 3%|█▎ | 261/8844 [00 train-0: 3%|█▎ | 263/8844 [00 train-0: 3%|█▍ | 265/8844 [00 train-0: 3%|█▍ | 267/8844 [00 train-0: 3%|█▍ | 269/8844 [00 train-0: 3%|█▍ | 271/8844 [00 train-0: 3%|█▍ | 273/8844 [00 train-0: 3%|█▍ | 275/8844 [00 train-0: 3%|█▍ | 277/8844 [00 train-0: 3%|█▍ | 279/8844 [00 train-0: 3%|█▍ | 281/8844 [00 train-0: 3%|█▍ | 283/8844 [00 train-0: 3%|█▍ | 285/8844 [00 train-0: 3%|█▍ | 287/8844 [00 train-0: 3%|█▌ | 289/8844 [00 train-0: 3%|█▌ | 291/8844 [00 train-0: 3%|█▌ | 293/8844 [00 train-0: 3%|█▌ | 295/8844 [00 train-0: 3%|█▌ | 297/8844 [00 train-0: 3%|█▌ | 299/8844 [00 train-0: 3%|█▌ | 301/8844 [00 train-0: 3%|█▌ | 303/8844 [00 train-0: 3%|█▌ | 305/8844 [00 train-0: 3%|█▌ | 307/8844 [00 train-0: 3%|█▌ | 309/8844 [00 train-0: 4%|█▌ | 311/8844 [00 train-0: 4%|█▋ | 313/8844 [00 train-0: 4%|█▋ | 315/8844 [00 train-0: 4%|█▋ | 317/8844 [00 train-0: 4%|█▋ | 319/8844 [00 train-0: 4%|█▋ | 321/8844 [00 train-0: 4%|█▋ | 323/8844 [00train-0: 4%|█▋ | 325/8844 [00 train-0: 4%|█▋ | 327/8844 [00 train-0: 4%|█▋ | 329/8844 [00:2 train-0: 4%|█▋ | 331/8844 [00:25<1 train-0: 4%|█▋ | 333/8844 [00:25<10:58, 12.9 train-0: 4%|█▋ | 335/8844 [00:25<10:40, 13.2 train-0: 4%|█▊ | 337/8844 [00:26<10:46, 13.1 train-0: 4%|█▊ | 339/8844 [00:26<10:28, 13.5 train-0: 4%|█▊ | 341/8844 [00:26<10:18, 13.7 train-0: 4%|█▊ | 343/8844 [00:26<10:24, 13.6 train-0: 4%|█▊ | 345/8844 [00:26<10:16, 13.8 train-0: 4%|█▊ | 347/8844 [00:26<10:19, 13.7 train-0: 4%|█▊ | 349/8844 [00:26<10:18, 13.7 train-0: 4%|█▊ | 351/8844 [00:27<10:11, 13.8 train-0: 4%|█▊ | 353/8844 [00:27<10:11, 13.9 train-0: 4%|█▊ | 355/8844 [00:27<10:11, 13.8 train-0: 11%|█████▏ | 999/8844 [01:15<09:31, 13.72it/s]Epoch 0, Batch 1000: train loss :: 0.621
train-0: 23%|██████████▏ | 1998/8844 [02:29<08:14, 13.86it/s]Epoch 0, Batch 2000: train loss :: 0.562
train-0: 34%|███████████████▎ | 2998/8844 [03:43<07:16, 13.39it/s]Epoch 0, Batch 3000: train loss :: 0.527
train-0: 45%|████████████████████▎ | 3998/8844 [04:56<05:58, 13.51it/s]Epoch 0, Batch 4000: train loss :: 0.504
train-0: 57%|█████████████████████████▍ | 4999/8844 [06:10<04:47, 13.38it/s]Epoch 0, Batch 5000: train loss :: 0.488
train-0: 68%|██████████████████████████████▌ | 5999/8844 [07:24<03:45, 12.63it/s]Epoch 0, Batch 6000: train loss :: 0.477
train-0: 79%|███████████████████████████████████▌ | 6998/8844 [08:38<02:18, 13.29it/s]Epoch 0, Batch 7000: train loss :: 0.467
train-0: 90%|████████████████████████████████████████▋ | 7998/8844 [09:52<01:02, 13.55it/s]Epoch 0, Batch 8000: train loss :: 0.459
train-0: 100%|█████████████████████████████████████████████| 8844/8844 [10:54<00:00, 13.52it/s]
eval: 100%|██████████████████████████████████████████████████████████████| 1264/1264 [00:34<00:00, 36.83it/s]
save the model to 5-1e-05-paraphrase-lora-r16-alpha32.pt
Epoch 0: train loss :: 0.454, dev acc :: 0.824
train-1: 11%|██████▊ | 999/8844 [01:12<09:26, 13.86it/s]Epoch 1, Batch 1000: train loss :: 0.390
train-1: 23%|█████████████▎ | 1998/8844 [02:26<08:12, 13.90it/s]Epoch 1, Batch 2000: train loss :: 0.388
train-1: 34%|████████████████████ | 2998/8844 [03:39<07:22, 13.22it/s]Epoch 1, Batch 3000: train loss :: 0.386
train-1: 45%|██████████████████████████▋ | 3999/8844 [04:51<05:31, 14.61it/s]Epoch 1, Batch 4000: train loss :: 0.385
train-1: 57%|█████████████████████████████████▎ | 4998/8844 [06:03<04:46, 13.42it/s]Epoch 1, Batch 5000: train loss :: 0.384
train-1: 68%|████████████████████████████████████████ | 5998/8844 [07:15<03:23, 13.98it/s]Epoch 1, Batch 6000: train loss :: 0.384
train-1: 79%|██████████████████████████████████████████████▋ | 6998/8844 [08:24<02:06, 14.56it/s]Epoch 1, Batch 7000: train loss :: 0.382
train-1: 90%|█████████████████████████████████████████████████████▎ | 7998/8844 [09:35<01:04, 13.13it/s]Epoch 1, Batch 8000: train loss :: 0.381
train-1: 100%|███████████████████████████████████████████████████████████| 8844/8844 [10:37<00:00, 13.87it/s]
eval: 100%|██████████████████████████████████████████████████████████████| 1264/1264 [00:32<00:00, 38.52it/s]
save the model to 5-1e-05-paraphrase-lora-r16-alpha32.pt
Epoch 1: train loss :: 0.379, dev acc :: 0.837
train-2: 11%|██████▊ | 999/8844 [01:11<09:26, 13.86it/s]Epoch 2, Batch 1000: train loss :: 0.357
train-2: 23%|█████████████▎ | 1999/8844 [02:23<08:10, 13.96it/s]Epoch 2, Batch 2000: train loss :: 0.356
train-2: 34%|████████████████████ | 2999/8844 [03:35<07:13, 13.47it/s]Epoch 2, Batch 3000: train loss :: 0.356
train-2: 45%|██████████████████████████▋ | 3999/8844 [04:48<05:59, 13.46it/s]Epoch 2, Batch 4000: train loss :: 0.355
train-2: 57%|█████████████████████████████████▎ | 4999/8844 [06:01<03:19, 19.29it/s]Epoch 2, Batch 5000: train loss :: 0.356
train-2: 68%|████████████████████████████████████████ | 5998/8844 [07:01<03:17, 14.42it/s]Epoch 2, Batch 6000: train loss :: 0.356
train-2: 79%|██████████████████████████████████████████████▋ | 6999/8844 [08:12<02:06, 14.55it/s]Epoch 2, Batch 7000: train loss :: 0.355
train-2: 90%|█████████████████████████████████████████████████████▎ | 7999/8844 [09:24<01:00, 14.08it/s]Epoch 2, Batch 8000: train loss :: 0.355
train-2: 100%|███████████████████████████████████████████████████████████| 8844/8844 [10:25<00:00, 14.15it/s]
eval: 100%|██████████████████████████████████████████████████████████████| 1264/1264 [00:33<00:00, 38.16it/s]
save the model to 5-1e-05-paraphrase-lora-r16-alpha32.pt
Epoch 2: train loss :: 0.354, dev acc :: 0.839
train-3: 11%|██████▊ | 998/8844 [01:11<09:05, 14.39it/s]Epoch 3, Batch 1000: train loss :: 0.339
train-3: 23%|█████████████▎ | 1998/8844 [02:21<07:49, 14.58it/s]Epoch 3, Batch 2000: train loss :: 0.342
train-3: 34%|████████████████████ | 2999/8844 [03:34<06:47, 14.34it/s]Epoch 3, Batch 3000: train loss :: 0.341
train-3: 45%|██████████████████████████▋ | 3999/8844 [04:47<05:57, 13.56it/s]Epoch 3, Batch 4000: train loss :: 0.341
train-3: 57%|█████████████████████████████████▎ | 4999/8844 [06:00<04:42, 13.60it/s]Epoch 3, Batch 5000: train loss :: 0.341
train-3: 68%|████████████████████████████████████████ | 5999/8844 [07:04<03:23, 13.96it/s]Epoch 3, Batch 6000: train loss :: 0.340
train-3: 79%|██████████████████████████████████████████████▋ | 6998/8844 [08:18<02:13, 13.84it/s]Epoch 3, Batch 7000: train loss :: 0.340
train-3: 90%|█████████████████████████████████████████████████████▎ | 7999/8844 [09:30<00:57, 14.65it/s]Epoch 3, Batch 8000: train loss :: 0.338
train-3: 100%|███████████████████████████████████████████████████████████| 8844/8844 [10:32<00:00, 13.99it/s]
eval: 100%|██████████████████████████████████████████████████████████████| 1264/1264 [00:33<00:00, 38.17it/s]
save the model to 5-1e-05-paraphrase-lora-r16-alpha32.pt
Epoch 3: train loss :: 0.338, dev acc :: 0.850
train-4: 11%|██████▊ | 998/8844 [01:13<09:40, 13.51it/s]Epoch 4, Batch 1000: train loss :: 0.326
train-4: 23%|█████████████▎ | 1998/8844 [02:22<08:28, 13.47it/s]Epoch 4, Batch 2000: train loss :: 0.326
train-4: 34%|████████████████████ | 2998/8844 [03:33<07:14, 13.46it/s]Epoch 4, Batch 3000: train loss :: 0.326
train-4: 45%|██████████████████████████▋ | 3999/8844 [04:42<05:56, 13.59it/s]Epoch 4, Batch 4000: train loss :: 0.327
train-4: 57%|█████████████████████████████████▎ | 4999/8844 [05:54<04:45, 13.45it/s]Epoch 4, Batch 5000: train loss :: 0.326
train-4: 68%|████████████████████████████████████████ | 5998/8844 [07:07<03:33, 13.35it/s]Epoch 4, Batch 6000: train loss :: 0.326
train-4: 79%|██████████████████████████████████████████████▋ | 6999/8844 [08:11<02:14, 13.73it/s]Epoch 4, Batch 7000: train loss :: 0.326
train-4: 90%|█████████████████████████████████████████████████████▎ | 7999/8844 [09:25<01:00, 13.86it/s]Epoch 4, Batch 8000: train loss :: 0.326
train-4: 100%|███████████████████████████████████████████████████████████| 8844/8844 [10:24<00:00, 14.15it/s]
eval: 100%|██████████████████████████████████████████████████████████████| 1264/1264 [00:33<00:00, 38.12it/s]
save the model to 5-1e-05-paraphrase-lora-r16-alpha32.pt
Epoch 4: train loss :: 0.325, dev acc :: 0.853
/root/Build-GPT-2/paraphrase_detection.py:184: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See <https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models> for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
saved = torch.load(args.filepath)
LoRA enabled: Only training LoRA parameters and classification head
Loaded model to test from 5-1e-05-paraphrase-lora-r16-alpha32.pt
Loaded 40429 train examples from data/quora-dev.csv
Loaded 80858 test examples from data/quora-test-student.csv
eval: 46%|█████████████████████████████▏ eval: 47%|█████████████████████████████▍ eval: 47%|█████████████████████████████▌ eval: 47%|█████████████████████████████▊ eval: 48%|██████████████████████████████ eval: 48%|██████████████████████████████▎ eval: 48%|██████████████████████████████▌ eval: 49%|██████████████████████████████▋ eval: 49%|██████████████████████████████▉ eval: 50%|███████████████████████████████▏ eval: 50%|███████████████████████████████▍ | 630/1264 [00:17<00:16, 39.eval: 50%|███████████████████████████████▌ | 634/1264 [00:17<00:16, 38.eval: 51%|███████████████████████████████▊ | 639/1264 [00:17<00:16, 38.eval: 51%|████████████████████████████████ | 643/1264 [00:17<00:16, 38.eval: 51%|████████████████████████████████▏ | 647/1264 [00:17<00:16, 38.eval: 52%|████████████████████████████████▍ | 651/1264 [00:17<00:16, 37.eval: 52%|████████████████████████████████▋ | 655/1264 [00:17<00:16, 36.eval: 52%|████████████████████████████████▊ | 659/1264 [00:17<00:16, 37.eval: 53%|█████████████████████████████████ | 664/1264 [00:18<00:15, 38.eval: 53%|█████████████████████████████████▎ | 669/1264 [00:18<00:15, 39.eval: 53%|█████████████████████████████████▌ | 673/1264 [00:18<00:15, 38.eval: 54%|█████████████████████████████████▋ | 677/1264 [00:18<00:15, 38.eval: 54%|█████████████████████████████████▉ | 682/1264 [00:18<00:15, 38.eval: 54%|██████████████████████████████████▏ | 686/1264 [00:18<00:14, 38.eval: 55%|██████████████████████████████████▍ | 690/1264 [00:18<00:14, 38.eval: 55%|██████████████████████████████████▌ | 694/1264 [00:18<00:14, 38.eval: 55%|██████████████████████████████████▊ | 698/1264 [00:18<00:14, 38.eval: 56%|██████████████████████████████████▉ | 702/1264 [00:18<00:14, 38.eval: 56%|███████████████████████████████████▏ | 706/1264 [00:19<00:14, 37.eval: 56%|███████████████████████████████████▍ | 710/1264 [00:19<00:14, 37.eval: 56%|███████████████████████████████████▌ | 714/1264 [00:19<00:14, 38.eval: 57%|███████████████████████████████████▊ | 718/1264 [00:19<00:14, 37.eval: 57%|███████████████████████████████████▉ | 722/1264 [00:19<00:14, 37.eval: 58%|████████████████████████████████████▏ | 727/1264 [00:19<00:14, 38.eval: 58%|████████████████████████████████████▍ | 731/1264 [00:19<00:14, 37.eval: 58%|████████████████████████████████████▋ | 736/1264 [00:19<00:13, 38.eval: 59%|████████████████████████████████████▉ | 740/1264 [00:19<00:13, 37.eval: 59%|█████████████████████████████████████ | 744/1264 [00:20<00:14, 36.eval: 59%|█████████████████████████████████████▎ | 748/1264 [00:20<00:13, 37.eval: 60%|█████████████████████████████████████▌ | 753/1264 [00:20<00:13, 38.eval: 60%|█████████████████████████████████████▋ | 757/1264 [00:20<00:13, 37.eval: 60%|█████████████████████████████████████▉ | 761/1264 [00:20<00:13, 36.eval: 61%|██████████████████████████████████████▏ | 765/1264 [00:20<00:13, 36.eval: 61%|██████████████████████████████████████▍ | 770/1264 [00:20<00:13, 37.eval: 61%|██████████████████████████████████████▋ | 775/1264 [00:20<00:12, 38.eval: 62%|██████████████████████████████████████▊ | 779/1264 [00:21<00:12, 38.eval: 62%|███████████████████████████████████████ | 783/1264 [00:21<00:12, 37.eval: 62%|███████████████████████████████████████▏ | 787/1264 [00:21<00:12, 37.eval: 63%|███████████████████████████████████████▍ | 791/1264 [00:21<00:12, 38.eval: 63%|███████████████████████████████████████▌ | 795/1264 [00:21<00:12, 38.eval: 63%|███████████████████████████████████████▊ | 799/1264 [00:21<00:12, 38.eval: 64%|████████████████████████████████████████ | 804/1264 [00:21<00:12, 37.eval: 64%|████████████████████████████████████████▎ | 809/1264 [00:21<00:11, 39.eval: 64%|████████████████████████████████████████▌ | 813/1264 [00:21<00:11, 37.eval: 65%|████████████████████████████████████████▋ | 817/1264 [00:22<00:11, 37.eval: 65%|████████████████████████████████████████▉ | 821/1264 [00:22<00:11, 37.eval: 65%|█████████████████████████████████████████ | 825/1264 [00:22<00:12, 36.eval: 66%|█████████████████████████████████████████▎ | 829/1264 [00:22<00:12, 35.eval: 66%|█████████████████████████████████████████▌ | 834/1264 [00:22<00:11, 36.eval: 66%|█████████████████████████████████████████▊ | 838/1264 [00:22<00:11, 36.eval: 67%|██████████████████████████████████████████ | 843/1264 [00:22<00:11, 37.eval: 67%|██████████████████████████████████████████▏ | 847/1264 [00:22<00:11, 36.eval: 67%|██████████████████████████████████████████▍ | 851/1264 [00:22<00:11, 37.eval: 68%|██████████████████████████████████████████▋ | 856/1264 [00:23<00:10, 39.eval: 68%|██████████████████████████████████████████▊ | 860/1264 [00:23<00:10, 38.eval: 68%|███████████████████████████████████████████ | 864/1264 [00:23<00:10, 37.eval: 69%|███████████████████████████████████████████▎ | 868/1264 [00:23<00:10, 37.eval: 69%|███████████████████████████████████████████▍ | 872/1264 [00:23<00:10, 37.eval: 69%|███████████████████████████████████████████▋ | 876/1264 [00:23<00:10, 37.eval: 70%|███████████████████████████████████████████▊ | 880/1264 [00:23<00:10, 35.eval: 70%|████████████████████████████████████████████ | 884/1264 [00:23<00:10, 36.eval: 70%|████████████████████████████████████████████▎ | 888/1264 [00:23<00:10, 36.eval: 71%|████████████████████████████████████████████▌ | 893/1264 [00:24<00:09, 37.eval: 71%|████████████████████████████████████████████▋ | 897/1264 [00:24<00:09, 38.eval: 71%|████████████████████████████████████████████▉ | 901/1264 [00:24<00:09, 36.eval: 72%|█████████████████████████████████████████████ | 905/1264 [00:24<00:09, 37.eval: 72%|█████████████████████████████████████████████▎ | 909/1264 [00:24<00:10, 35.eval: 72%|█████████████████████████████████████████████▌ | 913/1264 [00:24<00:09, 35.eval: 73%|█████████████████████████████████████████████▋ | 917/1264 [00:24<00:09, 35.eval: 73%|█████████████████████████████████████████████▉ | 921/1264 [00:24<00:09, 35.eval: 73%|██████████████████████████████████████████████▏ | 926/1264 [00:24<00:09, 37.eval: 74%|██████████████████████████████████████████████▎ | 930/1264 [00:25<00:09, 36.eval: 74%|██████████████████████████████████████████████▌ | 934/1264 [00:25<00:08, 36.eval: 74%|██████████████████████████████████████████████▊ | 938/1264 [00:25<00:08, 36.eval: 75%|██████████████████████████████████████████████▉ | 942/1264 [00:25<00:08, 36.eval: 75%|███████████████████████████████████████████████▏ | 947/1264 [00:25<00:08, 37.eval: 75%|███████████████████████████████████████████████▍ | 951/1264 [00:25<00:08, 37.eval: 76%|███████████████████████████████████████████████▌ | 955/1264 [00:25<00:08, 37.eval: 76%|███████████████████████████████████████████████▊ | 959/1264 [00:25<00:08, 37.eval: 76%|███████████████████████████████████████████████▉ | 963/1264 [00:25<00:07, 37.eval: 77%|████████████████████████████████████████████████▏ | 967/1264 [00:26<00:07, 37.eval: 77%|████████████████████████████████████████████████▍ | 971/1264 [00:26<00:07, 37.eval: 77%|████████████████████████████████████████████████▌ | 975/1264 [00:26<00:07, 37.eval: 77%|████████████████████████████████████████████████▊ | 979/1264 [00:26<00:07, 37.eval: 78%|████████████████████████████████████████████████▉ | 983/1264 [00:26<00:07, 36.eval: 78%|█████████████████████████████████████████████████▏ | 987/1264 [00:26<00:07, 37.eval: 78%|█████████████████████████████████████████████████▍ | 992/1264 [00:26<00:07, 37.eval: 79%|█████████████████████████████████████████████████▋ | 996/1264 [00:26<00:07, 37.eval: 79%|█████████████████████████████████████████████████ | 1000/1264 [00:26<00:07, 37.eval: 79%|█████████████████████████████████████████████████▏ | 1004/1264 [00:27<00:07, 36.eval: 80%|█████████████████████████████████████████████████▍ | 1009/1264 [00:27<00:06, 38.eval: 80%|█████████████████████████████████████████████████▋ | 1013/1264 [00:27<00:06, 38.eval: 80%|█████████████████████████████████████████████████▉ | 1017/1264 [00:27<00:06, 37.eval: 81%|██████████████████████████████████████████████████ | 1021/1264 [00:27<00:06, 36.eval: 81%|██████████████████████████████████████████████████▎ | 1026/1264 [00:27<00:06, 37.eval: 82%|██████████████████████████████████████████████████▌ | 1031/1264 [00:27<00:06, 38.eval: 82%|██████████████████████████████████████████████████▊ | 1035/1264 [00:27<00:06, 37.eval: 82%|██████████████████████████████████████████████████▉ | 1039/1264 [00:28<00:06, 36.eval: 83%|███████████████████████████████████████████████████▏ | 1043/1264 [00:28<00:06, 36.eval: 83%|███████████████████████████████████████████████████▎ | 1047/1264 [00:28<00:05, 36.eval: 83%|███████████████████████████████████████████████████▌ | 1051/1264 [00:28<00:05, 36.eval: 84%|███████████████████████████████████████████████████▊ | 1056/1264 [00:28<00:05, 37.eval: 84%|████████████████████████████████████████████████████ | 1061/1264 [00:28<00:05, 38.eval: 84%|████████████████████████████████████████████████████▏ | 1065/1264 [00:28<00:05, 38.eval: 85%|████████████████████████████████████████████████████▍ | 1069/1264 [00:28<00:05, 38.eval: 85%|████████████████████████████████████████████████████▋ | 1073/1264 [00:28<00:04, 38.eval: 85%|████████████████████████████████████████████████████▊ | 1077/1264 [00:29<00:04, 38.eval: 86%|█████████████████████████████████████████████████████ | 1081/1264 [00:29<00:04, 38.eval: 86%|█████████████████████████████████████████████████████▏ | 1085/1264 [00:29<00:04, 37.eval: 86%|█████████████████████████████████████████████████████▍ | 1089/1264 [00:29<00:04, 37.eval: 86%|█████████████████████████████████████████████████████▌ | 1093/1264 [00:29<00:04, 37.eval: 87%|█████████████████████████████████████████████████████▊ | 1097/1264 [00:29<00:04, 36.eval: 87%|██████████████████████████████████████████████████████ | 1101/1264 [00:29<00:04, 37.eval: 87%|██████████████████████████████████████████████████████▏ | 1105/1264 [00:29<00:04, 35.eval: 88%|██████████████████████████████████████████████████████▍ | 1109/1264 [00:29<00:04, 34.eval: 88%|██████████████████████████████████████████████████████▌ | 1113/1264 [00:30<00:04, 35.eval: 88%|██████████████████████████████████████████████████████▊ | 1118/1264 [00:30<00:03, 36.eval: 89%|███████████████████████████████████████████████████████ | 1122/1264 [00:30<00:03, 37.eval: 89%|███████████████████████████████████████████████████████▏ | 1126/1264 [00:30<00:03, 37.eval: 89%|███████████████████████████████████████████████████████▍ | 1130/1264 [00:30<00:03, 36.eval: 90%|███████████████████████████████████████████████████████▌ | 1134/1264 [00:30<00:03, 36.eval: 90%|███████████████████████████████████████████████████████▊ | 1138/1264 [00:30<00:03, 36.eval: 90%|████████████████████████████████████████████████████████ | 1142/1264 [00:30<00:03, 36.eval: 91%|████████████████████████████████████████████████████████▏ | 1146/1264 [00:30<00:03, 37.eval: 91%|████████████████████████████████████████████████████████▍ | 1150/1264 [00:31<00:03, 37.eval: 91%|████████████████████████████████████████████████████████▋ | 1155/1264 [00:31<00:02, 38.eval: 92%|████████████████████████████████████████████████████████▊ | 1159/1264 [00:31<00:02, 37.eval: 92%|█████████████████████████████████████████████████████████ | 1164/1264 [00:31<00:02, 39.eval: 92%|█████████████████████████████████████████████████████████▎ | 1168/1264 [00:31<00:02, 39.eval: 93%|█████████████████████████████████████████████████████████▍ | 1172/1264 [00:31<00:02, 38.eval: 93%|█████████████████████████████████████████████████████████▋ | 1176/1264 [00:31<00:02, 37.eval: 93%|█████████████████████████████████████████████████████████▉ | 1180/1264 [00:31<00:02, 37.eval: 94%|██████████████████████████████████████████████████████████ | 1184/1264 [00:31<00:02, 36.eval: 94%|██████████████████████████████████████████████████████████▎ | 1188/1264 [00:32<00:02, 36.eval: 94%|██████████████████████████████████████████████████████████▍ | 1192/1264 [00:32<00:01, 36.eval: 95%|██████████████████████████████████████████████████████████▋ | 1197/1264 [00:32<00:01, 37.eval: 95%|██████████████████████████████████████████████████████████▉ | 1201/1264 [00:32<00:01, 37.eval: 95%|███████████████████████████████████████████████████████████▏ | 1206/1264 [00:32<00:01, 37.eval: 96%|███████████████████████████████████████████████████████████▎ | 1210/1264 [00:32<00:01, 38.eval: 96%|███████████████████████████████████████████████████████████▌ | 1214/1264 [00:32<00:01, 37.eval: 96%|███████████████████████████████████████████████████████████▋ | 1218/1264 [00:32<00:01, 37.eval: 97%|███████████████████████████████████████████████████████████▉ | 1222/1264 [00:32<00:01, 36.eval: 97%|████████████████████████████████████████████████████████████▏ | 1226/1264 [00:33<00:01, 37.eval: 97%|████████████████████████████████████████████████████████████▎ | 1230/1264 [00:33<00:00, 37.eval: 98%|████████████████████████████████████████████████████████████▌ | 1234/1264 [00:33<00:00, 37.eval: 98%|████████████████████████████████████████████████████████████▋ | 1238/1264 [00:33<00:00, 38.eval: 98%|████████████████████████████████████████████████████████████▉ | 1242/1264 [00:33<00:00, 37.eval: 99%|█████████████████████████████████████████████████████████████ | 1246/1264 [00:33<00:00, 35.eval: 99%|█████████████████████████████████████████████████████████████▎| 1250/1264 [00:33<00:00, 35.eval: 99%|█████████████████████████████████████████████████████████████▌| 1254/1264 [00:33<00:00, 36.eval: 100%|█████████████████████████████████████████████████████████████▋| 1258/1264 [00:33<00:00, 36.eval: 100%|█████████████████████████████████████████████████████████████▉| 1262/1264 [00:34<00:00, 35.eval: 100%|██████████████████████████████████████████████████████████████| 1264/1264 [00:34<00:00, 37.11it/s]
dev paraphrase acc :: 0.853
eval: 100%|███████████████████████████████████████████████████████| 2527/2527 [01:06<00:00, 38.28it/s]
训练五轮才达到85.3%的准确率,比全量微调少4%
python paraphrase_detection.py --use_gpu --use_reft --batch_size=32 --epochs=6 --reft_rank=32 --reft_dropout=0.1 --lr=1e-4
root@autodl-container-b61844b5bd-eed4965e:~/Build-GPT-2# python paraphrase_detection.py --use_gpu --use_reft --batch_size=64 --epochs=6 --reft_rank=32 --reft_dropout=0.1 --lr=1e-4
Loaded 283003 train examples from data/quora-train.csv
Loaded 40429 train examples from data/quora-dev.csv
ReFT configuration: rank=32, dropout=0.1, type=distributed, layers=None, intervene_mlp=False
ReFT enabled: Only training ReFT parameters and classification head
Total parameters: 125,621,774
Trainable parameters: 591,374
Trainable ratio: 0.47%
ReFT parameters: 589,836
ReFT parameter ratio: 0.4695%
train-0: 9%|████████▉ | 398/4422 [00:40<06:49, 9.82it/s]Epoch 0, Batch 400: train loss :: 0.876
train-0: 18%|█████████████████▊ | 798/4422 [01:21<05:56, 10.17it/s]Epoch 0, Batch 800: train loss :: 0.743
train-0: 27%|██████████████████████████▌ | 1199/4422 [02:01<05:10, 10.38it/s]Epoch 0, Batch 1200: train loss :: 0.669
train-0: 36%|███████████████████████████████████▍ | 1599/4422 [02:42<05:20, 8.80it/s]Epoch 0, Batch 1600: train loss :: 0.619
train-0: 45%|████████████████████████████████████████████▎ | 1999/4422 [03:22<03:55, 10.31it/s]Epoch 0, Batch 2000: train loss :: 0.587
train-0: 54%|█████████████████████████████████████████████████████▏ | 2399/4422 [04:02<03:15, 10.35it/s]Epoch 0, Batch 2400: train loss :: 0.562
train-0: 63%|██████████████████████████████████████████████████████████████ | 2799/4422 [04:42<02:33, 10.58it/s]Epoch 0, Batch 2800: train loss :: 0.543
train-0: 72%|██████████████████████████████████████████████████████████████████████▊ | 3198/4422 [05:22<01:59, 10.27it/s]Epoch 0, Batch 3200: train loss :: 0.528
train-0: 81%|███████████████████████████████████████████████████████████████████████████████▊ | 3599/4422 [06:03<01:51, 7.39it/s]Epoch 0, Batch 3600: train loss :: 0.514
train-0: 90%|████████████████████████████████████████████████████████████████████████████████████████▌ | 3998/4422 [06:43<00:38, 10.96it/s]Epoch 0, Batch 4000: train loss :: 0.503
train-0: 99%|█████████████████████████████████████████████████████████████████████████████████████████████████▍| 4398/4422 [07:24<00:03, 6.97it/s]Epoch 0, Batch 4400: train loss :: 0.493
train-0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 4422/4422 [07:27<00:00, 9.89it/s]
eval: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:33<00:00, 19.15it/s]
save the model to 6-0.0001-paraphrase-reft-r32-distributed.pt
Epoch 0: train loss :: 0.493, dev acc :: 0.822
train-1: 9%|████████▉ | 398/4422 [00:39<06:27, 10.38it/s]Epoch 1, Batch 400: train loss :: 0.387
train-1: 18%|█████████████████▊ | 798/4422 [01:19<06:16, 9.63it/s]Epoch 1, Batch 800: train loss :: 0.381
train-1: 27%|██████████████████████████▌ | 1198/4422 [02:00<05:20, 10.06it/s]Epoch 1, Batch 1200: train loss :: 0.383
train-1: 36%|███████████████████████████████████▍ | 1599/4422 [02:41<04:40, 10.07it/s]Epoch 1, Batch 1600: train loss :: 0.380
train-1: 45%|████████████████████████████████████████████▎ | 1999/4422 [03:22<04:16, 9.43it/s]Epoch 1, Batch 2000: train loss :: 0.378
train-1: 54%|█████████████████████████████████████████████████████▏ | 2398/4422 [04:01<03:15, 10.38it/s]Epoch 1, Batch 2400: train loss :: 0.377
train-1: 63%|██████████████████████████████████████████████████████████████ | 2798/4422 [04:42<02:28, 10.97it/s]Epoch 1, Batch 2800: train loss :: 0.374
train-1: 72%|██████████████████████████████████████████████████████████████████████▊ | 3198/4422 [05:23<02:10, 9.40it/s]Epoch 1, Batch 3200: train loss :: 0.373
train-1: 81%|███████████████████████████████████████████████████████████████████████████████▊ | 3599/4422 [06:04<01:24, 9.71it/s]Epoch 1, Batch 3600: train loss :: 0.371
train-1: 90%|████████████████████████████████████████████████████████████████████████████████████████▌ | 3998/4422 [06:43<00:40, 10.43it/s]Epoch 1, Batch 4000: train loss :: 0.369
train-1: 99%|█████████████████████████████████████████████████████████████████████████████████████████████████▍| 4399/4422 [07:24<00:02, 10.34it/s]Epoch 1, Batch 4400: train loss :: 0.368
train-1: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 4422/4422 [07:27<00:00, 9.89it/s]
eval: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:32<00:00, 19.61it/s]
save the model to 6-0.0001-paraphrase-reft-r32-distributed.pt
Epoch 1: train loss :: 0.368, dev acc :: 0.844
train-2: 9%|████████▉ | 399/4422 [00:41<07:06, 9.43it/s]Epoch 2, Batch 400: train loss :: 0.343
train-2: 18%|█████████████████▉ | 799/4422 [01:21<06:03, 9.96it/s]Epoch 2, Batch 800: train loss :: 0.344
train-2: 27%|██████████████████████████▌ | 1198/4422 [02:03<05:08, 10.45it/s]Epoch 2, Batch 1200: train loss :: 0.342
train-2: 36%|███████████████████████████████████▍ | 1599/4422 [02:43<04:47, 9.83it/s]Epoch 2, Batch 1600: train loss :: 0.342
train-2: 45%|████████████████████████████████████████████▎ | 1998/4422 [03:22<03:56, 10.27it/s]Epoch 2, Batch 2000: train loss :: 0.342
train-2: 54%|█████████████████████████████████████████████████████▏ | 2398/4422 [04:02<03:35, 9.41it/s]Epoch 2, Batch 2400: train loss :: 0.342
train-2: 63%|██████████████████████████████████████████████████████████████ | 2798/4422 [04:43<02:39, 10.20it/s]Epoch 2, Batch 2800: train loss :: 0.341
train-2: 72%|██████████████████████████████████████████████████████████████████████▉ | 3199/4422 [05:23<02:02, 10.02it/s]Epoch 2, Batch 3200: train loss :: 0.340
train-2: 81%|███████████████████████████████████████████████████████████████████████████████▊ | 3599/4422 [06:02<01:20, 10.18it/s]Epoch 2, Batch 3600: train loss :: 0.340
train-2: 90%|████████████████████████████████████████████████████████████████████████████████████████▋ | 3999/4422 [06:43<00:40, 10.32it/s]Epoch 2, Batch 4000: train loss :: 0.339
train-2: 99%|█████████████████████████████████████████████████████████████████████████████████████████████████▍| 4398/4422 [07:23<00:02, 10.35it/s]Epoch 2, Batch 4400: train loss :: 0.338
train-2: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 4422/4422 [07:25<00:00, 9.92it/s]
eval: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:31<00:00, 19.78it/s]
save the model to 6-0.0001-paraphrase-reft-r32-distributed.pt
Epoch 2: train loss :: 0.338, dev acc :: 0.850
train-3: 9%|████████▉ | 399/4422 [00:40<06:35, 10.17it/s]Epoch 3, Batch 400: train loss :: 0.319
train-3: 18%|█████████████████▊ | 798/4422 [01:19<06:00, 10.05it/s]Epoch 3, Batch 800: train loss :: 0.319
train-3: 27%|██████████████████████████▌ | 1198/4422 [02:00<05:34, 9.64it/s]Epoch 3, Batch 1200: train loss :: 0.319
train-3: 36%|███████████████████████████████████▍ | 1598/4422 [02:40<04:37, 10.18it/s]Epoch 3, Batch 1600: train loss :: 0.320
train-3: 45%|████████████████████████████████████████████▎ | 1998/4422 [03:21<04:00, 10.08it/s]Epoch 3, Batch 2000: train loss :: 0.321
train-3: 54%|█████████████████████████████████████████████████████▏ | 2399/4422 [04:02<03:45, 8.99it/s]Epoch 3, Batch 2400: train loss :: 0.320
train-3: 63%|██████████████████████████████████████████████████████████████ | 2799/4422 [04:42<02:37, 10.32it/s]Epoch 3, Batch 2800: train loss :: 0.320
train-3: 72%|██████████████████████████████████████████████████████████████████████▊ | 3198/4422 [05:22<02:20, 8.71it/s]Epoch 3, Batch 3200: train loss :: 0.319
train-3: 81%|███████████████████████████████████████████████████████████████████████████████▋ | 3598/4422 [06:02<01:22, 10.04it/s]Epoch 3, Batch 3600: train loss :: 0.318
train-3: 90%|████████████████████████████████████████████████████████████████████████████████████████▋ | 3999/4422 [06:42<00:43, 9.64it/s]Epoch 3, Batch 4000: train loss :: 0.318
train-3: 99%|█████████████████████████████████████████████████████████████████████████████████████████████████▍| 4399/4422 [07:22<00:02, 9.25it/s]Epoch 3, Batch 4400: train loss :: 0.318
train-3: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 4422/4422 [07:25<00:00, 9.93it/s]
eval: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:31<00:00, 19.81it/s]
save the model to 6-0.0001-paraphrase-reft-r32-distributed.pt
Epoch 3: train loss :: 0.318, dev acc :: 0.862
train-4: 9%|████████▉ | 399/4422 [00:40<06:24, 10.47it/s]Epoch 4, Batch 400: train loss :: 0.304
train-4: 18%|█████████████████▉ | 799/4422 [01:19<06:01, 10.01it/s]Epoch 4, Batch 800: train loss :: 0.308
train-4: 27%|██████████████████████████▌ | 1199/4422 [01:59<05:00, 10.72it/s]Epoch 4, Batch 1200: train loss :: 0.306
train-4: 36%|███████████████████████████████████▍ | 1599/4422 [02:40<04:34, 10.28it/s]Epoch 4, Batch 1600: train loss :: 0.305
train-4: 45%|████████████████████████████████████████████▎ | 1999/4422 [03:19<03:56, 10.22it/s]Epoch 4, Batch 2000: train loss :: 0.306
train-4: 54%|█████████████████████████████████████████████████████▏ | 2399/4422 [04:00<03:24, 9.92it/s]Epoch 4, Batch 2400: train loss :: 0.306
train-4: 63%|██████████████████████████████████████████████████████████████ | 2798/4422 [04:40<02:37, 10.31it/s]Epoch 4, Batch 2800: train loss :: 0.306
train-4: 72%|██████████████████████████████████████████████████████████████████████▉ | 3199/4422 [05:20<01:57, 10.40it/s]Epoch 4, Batch 3200: train loss :: 0.306
train-4: 81%|███████████████████████████████████████████████████████████████████████████████▋ | 3598/4422 [05:59<01:18, 10.46it/s]Epoch 4, Batch 3600: train loss :: 0.305
train-4: 90%|████████████████████████████████████████████████████████████████████████████████████████▋ | 3999/4422 [06:40<00:43, 9.72it/s]Epoch 4, Batch 4000: train loss :: 0.305
train-4: 99%|█████████████████████████████████████████████████████████████████████████████████████████████████▍| 4398/4422 [07:21<00:02, 10.22it/s]Epoch 4, Batch 4400: train loss :: 0.304
train-4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 4422/4422 [07:23<00:00, 9.97it/s]
eval: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:31<00:00, 20.05it/s]
save the model to 6-0.0001-paraphrase-reft-r32-distributed.pt
Epoch 4: train loss :: 0.304, dev acc :: 0.866
train-5: 9%|████████▉ | 399/4422 [00:39<06:53, 9.74it/s]Epoch 5, Batch 400: train loss :: 0.293
train-5: 18%|█████████████████▊ | 798/4422 [01:20<05:48, 10.41it/s]Epoch 5, Batch 800: train loss :: 0.291
train-5: 27%|██████████████████████████▌ | 1198/4422 [01:58<06:02, 8.90it/s]Epoch 5, Batch 1200: train loss :: 0.293
train-5: 36%|███████████████████████████████████▍ | 1599/4422 [02:39<04:40, 10.05it/s]Epoch 5, Batch 1600: train loss :: 0.294
train-5: 45%|████████████████████████████████████████████▎ | 1999/4422 [03:19<04:02, 10.00it/s]Epoch 5, Batch 2000: train loss :: 0.293
train-5: 54%|█████████████████████████████████████████████████████▏ | 2398/4422 [04:00<03:15, 10.35it/s]Epoch 5, Batch 2400: train loss :: 0.292
train-5: 63%|██████████████████████████████████████████████████████████████ | 2799/4422 [04:40<02:37, 10.29it/s]Epoch 5, Batch 2800: train loss :: 0.293
train-5: 72%|██████████████████████████████████████████████████████████████████████▉ | 3199/4422 [05:21<01:58, 10.35it/s]Epoch 5, Batch 3200: train loss :: 0.293
train-5: 81%|███████████████████████████████████████████████████████████████████████████████▊ | 3599/4422 [06:00<01:23, 9.89it/s]Epoch 5, Batch 3600: train loss :: 0.292
train-5: 90%|████████████████████████████████████████████████████████████████████████████████████████▋ | 3999/4422 [06:40<00:40, 10.34it/s]Epoch 5, Batch 4000: train loss :: 0.292
train-5: 99%|█████████████████████████████████████████████████████████████████████████████████████████████████▍| 4399/4422 [07:20<00:02, 10.30it/s]Epoch 5, Batch 4400: train loss :: 0.292
train-5: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 4422/4422 [07:23<00:00, 9.98it/s]
eval: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:31<00:00, 20.04it/s]
save the model to 6-0.0001-paraphrase-reft-r32-distributed.pt
Epoch 5: train loss :: 0.292, dev acc :: 0.872
/root/Build-GPT-2/paraphrase_detection.py:238: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See <https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models> for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.
saved = torch.load(args.filepath)
ReFT enabled: Only training ReFT parameters and classification head
Loaded model to test from 6-0.0001-paraphrase-reft-r32-distributed.pt
Loaded 40429 train examples from data/quora-dev.csv
Loaded 80858 test examples from data/quora-test-student.csv
eval: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 632/632 [00:33<00:00, 19.09it/s]
dev paraphrase acc :: 0.872
eval: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 1264/1264 [01:03<00:00, 19.81it/s]