AIE-51-8法律大语言模型

诚信评分:100
水平:普通
训练超参数
训练过程中使用了以下超参数:

学习率: 1e-05
训练批次大小: 4
评估批次大小: 4
种子: 42
分布式类型: 多GPU
设备数量: 2
总训练批次大小: 8
总评估批次大小: 8
优化器: 使用OptimizerNames.ADAMW_TORCH,betas=(0.9,0.999),epsilon=1e-08,无其他额外优化器参数
学习率调度器类型: cosine
学习率预热比例: 0.1
训练轮数: 2.0
训练结果
Training Loss Epoch Step Validation Loss
0.6862 0.0265 500 0.6764
0.7135 0.0530 1000 0.6080
0.6275 0.0794 1500 0.5907
0.6341 0.1059 2000 0.5841
0.6358 0.1324 2500 0.5837
0.474 0.1589 3000 0.5825
0.7276 0.1854 3500 0.5821
0.6027 0.2118 4000 0.5838
0.6226 0.2383 4500 0.5774
0.4801 0.2648 5000 0.5794
0.6302 0.2913 5500 0.5656
0.5484 0.3177 6000 0.5701
0.4836 0.3442 6500 0.5601
0.5169 0.3707 7000 0.5563
0.5769 0.3972 7500 0.5535
0.5467 0.4237 8000 0.5533
0.4572 0.4501 8500 0.5467
0.5652 0.4766 9000 0.5453
0.5942 0.5031 9500 0.5424
0.544 0.5296 10000 0.5376
0.7179 0.5561 10500 0.5377
0.5242 0.5825 11000 0.5334
0.6293 0.6090 11500 0.5333
0.5513 0.6355 12000 0.5320
0.5026 0.6620 12500 0.5308
0.5034 0.6884 13000 0.5257
0.5532 0.7149 13500 0.5233
0.4264 0.7414 14000 0.5187
0.5129 0.7679 14500 0.5158
0.5232 0.7944 15000 0.5163
0.5371 0.8208 15500 0.5120
0.5421 0.8473 16000 0.5089
0.4809 0.8738 16500 0.5088
0.5588 0.9003 17000 0.5068
0.4346 0.9268 17500 0.5059
0.5689 0.9532 18000 0.5040
0.6198 0.9797 18500 0.5017
0.329 1.0062 19000 0.5113
0.3231 1.0327 19500 0.5137
0.3123 1.0592 20000 0.5156
0.3361 1.0856 20500 0.5151
0.2736 1.1121 21000 0.5129
0.3009 1.1386 21500 0.5129
0.2946 1.1651 22000 0.5100
0.2651 1.1915 22500 0.5076
0.4446 1.2180 23000 0.5070
0.3746 1.2445 23500 0.5056
0.3153 1.2710 24000 0.5076