第167章 重启SLRM研究 三
读一本书,过一段人生。
  在接下来的几天里,北大计算中心的gpu集群再次满负荷运转。
  十几个不同版本的模型,在四张a100显卡上日夜不停地交叉训练、验证、叠代。
  徐辰编写了一个自动化的超参数搜索脚本,让计算机自己去寻找那个最优的解。
  屏幕上,十几条loss曲线像赛跑一样交织在一起,有的早早收敛,有的半路崩盘,有的则还在顽强地挣扎。
  最终,在烧掉了数千块钱的电费后,一个名为“v4_final_best”的模型版本脱颖而出。
  它在clutrr验证集上的准確率稳定在了98.8%,比之前的demo版本又提升了3.5个百分点。
  这类预测模型,准確率理论上是到不了100%的,人类在这个数据集上的平均准確率,也不过是99%左右。毕竟,人也会犯错,也会看花眼。
  而且在ai评测中,为了防止模型“过擬合”或者“作弊”,有时候会故意在测试集中掺杂少量的噪声数据。如果一个模型在这些明显错误的题目上也答“对”了,即输出了错误的標註答案,那就说明这个模型可能是在“背题”,而不是在“推理”。
  所以98.8%算得上已经接近理论极限了。
  看著这个数字,徐辰满意地点了点头。
  “就是它了。”
  ……
  隨后徐辰又看了下训练的日誌。这才发现了这个算法存在一些问题。
  由於之前徐辰都是丟给计算机让计算机自己叠代,然后就去做別的事了,所以徐辰並没有太过关注这个模型的运行效率,但是看了日誌才发现,这个slrm模型,太慢了。
  徐辰看著那个令人咋舌的延迟数据: