首页 > 玄幻魔法 > 学霸的征途是星辰大海 > 第120章 新的主线任务_多维度的学者

第120章 新的主线任务_多维度的学者

读一本书,过一段人生。

⚡ 自动翻页 开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽 看到章尾自动进入下一章,追书不用一直点。

  他想起了ai发展史上,那篇如同“圣经”般的论文——《attention is all you need》。

  2017年,谷歌的研究员们,发表了这篇划时代的论文,首次提出了“transformer”架构。这篇论文,就像物理学界的“相对论”,它为整个ai领域,提供了一个全新的、顛覆性的底层范式。

  但是,从《attention is all you need》这篇仅仅8页的论文,到今天能与人类对答如流的chatgpt-4,中间隔著许多东西。

  徐辰的脑海中,浮现出了那篇论文的作者名单。其中一位作者,noam shazeer,曾经说过的一句名言,那句话后来成为了ai圈的信条:

  “money is all you need.”(你只需要钱。)

  这虽然是一句玩笑,却道出了大模型训练最残酷的真相。

  ……

  大模型的训练,是一个极其复杂的系统工程,更是一场烧钱的游戏

  首先是数据工程。如何从pb级的原始文本中,清洗出高质量的预训练语料?如何设计tokenizer(分词器)以平衡词表大小和序列长度?如何构建多样化的指令微调(sft)数据集?这些都是秘而不宣的行业机密。

  其次是训练稳定性。在数千张gpu上进行分布式训练,如何处理梯度爆炸或消失?如何设计混合精度训练策略(mixed precision training)以兼顾速度和精度?任何一个环节的参数设置不当,都可能导致loss(损失函数)无法收敛,甚至训练崩溃。

  还有那个著名的“规模定律”(scaling laws)。jared kaplan在2020年提出的这个定律,就像是ai领域的“摩尔定律”。它冷酷地指出:模型的性能与计算量、数据集大小和参数数量之间,存在著严格的冪律关係。这意味著,想要更智能的模型?没別的办法,堆算力,堆数据,堆钱!

  最后是对齐。如何通过rlhf(基於人类反馈的强化学习),利用ppo(近端策略优化)算法,將模型的输出分布与人类的价值观偏好对齐,使其既有用又安全?这更是一个充满了玄学和经验主义的领域。

  ……

  《attention is all you need》,它提供的,只是一个“基础原理”。

  它没有告诉你,这个模型到底要堆多少层才效果最好?没有告诉你训练时学习率该如何设置?更没有告诉你如何进行rlhf,让模型学会“听懂人话”。

延伸阅读
同人玄幻武侠仙侠科幻历史都市游戏