首页 > 玄幻魔法 > 学霸的征途是星辰大海 > 第165章 重启SLRM研究 一

第165章 重启SLRM研究 一

读一本书,过一段人生。

⚡ 自动翻页 开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽 看到章尾自动进入下一章,追书不用一直点。

  忙完了这些琐事,徐辰的生活重新回归平静。

  徐辰的思绪,重新回到了那个被他暂时搁置的ai项目——laart(逻辑增强型大语言模型)。

  在去德国之前,他利用学校计算中心的资源,跑通了laart模型的第一个核心模块——slrm(符號逻辑推理模块)。那个demo虽然简陋,但却在clutrr逻辑推理数据集上,跑出了惊人的95.12%的准確率。

  这个成绩,足以让任何一个ai研究者疯狂。

  但徐辰並不满意。

  “95%……还不够。”

  徐辰坐在研究室里,盯著屏幕上那个复杂的网络结构图,眉头微蹙。

  “这只是一个『拼凑』出来的结果。gumbel-box虽然解决了梯度截断的问题,但它在高维空间中的拓扑性质,依然不够完美。”

  ……

  他想起了transformer架构的发展史。

  2017年,google brain团队提出了transformer。那是一个划时代的架构,但它並非完美无缺。

  最初的transformer,使用的是绝对位置编码。后来,人们发现这种编码方式在处理长文本时效果不佳,於是有了相对位置编码,再后来又有了旋转位置编码。

  最初的attention机制,计算复杂度是o(n^2),隨著序列长度增加,计算量呈指数级爆炸。於是,人们发明了稀疏注意力、线性注意力、闪电注意力……

  每一个组件,都在不断的叠代中进化。

  “transformer之所以强大,是因为它的每一个组件——注意力机制、前馈网络、归一化、激活函数——虽然单独拿出来都有明確的数学定义,但当它们被堆叠成几百层、拥有几千亿参数后,它们之间的相互作用,会產生极度复杂的非线性动力学。”

延伸阅读
同人都市科幻游戏武侠仙侠玄幻历史