第108章 意外的物理学经验
你在读故事,故事也在回应你。
  【这个思路,本质上是线性代数中『投影』与『加权平均』思想的一种精妙应用。它通过点积来衡量向量间的『相关性』,再用softmax函数將这种相关性转化为概率权重,从而让模型能够动態地聚焦於输入序列中最关键的部分。】
  “……在优化器(optimizer)的选择上,我们採用了adam算法,它结合了『动量法』(momentum)和『rmsprop』的优点,能够自適应地,为不同参数,调整学习率……”
  【原来如此。】徐辰点了点头。
  【这可以看作是常微分方程中『梯度下降法』的一种高级变体。它引入了『动量』这个物理概念,模擬一个在损失函数曲面上滚动的小球,利用惯性衝过平坦区域和局部极小值点,从而加速收敛。而自適应学习率,则相当於为这个小球,在不同陡峭程度的路面上,配备了智能的剎车和油门系统。】
  论文中那些在ai工程师看来,极其高深复杂的数学原理,在徐辰这个lv.2级別的“数学家”眼中,却如同庖丁解牛,每一个结构,每一处关节,都清晰可见。
  他只花了不到半个小时,就將论文中所有的数学部分,全部吃透,甚至还能举一反三地,思考出几种可能的改进方向。
  【整个大语言模型,从数学上看,可以被视为一个极其高维的、非线性的函数逼近器。它的训练过程,就是在数十亿甚至数千亿个参数构成的空间中,通过梯度下降,寻找一个能最小化『损失函数』的最优解。而『注意力机制』,则为这个庞大的函数,提供了高效的『剪枝』策略,使其能够专注於处理长距离的依赖关係。】
  然而,当他看到论文的后半部分,关於“神经网络架构”和“模型训练”的內容时,他的眉头,却渐渐地,锁了起来。
  “transformer架构”、“多头注意力”、“残差连接”、“层归一化”……
  这些属於计算机科学和人工智慧领域的专业术语,对他而言,就如同一个个陌生的路標,指向一片他从未踏足过的未知领域。
  如果不了解神经网络为什么能擬合任何函数(万能逼近定理),对后续的深层神经网络乃至於transformer架构就更加不知道具体的工作机制了。
  【对於ai,確实还存在著巨大的『盲区』。】
  他没有气馁,反而燃起了一股强烈的求知慾。
  他打开电脑,开始在网上,疯狂地,搜索著关於“大语言模型”的基础知识。
  从最基础的“感知机”模型,到“深度神经网络”,再到“循环神经网络(rnn)”和“长短期记忆网络(lstm)”,最后,才是当今大模型的核心——“transformer”。