人工智能首个诺贝尔奖背后的科学
原文towardsdatascience.com/the-science-behind-ais-first-nobel-prize-829c788f2202https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3c5a7569be64ec43c62aeeab3639e35c.png作者自己的作品描绘了霍普菲尔德网络中的诺贝尔奖。背景归功于Maxim Tajer诺贝尔币图片归功于hyperionforge2024 年诺贝尔物理学奖已于 2024 年 10 月 4 日公布今年的奖项授予了约翰·霍普菲尔德教授和杰弗里·辛顿教授。但这一次有些不同。这次奖项并非像往常那样授予关于自然世界的发现而是颁发给了一些更具有人工性质的东西“对于使机器学习通过人工神经网络成为可能的基础发现和发明。”诺贝尔基金会新闻稿突出了两种机器学习ML模型霍普菲尔德网络和玻尔兹曼机。这可能会让一些人感到惊讶因为机器学习似乎与物理学相去甚远。然而许多早期的机器学习基础概念都是受到物理系统启发的。这个奖项的意义是什么我认为这是为了强调近年来在生成式人工智能在文本/图像/视频生成方面的先进进展并提醒我们这些现代模型的基础根植于物理学。更具体地说霍普菲尔德网络和玻尔兹曼机可以被视为一些原始的生成模型它们从自然系统中借用物理原理来进行训练和推理。在这篇文章中我们将讨论 J. Hopfield 1982 年《PNAS》上的开创性工作和 G. Hinton 等人 1985 年《认知科学》上的工作。我将鼓励任何人都去阅读公开可用的原始出版物。但在深入探讨这些概念之前我们需要了解推动它们的物理学。计算物理学https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4df123b3d6d87533a7565bb777cc5b06.png钢粒内部磁畴的放大图像黑色轮廓并添加了箭头注释。两种不同的方向可以用来表示二进制数。来源Chris Zurek on wikimedia数字数据和计算在根本上是基于二进制数字——0 和 1。这个概念在物理学中是如何出现的呢在磁铁中每个磁铁都有一个北极和一个南极如果我们把磁铁折断每一半都会形成一个新的磁铁有自己的磁极。继续拆分最终我们会达到最小的磁铁——原子中的电子。就像一个微小的自旋陀螺每个电子都有一个方向称为自旋。这些自旋是量子力学量因此它们在测量时只能取离散值每个自旋要么对齐要么反对齐但中间没有其他状态。这种离散的二进制行为形成了磁性硬盘存储数据的基础。这些自旋是如何在 1 和 0 之间做出决定的在磁铁内部许多自旋形成一个网络。根据材料的不同这个网络中的每个自旋可能更喜欢与邻居对齐或反对齐。就像水流沿着溪流流动一样这些自旋会翻转以在时间上最小化系统的能量一旦达到最小能量就会停止。从方程的角度来看能量可以大致表示为能量 成对相互作用 偏差交互项决定了相邻自旋是否更喜欢相关或反相关而偏差决定了自旋的整体对齐就像地球的磁场导致磁铁指向北方一样。在材料内部能量的精确方程由物理学决定并且不能轻易修改。然而在计算机上我们可以人工模拟任何能量。这使得自旋可以进入任何期望的模式。这是霍普菲尔德网络和玻尔兹曼机的基石。从自旋到记忆https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2a924ef3323d64e2c5ca0dc309e27ce3.png一个可能包含类似自旋动力学的大脑模型由Robina Weermeijer在Unsplash上拍摄大脑中的神经元可以处于两种状态之一兴奋或抑制。它们也相互交互类似于网络中的自旋行为。这种相似性激发了科学家使用自旋网络来研究认知和智能。霍普菲尔德教授将这一想法应用于创建记忆模型霍普菲尔德网络是受材料中电子自旋启发的记忆的人工模型一个记忆模型需要两个关键功能存储和回忆记忆。在模型机器学习语言中这相当于训练一个神经网络并使用它进行推理。如何霍普菲尔德网络借鉴了自旋网络的物理学它通过最小化能量函数来训练和进行推理https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/312103572a4dcf0894e5bd1e3d867520.png自旋网络、霍普菲尔德网络或玻尔兹曼机的能量其中s表示一个自旋/神经元w是相邻神经元之间的相互作用权重b是神经元偏置。总能量是每个神经元贡献的总和。在自旋网络、Hopfield 网络和 Boltzmann 机器稍后讨论之间能量的方程是相同的。训练Hopfield 网络如何将输入数据作为记忆存储权重和偏置被设置为在输入数据时最小化平均能量。与现代神经网络不同由于能量函数非常简单我们可以直接计算最优的权重和偏置并且不需要复杂的训练*。*技术上能量可以因为非常大的权重而跑到负无穷大。因此需要额外的约束或正则化来得到一个良好定义的解即要求所有权重和偏置的平方和等于一。推理我们如何检索存储的记忆在机器学习的术语中这是一个生成问题。给定一个嘈杂的或之前未见过的输入Hopfield 网络通过最小化其能量同时保持权重和偏置不变找到最近的存储记忆。就像在磁铁中一样我们首先将神经元或自旋置于输入状态然后迭代地让每个神经元翻转以减少总能量。这样Hopfield 网络就像一个循环神经网络因为下一个状态取决于前一个状态。这些更新最终一定会停止输入会转换为输出。虽然 Hopfield 网络可以存储记忆但它们有一些关键问题权重和偏置的数量必须显著大于记忆的大小并且权重是实数而不仅仅是 1s 和 0s。当一些记忆过于相似时记忆检索可能会失败。作为一种生成模型它无效因为它只能精确地回忆起存储的记忆。解决方案加热系统。这是 Boltzmann 机器的基础。加热升级https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/15d45504216f7e9974a36f32c264f7e3.png在自然界中热能允许系统有效地探索不同的配置它是否也能帮助机器学习模型由Luke Porter在Unsplash上拍摄如果 ChatGPT 只能背诵维基百科或新闻文章那么它就不会很有帮助。同样遵循严格、确定性规则的 Hopfield 网络对于大多数现实世界的机器学习任务来说并不有效。Hopfield 网络的问题在于它们过于僵化。这与自然界中的网络形成对比在自然界中分子是动态的并且可以非常高效地探索不同的配置。这些自然系统在热力学中被研究其中混沌过程是通过概率和温度来建模的。这激发了 Hinton 教授开发一个更灵活的模型即玻尔兹曼机玻尔兹曼机是 Hopfield 网络的噪声泛化通过将温度从绝对零度增加到有限值来实现。在这个观点中Hopfield 网络的僵化仅仅是由于低温造成的。但增加温度是如何给我们的网络增加噪声的呢就像在烤箱中保持食物温暖一样将系统维持在温度T通常需要连接到外部热源。这允许系统与外部、噪声环境交换能量。因此我们的网络不再严格最小化其能量。相反存在一个概率即网络在任何能量E下被发现遵循Boltzmann 分布https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4d21ad297e59aceaba4b825a46f5b90e.png其中求和是对所有可能的能量进行求和。这看起来可能很熟悉因为它与逻辑/softmax 函数的精确形式相同参见我的文章以详细探讨。在零温度极限下除非能量最小化否则概率正好为 0这意味着我们的网络无法探索除了最小能量之外的配置。我们如何理解这种行为在自然界中总能量是守恒的但由于热噪声能量会随机分布在不同的子系统之间。这使得能量集中在任何子系统中的难度呈指数级增加因此有指数因子。能量分布得越均匀整个系统探索不同可能性的能力就越强——这是热力学第二定律或最大熵原理。在实践中这意味着我们不再有一个明确为 1 或 0 的神经元或自旋而是有概率。因此玻尔兹曼机不再是精确的记忆模型。类似于 ChatGPT它们模型化我们的数据概率分布并且可以用来生成超出训练数据的新的例子下面在推理部分说明如何。相比于 Hopfield 网络添加温度和概率显著地改变了玻尔兹曼机的训练和推理过程——它们更接近现代生成模型中发现的范式。训练由于现在一切都是概率性的我们不再只是最小化能量。相反类似于现代机器学习训练我们优化观察输入数据的对数概率。这种方法可以与热力学中的概念联系起来能量最小化和热波动之间的平衡引导我们到一个更广泛的概念即自由能。从数学上讲这种对应关系可以精确地表达https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7dffca46f7c9a753dad002cbf417ed7c.png在玻尔兹曼机中最大化概率等同于最小化自由能。因此玻尔兹曼机实际上是在借用热力学中的原理——例如形成雪花和晶体的原理——来创建能够泛化的复杂网络我还有另一篇文章进一步探讨了这种联系我们网络中权重和偏置的训练与现代机器学习训练相似。我们向网络提供示例输入并使用梯度下降来最小化损失函数。由于网络的递归性质有一些额外的复杂性但在这里我们不会深入细节因为这超出了本次讨论的范围。推理一旦训练完成玻尔兹曼机就成为了完全的生成模型因为它们计算实际的概率给定一个输入我们可以选择固定一些神经元就像 ChatGPT 的提示并允许其他输入波动。在每一步我们可以计算能量并据此确定每个神经元是 1 还是 0 的概率。然后我们根据这些概率随机选择一个配置。这种生成新数据的能力使玻尔兹曼机成为最早的生成式 AI 模型之一具有基于数据的严格随机训练和推理。尽管 Hopfield 网络和玻尔兹曼机为现代生成模型奠定了一些基础但由于它们的计算效率低下它们不再被广泛使用。然而其中一些想法继续推动着现代研究我们将在下一部分讨论。与现代人工智能的联系https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/47e36d23596f1eb43141ed520ab956c4.png(照片由Igor Omilaev在Unsplash上拍摄)由于人工智能文献的浩瀚不可能对所有与 Hopfield 网络和玻尔兹曼机相关的微妙问题和改进进行综述。尽管如此这里有一些我认为重要且相关的显著问题。与现代神经网络NNs相比我们描述的网络由于几个原因而效率低下它们基于 1 和 0这使得将复杂现实世界数据如彩色图像和语音纳入其中变得笨拙这些数据包含整数和连续的实数。它们的通用成对相互作用使得优化变得困难对于非常大的网络来说这可能在计算上非常昂贵。它们的网络结构过于密集对于图像、文本或时间序列数据来说效率低下这些数据具有清晰的因果卷积或时间结构。它们没有考虑到反向传播这使得它们难以与图形处理器或张量处理器GPU/TPU等硬件加速器一起工作。首先由于二进制输入的限制已经被现代霍普菲尔德网络 (现代霍普菲尔德网络) 和 受限玻尔兹曼机 所克服。简单地用实数替换二进制数字是直接的因为所有基本数学运算仍然有效。第二通用的成对连接现在一般不再使用。更稀疏的连接更接近现代神经网络已经被开发出来显著提高了计算效率。第三通过将这些网络与现代神经网络相连接可以减轻训练效率低下的问题。以下是我个人认为一些有趣的论文研究不同的能量结构可以帮助我们理解为什么一些神经网络是高效的 (D. Krotov 等人 2016)在大型语言模型LLMs中使用的注意力机制可以与霍普菲尔德网络和玻尔兹曼机联系起来 (H. Ramsauer 等人 2022, T. Ota 等人 2022)扩散模型可以被视为一种现代的霍普菲尔德网络 (B. Hoover 等人 2023)可能还有很多值得提及的论文我欢迎在评论中提供任何推荐。序言通过与同事的交谈和阅读在线讨论今年诺贝尔物理学奖的争议相当大。关键问题是它真的是物理学吗它真的值得诺贝尔奖吗没有更好的候选人吗我将避免讨论第 2 点和第 3 点但我可以谈谈第 1 点。霍普菲尔德网络和玻尔兹曼机显然属于物理学更广泛的子领域——生物物理学、神经物理学和计算物理学。这些子领域研究复杂的生物系统这些系统通常过于复杂而难以精确描述。霍普菲尔德教授和辛顿教授开发了近似模型并证明了当与合理的自然法则相结合时复杂的计算是可能的。这证明了即使在这些简化的系统中智能元素也可能出现。对机器学习的影响只是次要的好处。有些人可能会争论从物理学的“纯粹性”角度来看这并不值得诺贝尔奖。然而我相信这个领域正在发展。越来越多的科学家开始认识到使用物理学来研究新兴现象如智能和认知的重要性。从这个意义上说2024 年物理学诺贝尔奖突出了在现代社会成为一名物理学家的意义。我坚信自然是最终极的计算机器难怪许多受物理学驱动的机器学习模型正在获得越来越多的关注。物理学不仅仅是关于自然界中的特定定律而是可以反复应用的一般原则。如果人类要发展真正的智能我毫不怀疑它必须基于我们的物理定律。如果你喜欢这篇文章你可能觉得以下受物理学启发的作品很有趣。如果你觉得我的见解有帮助请留下评论祝您阅读愉快数据背后的物理学理解大型语言模型ChatGPT 和 Bert 的物理学从物理学角度解读逻辑分类的意义物理学家的机器学习观点机器学习的热力学量子物理学如何打破了统计学定律