从物理学角度阐述：为什么诺贝尔物理学奖颁给Hinton，没有错-虎嗅网

本文来自微信公众号：爆米花独角兽，作者：VC Popcorn，头图来自：视觉中国

文章摘要

2024年诺贝尔物理学奖颁给Hinton因其深度学习研究与物理学相关。

• 🔬 深度学习借鉴了统计物理学概念，如玻尔兹曼机。

• 📊 机器学习方法更接近科学探索而非工程实现。

• 🧠 物理学工具在设计复杂计算模型中发挥重要作用。

The future depends on somegraduate student ，who is deeply suspicious of everything I have said. ——Geoffery Hitton

一、前言

2024年诺贝尔物理学奖颁发给了John Hopfield和计算机专家“深度学习之父“Geoffrey Hinton。

这件事情在国内引起了较大的讨论，有些人质疑为何计算机科学的研究成果会与物理学奖项相关？

认为计算机科学作为一门工程学科，严格来说并不属于科学范畴。

科学是通过系统的研究方法来发现和验证事实或理论的过程。科学方法通常包括以下步骤：观察自然现象并提出问题、提出假设、测试假设、验证或修正假设，最终得出结论并重复这一过程（Popper， 2002）。核心原则在于可证伪性和统计显著性，只有符合这两个原则，才能称之为科学研究。很显然，中医和计算机科学都不是科学。他们并不使用科学研究方法。

传统的计算机科学，尤其是编程领域，更倾向于工程实践，依赖于人为设定的规则和算法，确实与科学方法有所区别。

然而，机器学习和深度学习，则主要依赖于从数据中自动学习规律，应用统计学和代数学的方法。这种方法论上的转变，使得人工智能研究更接近于科学探索，而非纯粹的工程实现（Jordan & Mitchell， 2015）。

诺贝尔奖官方明确指出人工神经网络的理论基础来源于物理学。Hinton的玻尔兹曼机直接借鉴了统计物理学中的概念，使用了玻尔兹曼分布来描述系统状态的概率分布。这体现了物理学的工具在理解和设计复杂计算模型中的重要作用（Ackley， Hinton & Sejnowski， 1985）。

那么，什么是统计物理学？统计物理学是研究由大量微观粒子组成的系统，通过统计方法理解其宏观性质的学科。本文将从物理学学术角度详细推导Hinton是如何站在统计物理学家的肩膀上提出玻尔兹曼机的。

二、统计物理学到Boltzmann Machine

统计物理学的起源：从热力学到分子运动论的奠基

1857年，德国物理学家兼数学家鲁道夫·克劳修斯（RudolfClausius）首次将概率概念引入物理学，为气体分子运动论奠定了基础（Clausius，1857）。他深入探讨了微观力学量的统计平均如何解释气体的宏观性质，如压强和温度。这一工作标志着统计力学的诞生，也是热力学发展的关键一步。

克劳修斯的研究旨在理解气体由大量分子组成，这些分子以高速且随机的方式运动。他引入了概率和统计方法，将微观粒子的运动行为与宏观可观测的物理量联系起来。他提出，气体的压强是由大量气体分子撞击容器壁所产生的平均效应，这一观点为后来的麦克斯韦（James Clerk Maxwell）和玻尔兹曼（Ludwig Boltzmann）的工作奠定了基础（Brush， 1976）。

此外，克劳修斯在热力学领域也做出了重大贡献。他在1850年的论文中正式提出了热力学第二定律，指出热量不能自发地从低温物体传递到高温物体（Clausius，1850）。为了量化这一不可逆过程，他引入了熵的概念，定义为系统中能量分布的不均匀程度。熵的引入不仅深化了对热力学过程的理解，也为后来信息论中熵的概念奠定了基础（Müller， 2007）。

克劳修斯的工作具有开创性意义，他将概率论与物理学相结合，为研究由大量粒子组成的复杂系统提供了新的方法。这一方法论的革新，使得物理学家能够利用统计平均的方法处理微观和宏观之间的关系，为统计力学和热力学的发展铺平了道路（Uffink， 2001）。

玻尔兹曼分布与能量最小化理论

在19世纪70年代和80年代，奥地利物理学家路德维希·玻尔兹曼（LudwigBoltzmann）发表了一系列开创性的论文，奠定了统计力学的基本概念。他通过研究微观粒子的统计行为来解释宏观物理现象，特别关注如何利用原子和分子的运动统计分布来解释热力学的宏观性质（Boltzmann， 1872；Boltzmann， 1877）。

1868年，玻尔兹曼提出了玻尔兹曼分布（Boltzmann Distribution），这是一种用于描述粒子系统在热平衡时能量分布的概率分布，取决于系统的能量和温度（Boltzmann， 1868）。该分布可以视为对系统概率分布的优化，寻找使系统总熵最大化的状态，或者等价地，使系统的自由能最小化。Boltzmann Distribution是Ising Model的一个变种。

1872年，玻尔兹曼提出了著名的玻尔兹曼方程，这一工作奠定了能量最小化理论的基础。他的研究表明，系统会自然地趋向于能量最小化的状态，从而达到平衡（Boltzmann， 1872）。

1877年，玻尔兹曼提出了熵的统计解释，给出了著名的熵公式：

其中，S 是熵， kB 是玻尔兹曼常数，W 是对应于系统能量的微观状态数（Boltzmann， 1877）。这一公式至今仍是统计物理学的核心内容。

值得注意的是，熵的概念后来被引入信息论，成为重要的计算工具。1948年，美国数学家和密码学家克劳德·香农（Claude Shannon）在其论文《通信的数学理论》中首次将热力学中的熵引入信息论，该熵也被称为香农熵（Shannon entropy），用于量化信息的不确定性（Shannon， 1948）。

马尔可夫链

1906年，俄国数学家安德烈·马尔可夫（Andrey Markov）在研究概率论极限定理的应用范围时，提出了马尔可夫链Markov chain的概念，旨在扩展其在依赖随机变量情况下的适用性（Markov， 1906）。

马尔可夫意识到，许多实际问题中的随机变量并非独立，而是存在相互依赖关系。为了解决这种依赖性，他构建了一种新的随机过程模型，强调当前状态仅与前一个状态相关，而与更早的历史状态无关，这一特性被称为“无记忆性”或“马尔可夫性”（Kemeny & Snell， 1976）。

在他的论文《关于依赖变量的极限定理的扩展》中，马尔可夫描述了一个随机变量序列，其中每个变量的分布仅依赖于其直接前驱（Markov， 1906）。这种结构使得复杂的随机过程得以简化，便于分析和处理。他通过这一模型，成功地在依赖性随机变量的情况下推广了大数定律，探索了随机变量在特定条件下的收敛性（Doob， 1953）。

随后，研究者们逐渐认识到马尔可夫链在模拟和预测各种随机过程方面的有效性，例如天气变化、人口迁移和金融市场波动等（Norris， 1997）。在接下来的几十年中，数学家如安德烈·柯尔莫戈罗夫（AndreyKolmogorov）等人进一步推广和发展了这一理论，引入了连续时间马尔可夫链和更复杂的马尔可夫决策过程（MarkovDecision Processes， MDP），使其适用于更广泛的应用场景（Kolmogorov， 1931；Bellman， 1957）。

马尔可夫链的引入对于概率论和随机过程理论的发展具有深远影响。它不仅拓展了概率论的理论基础，而且为现代统计学和机器学习等领域提供了重要工具（Grimmett & Stirzaker， 2001）。马尔可夫的工作充分体现了对随机变量依赖关系的深刻理解，为后续研究奠定了坚实的基础。

Ising Model技术上组最早的马尔可夫应用。

Ising Model，马尔可夫模型，玻尔兹曼分布

伊辛模型（Ising Model）是统计物理中最具影响力的模型之一，最初由德国物理学家威廉·伦兹（WilhelmLenz）于1920年提出（Lenz， 1920），随后他的学生恩斯特·伊辛（ErnstIsing）在1924年对其进行了一维情况下的深入研究和求解（Ising， 1925）。

该模型旨在解释铁磁材料的相变现象，具体而言，即磁性材料在加热至某一临界温度以上时失去磁性，而在降温至临界温度以下时恢复磁性的过程。这种磁性与非磁性之间的转变被称为连续相变或二级相变。

最初，伊辛对一维模型的研究结果显示该模型不存在相变现象，这一发现导致该模型未能引起物理学界的广泛关注（Brush， 1967）。然而，这种状况在1944年发生了改变，著名统计物理学家拉斯·昂萨格（LarsOnsager，1968年诺贝尔化学奖得主）对二维伊辛模型进行了精确求解，发现了其中的相变现象（Onsager， 1944）。这一成果被视为解决相变问题的里程碑。

随后，李政道和杨振宁（1957年诺贝尔奖得主）于1952年提出了李-杨相变理论，尝试从数学上解释伊辛模型在热力学极限（无限大系统）下存在相变的原因（Lee & Yang， 1952）。尽管众多物理学家进行了不懈的努力，但截至目前，三维伊辛模型仍无法被严格求解。

伊辛模型与马尔可夫随机场模型（MarkovRandom Field）之间存在密切的联系，主要体现在其结构和应用领域上。伊辛模型用于研究原子之间的相互作用，特别是它们的磁性行为。每个原子被视为一个自旋变量，取值为+1（自旋向上）或−1（自旋向下），代表原子的磁矩方向。在伊辛模型中，原子之间的相互作用取决于它们的自旋状态：

当两个相邻原子的自旋相同时，系统的能量较低，表示更稳定的状态。

当两个相邻原子的自旋相反时，系统的能量较高，表示不稳定的状态。

这种相互作用可以通过以下能量函数描述：εᵢ ，ⱼ (xᵢ ， xⱼ )=- wᵢⱼ xᵢ xⱼ

其中，xᵢ 和 xⱼ 是两个相邻原子的自旋。wᵢⱼ 是一个数值，表示两个原子之间的相互作用强度。

伊辛模型与马尔可夫随机场的关系在于，它可以被视为一种特殊的马尔可夫随机场模型。其中每个节点（原子）仅与其邻居节点存在直接相互作用。这意味着一个节点的状态仅依赖于其直接邻居的状态，而与其他远程节点无关，体现了马尔可夫性。这种局部相互依赖性通过马尔可夫随机场的图结构，可以推导出系统的全局概率分布（Kindermann & Snell， 1980）。

此外，伊辛模型与玻尔兹曼分布（Boltzmann Distribution）也有着紧密的联系。两者都使用能量函数来描述系统的状态，且能量最低的状态最为稳定。伊辛模型的能量函数与玻尔兹曼分布中的能量函数具有相同的形式，因此可以通过变量映射相互转换。具体而言，在伊辛模型中，变量取值为+1或−1，而在玻尔兹曼分布中，变量通常取值为0或1。通过这种映射，玻尔兹曼分布可以被视为伊辛模型的一种推广，特别是在概率建模中更具灵活性和适用性（Bishop， 2006）。

总之，伊辛模型作为研究磁性相变的重要模型，不仅在统计物理学中具有重要地位，还与马尔可夫随机场和玻尔兹曼分布等概率模型有着深刻的关联。它为理解简单局部规则如何导致宏观复杂行为提供了重要的理论框架，尽管三维伊辛模型的精确解仍是物理学中的一个未解难题。

自旋玻璃模型与Ising Model

自旋玻璃模型（Spin Glass Model）是伊辛模型（Ising Model）的复杂扩展，最早由Edwards和Anderson于1975年提出，旨在研究具有随机相互作用的磁性系统（Edwards & Anderson， 1975）。该模型在理解无序系统和复杂系统的性质方面发挥了关键作用。

自旋玻璃模型与伊辛模型的主要区别在于相互作用的随机性。在经典的伊辛模型中，自旋之间的相互作用系数是固定的，通常全为正值，表示铁磁性相互作用（Ising， 1925）。因此，自旋倾向于对齐，系统的基态易于确定。

而在自旋玻璃模型中，是随机变量，可以取正值（表示自旋相互吸引）或负值（表示自旋相互排斥）。这种随机性导致系统中的自旋难以同时满足所有相互作用，使得找到最低能量状态变得极为困难，这种现象被称为阻挫（frustration）（Binder & Young， 1986）。

以二维自旋玻璃为例，当自旋之间的相互作用为随机正负值时，自旋的排列难以使系统能量达到最小值。随着系统规模的增大，寻找基态的计算复杂度迅速增加，被证明是一个NP完备问题，这意味着求解时间呈指数增长（Barahona， 1982）。这解释了自旋玻璃模型在低温下相较于伊辛模型表现出更为复杂的行为。

总而言之，自旋玻璃模型由于引入了相互作用的随机性和阻挫现象，比伊辛模型更为复杂。对该模型的研究不仅深化了对无序系统的理解，也促进了计算物理和统计力学的发展。值得注意的是，乔治·帕里西（Giorgio Parisi）因其在自旋玻璃理论方面的突出贡献，于2021年获得了诺贝尔物理学奖（The Nobel Prizein Physics 2021， 2021）。

重整化群与玻尔兹曼的统计力学

重整化群RenormalizationGroup由Kenneth G. Wilson在20世纪70年代早期引入，已成为理解统计物理和量子场论中相变和临界现象的基本工具（Wilson，1971；Wilson & Kogut，1974）。重整化群最初在量子场论的背景下发展起来，后来广泛应用于统计物理学，为系统在临界点附近的行为提供了深刻的见解。威尔逊（Kenneth G. Wilson）因此研究在1982年获得了诺贝尔物理学奖。

重整化群的核心思想是物理系统的行为可能在不同尺度上显著变化。例如，在微观层面上，磁性材料表现出单个原子的排列和自旋状态；然而，在宏观尺度上，它显示出整体的磁性特性（Kadanoff，1966）。这种尺度依赖性的行为是重整化群方法的核心，它涉及系统地改变观测尺度——即“重整化”——以分析和理解系统的集体性质。

路德维希·玻尔兹曼的统计力学与威尔逊的重整化群理论之间存在深刻的联系，特别是在研究相变和临界现象时。两种理论都旨在通过微观统计方法理解复杂的物理系统，通过统计分析微观组分的行为来解释宏观现象（Boltzmann，1872；Wilson，1971）。

玻尔兹曼的统计力学侧重于通过统计方法解释温度、压力和熵等宏观性质。通过考虑微观粒子状态的统计分布，玻尔兹曼成功地阐明了许多经典热力学现象，为热平衡提供了微观基础（Boltzmann，1872；Brush，1976）。

相比之下，威尔逊的重整化群理论通过尺度变换在理解临界现象方面作出了重要贡献。重整化群方法解释了为何不同的物理系统在临界点附近表现出相同的临界指数——即所谓的普适性（Wilson & Kogut，1974；Fisher，1974）。这种方法涉及研究微观粒子的相互作用和统计行为如何随着尺度变化，从而能够从微观模型预测宏观的临界行为。

尽管玻尔兹曼的统计力学和威尔逊的重整化群理论都利用微观粒子的统计行为来解释宏观现象，但它们的应用范围和研究重点有所不同。玻尔兹曼的工作为理解热平衡和经典热力学奠定了基础，而威尔逊的重整化群理论则为研究尺度不变现象和经历相变的系统中的临界行为提供了框架。

总之，玻尔兹曼的统计力学与威尔逊的重整化群理论之间的相互作用强调了在解释宏观物理现象时微观统计分析的重要性。尽管在不同的背景下发展起来，这两种理论都显著推进了我们对复杂系统的理解，特别是在相变和临界现象领域。

HopfieldNetwork：神经元的集体行为

霍普菲尔德网络（HopfieldNetwork）由物理学家约翰·霍普菲尔德（John Hopfield）于1982年提出，其灵感来源于统计物理中的一些框架，包括Ising Model、自旋玻璃模型（Ising Model的复杂版本）以及重整化群的概念。

这些模型都包含能量最小化的概念，并通过简单的局部交互展现复杂的集体行为。霍普菲尔德认为，神经网络中的神经元类似于原子，它们之间的相互作用可以引发复杂的集体行为。他提出，当神经元共同作用时，它们可以表现出某些在单独观察网络组件时并不明显的涌现特性。

在他的重要论文《具有集体涌现计算能力的神经网络与物理系统》（Hopfield， 1982）中，霍普菲尔德将神经网络与物理学中的伊辛模型类比，强调通过考虑原子自旋的相互作用，自旋模型可以描述物质的磁性特性。同样，在人工神经网络中，神经元的输出和输入也依赖于相邻神经元之间的相互作用。这种平行关系使得神经网络能够模拟复杂的过程，例如模式识别和学习。

霍普菲尔德网络使用能量函数来定义网络状态的稳定性，这类似于自旋玻璃模型中的能量状态。网络的稳定状态对应于最低能量配置，类似于自旋模型中的最低能量状态。通过调整连接权重（类似于自旋间的相互作用），霍普菲尔德网络能够存储和恢复信息。

因此，伊辛模型和自旋玻璃模型为霍普菲尔德网络提供了强有力的理论基础，特别是在理解复杂系统的集体行为和能量最小化方面（Hopfield， 1982；Amit， 1989；Mezard等，1987）。

Boltzmann machine与能量最小化

玻尔兹曼机Boltzmann machine是对Hopfield 网络的扩展与深化（Ackley et al.， 1985）。

1985 年，Geoffrey Hinton 等人提出了玻尔兹曼机，其名称源自物理学家 Ludwig C，他在热力学和统计力学中提出了著名的玻尔兹曼分布Boltzmann Distribution（Hinton& Sejnowski， 1986）。玻尔兹曼分布的核心思想是系统倾向于朝能量较低的状态演化，每个状态的概率由其能量决定。

玻尔兹曼机是一种基于能量模型的随机神经网络，由神经元节点组成，节点之间通过加权连接，并通过与玻尔兹曼分布相关的概率机制更新节点状态（Ackley et al.， 1985）。其目标在于通过学习使系统的状态分布逼近输入数据的概率分布，从而找到能量最小化的解。

两者的关联具体体现在以下几个方面：

1.玻尔兹曼分布与神经元的对应关系：玻尔兹曼分布用于描述随机系统在不同能量状态下的概率分布。而在神经网络中，神经元的输出受输入信号和相邻神经元的影响，其状态可以通过概率函数来确定（Hinton， 2002）。这种对应关系使得玻尔兹曼机能够利用统计力学的原理来模拟神经网络的行为。

2.神经元输出的随机性：在玻尔兹曼机中，神经元的状态更新不是简单的线性函数，而是基于其连接的其他神经元的状态和权重进行的随机决策（Salakhutdinov & Hinton， 2009）。这种随机性与玻尔兹曼分布中的状态变化相似，有助于网络在学习过程中避免陷入局部最小值。

3.能量模型的应用：玻尔兹曼分布强调系统向低能量状态发展的趋势，即低能量状态具有更高的概率（Smolensky， 1986）。这一能量最小化原理在玻尔兹曼机中得到应用，通过计算不同神经元配置下的能量，网络可以学习如何调整连接权重以达到全局最优状态。

此外，玻尔兹曼机的理论基础与Ising 模型、自旋玻璃模型以及重整化群等物理概念密切相关（Nishimori， 2001）。这些基础物理理论为玻尔兹曼机的构建提供了重要的理论支撑，没有这些物理学的贡献，玻尔兹曼机的发展将难以想象。

三、诺贝尔奖颁奖原则

早期的诺贝尔奖通常表彰最新的科学发现，但一些发现后来被证伪导致奖项评审趋向于更为谨慎，更偏向于表彰那些经得起时间考验的科学成就。例如，1926年的生理学或医学奖最初授予约翰内斯·菲比格，他声称发现了一种致癌的寄生虫，但后来这一发现被证明是错误的(NobelPrize.org)。

物理、化学和医学等领域的诺贝尔奖通常只在该成就被广泛认可后才授予，有时这一过程可能需要数十年。这些领域的奖项也通常是争议最小的(NobelPrize.org)。

至于没有设立数学奖，普遍认为是因为诺贝尔作为发明家和企业家，更偏好实际应用显著的科学发现。他可能认为数学太过抽象，不符合他设立奖项的初衷(NobelPrize.org)。

足见，Hinton获得诺贝尔奖是诺贝尔委员会在深思熟虑后作出的决定，且他的成就经过了严格的审查和投票过程，尽管存在争议，但他的获奖是公正的。

四、总结

其实，关于 BoltzmannMachine 和物理学相关的论文数量十分庞大（Amit，， Gutfreund， &Sompolinsky， 1987；Mezard， Parisi， & Virasoro， 1987；Carleo， & Troyer 2017 ），也就是说在海外学术界，诺贝尔物理学奖颁给Hinton虽然意料之外，却也是情理之中，不算冷门。

本文已经就Hinton的Boltzmann Machine与物理学之间的关系通过其理论来源与方法应用的结合进行了深入探讨。

首先，Hinton的工作建立在Hopfield的研究基础之上，而Hopfield的初代人工神经网络模型则深受统计物理学的启发。具体来说，Hopfield网络的核心思想源自于物理学中关于微观元素相互作用如何影响宏观现象的理解，特别是从磁性材料的自旋相互作用中得到了灵感。这些微观的相互作用能够形成一种集体的行为，使得系统表现出全局的功能，这种集体行为在统计物理中有深厚的理论基础。

在此基础上，Hinton对Hopfield网络进行了优化，提出了Boltzmann Machine。Boltzmann Machine不仅继承了Hopfield网络的基础结构，还通过引入统计物理学中的Boltzmann分布和最小能量函数来进行系统状态的描述与优化，使得网络逐渐向最优状态（即最低能量状态）收敛。

为了更高效地优化网络参数，Hinton还引入了马尔可夫链蒙特卡罗（Markov Chain Monte Carlo， MCMC）方法，这种方法用于生成系统的采样数据，使得网络在训练过程中可以通过迭代模拟找到最优状态。这种采样技术可以在高维空间中有效地估计Boltzmann分布，使得系统能够进行能量函数的优化并找到最小值。

通过对物理学理论的借鉴与扩展，Hinton成功地将其应用到人工神经网络的研究中，并推动了深度学习的发展。其次，Boltzmann Machine 不仅在计算领域有重要应用，它在物理学中的影响同样深远。许多研究论文探讨了其与统计力学、相变理论及量子物理的联系，帮助人们理解复杂系统中的能量优化过程。

Reference

Ackley， D. H.， Hinton， G. E.， &Sejnowski， T. J. (1985). A learning algorithm for Boltzmann machines. CognitiveScience， 9(1)， 147-169.

Amit， D. J. (1989). Modeling BrainFunction: The World of Attractor Neural Networks. Cambridge University Press.

Amit， D. J.， Gutfreund， H.， &Sompolinsky， H. (1987). "Statistical mechanics of neural networks nearsaturation." Annals of Physics， 173(1)， 30-67.

Barahona， F. (1982) 'Computationalcomplexity of Ising spin glass models'， Journal of Physics A: Mathematical andGeneral， 15(10)， pp. 3241–3253.

Bellman， R. (1957) DynamicProgramming. Princeton， NJ: Princeton University Press.

Binder， K. and Young， A.P. (1986)'Spin glasses: Experimental facts， theoretical concepts， and open questions'，Reviews of Modern Physics， 58(4)， pp. 801–976.

Bishop， C.M. (2006) PatternRecognition and Machine Learning. New York: Springer.

Boltzmann， L. (1868) 'Studien überdas Gleichgewicht der lebendigen Kraft zwischen bewegten materiellen Punkten'，Sitzungsberichte der Kaiserlichen Akademie der Wissenschaften in Wien， 58， Page517–560

Boltzmann， L. (1872) 'Further Studieson the Thermal Equilibrium of Gas Molecules'， Wissenschaftliche Abhandlungen，Vol. I， pp. 316–402. [Translated in Brush， S.G. (1966) Kinetic Theory， Vol. 2.Oxford: Pergamon Press.]

Boltzmann， L. (1872) 'Weitere Studienüber das Wärmegleichgewicht unter Gasmolekülen'， Sitzungsberichte derKaiserlichen Akademie der Wissenschaften in Wien， 66， Page 275–370

Boltzmann， L. (1877) 'Über dieBeziehung zwischen dem zweiten Hauptsatze der mechanischen Wärmetheorie und derWahrscheinlichkeitsrechnung respektive den Sätzen über das Wärmegleichgewicht'，Sitzungsberichte der Kaiserlichen Akademie der Wissenschaften in Wien， 76， Page373–435

Brush， S.G. (1967) 'History of theLenz-Ising Model'， Reviews of Modern Physics， 39(4)， pp. 883–893.

Brush， S.G. (1976) The Kind of MotionWe Call Heat: A History of the Kinetic Theory of Gases in the 19th Century.Amsterdam: North-Holland.

Carleo， G.， & Troyer， M. (2017)."Solving the quantum many-body problem with artificial neuralnetworks." Science， 355(6325)， 602-606.

Clausius， R. (1850) 'Über diebewegende Kraft der Wärme und die Gesetze， welche sich daraus für dieWärmelehre selbst ableiten lassen'， Annalen der Physik， 79(3)， Page 368–397

Clausius， R. (1857) 'Über die Art derBewegung， welche wir Wärme nennen'， Annalen der Physik， 100(2)， Page 353–379。

Doob， J. L. (1953) StochasticProcesses. New York: Wiley.

Edwards， S.F. and Anderson， P.W.(1975) 'Theory of spin glasses'， Journal of Physics F: Metal Physics， 5(5)， pp.965–974.

Fisher， M.E. (1974) 'TheRenormalization Group in the Theory of Critical Behavior'， Reviews of ModernPhysics， 46(4)， pp. 597–616.

Grimmett， G. and Stirzaker， D. (2001)Probability and Random Processes. 3rd edn. Oxford: Oxford University Press.

Hinton， G. E. (2002) 'Trainingproducts of experts by minimizing contrastive divergence'， Neural Computation，14(8)， pp. 1771-1800.

Hinton， G. E. and Sejnowski， T. J.(1985) 'Learning and Relearning in Boltzmann Machines'， in Rumelhart， D. E. andMcClelland， J. L. (eds.) Parallel Distributed Processing: Explorations in theMicrostructure of Cognition， Vol. 1. Cambridge， MA: MIT Press， pp. 282–317.

Hopfield， J. J. (1982). Neuralnetworks and physical systems with emergent collective computational abilities.Proceedings of the National Academy of Sciences， 79(8)， 2554-2558.

Ising， E. (1925) 'Beitrag zur Theoriedes Ferromagnetismus'， Zeitschrift für Physik， 31(1)， pp. 253–258.

Jordan， M. I. and Mitchell， T. M.(2015) 'Machine learning: Trends， perspectives， and prospects'， Science，349(6245)， pp. 255–260.

Kadanoff， L.P. (1966) 'Scaling Lawsfor Ising Models Near T<sub>c</sub>'， Physics， 2(6)， pp. 263–272.

Kemeny， J. G. and Snell， J. L. (1976)Finite Markov Chains. New York: Springer.

Kindermann， R. and Snell， J.L. (1980)Markov Random Fields and Their Applications. Providence， RI: AmericanMathematical Society

Kolmogorov， A. N. (1931) 'Über dieanalytischen Methoden in der Wahrscheinlichkeitsrechnung'， MathematischeAnnalen， 104(1)， pp. 415–458.

Lee， T.D. and Yang， C.N. (1952)'Statistical Theory of Equations of State and Phase Transitions. II. LatticeGas and Ising Model'， Physical Review， 87(3)， pp. 410–419.

Lenz， W. (1920) 'Beiträge zumVerständnis der magnetischen Eigenschaften in festen Körpern'， PhysikalischeZeitschrift， 21， pp. 613–615.

Markov， A. A. (1906) 'Extension ofthe limit theorems of probability theory to a sum of variables connected in achain'， Reprinted in Appendix B of An Example of Statistical Investigation ofthe Text Eugene Onegin Concerning the Connection of Samples in Chains， 193.

Mezard， M.， Parisi， G.， &Virasoro， M. A. (1987). Spin Glass Theory and Beyond. World Scientific.

Mézard， M.， Parisi， G.， &Virasoro， M. A. (1987). Spin Glass Theory and Beyond. World Scientific.

Müller， I. (2007) A History ofThermodynamics: The Doctrine of Energy and Entropy. Berlin: Springer.

Nishimori， H. (2001) StatisticalPhysics of Spin Glasses and Information Processing: An Introduction. Oxford:Oxford University Press.

Norris， J. R. (1997) Markov Chains. Cambridge:Cambridge University Press.

Onsager， L. (1944) 'CrystalStatistics. I. A Two-Dimensional Model with an Order-Disorder Transition'，Physical Review， 65(3–4)， pp. 117–149.

Popper， K. R. (2002) The Logic ofScientific Discovery. London: Routledge.

S.F. Edwards， P.W. Anderson， Theoryof Spin Glasses， Journal of Physics F: Metal Physics， Vol. 5， No. 5， 1975， pp.965-974.

Salakhutdinov， R. and Hinton， G. E.(2009) 'Deep Boltzmann machines'， in van Dyk， D. and Welling， M. (eds.)Proceedings of the 12th International Conference on Artificial Intelligence andStatistics. Proceedings of Machine Learning Research， pp. 448-455.

Shannon， C. E. (1948) 'A MathematicalTheory of Communication'， Bell System Technical Journal， 27(3)， Page 379–423

Smolensky， P. (1986) 'Informationprocessing in dynamical systems: Foundations of harmony theory'， in Rumelhart，D. E. and McClelland， J. L. (eds.) Parallel Distributed Processing:Explorations in the Microstructure of Cognition， Vol. 1. Cambridge， MA: MITPress， pp. 194-281.

The Nobel Prize in Physics 2021(2021) NobelPrize.org. Available at:https://www.nobelprize.org/prizes/physics/2021/summary/ (Uffink， J. (2001) 'Bluff your way inthe Second Law of Thermodynamics'， Studies in History and Philosophy of ModernPhysics， 32(3)， Page 305–394

Wilson， K.G. (1971) 'RenormalizationGroup and Critical Phenomena. I. Renormalization Group and the Kadanoff ScalingPicture'， Physical Review B， 4(9)， pp. 3174–3183.

Wilson， K.G. and Kogut， J. (1974)'The Renormalization Group and the ε Expansion'， Physics Reports， 12(2)， pp.75–199.

本文来自微信公众号：爆米花独角兽，作者：VC Popcorn

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com
如对本稿件有异议或投诉，请联系tougao@huxiu.com

从物理学角度阐述：为什么诺贝尔物理学奖颁给Hinton，没有错

大 家 都 在 搜

大家都在搜