融合RL与LLM思想，探寻世界模型以迈向AGI「中篇·Ⅱ」

本篇文章与2023年底尝试挖掘并探寻以chatGPT为代表的LLM和以AlphaGO/AlphaZero及当下AlphaDev为代表的RL思想的背后底层理论及形式上的统一，同时与最近OpenAI暴露出的project Q*可能的关于细粒度过程学习再到系统①(快)思考与系统②(慢)思考的形式化统一的延展性思考，以展望并探索当下面向未来的AGI->ASI的路径可行性。正如前几日AI一姐李飞飞所说，人工智能即将迎来它的「牛顿时刻」
本篇文章拟分为「上篇」「中篇」「下篇」
作者：吕明，坐标西二旗，技术探索方向LLM/RL/AGI/AI4S..微信公众号和知乎同篇发布，关注公众号【塔罗烩】，知乎账号【Dustin.L】

想回顾「上篇」的小伙伴请参考如下链接：

融合RL与LLM思想，探寻世界模型以迈向AGI/ASI的第一性原理反思和探索「RL×LLM×WM>AI4S>AGI>ASI」 (qq.com)

在进入基于第一性原理的核心观点探索之前，正好于近期阅读到了两篇个人认为比较有代表性的关于E2E建模系统二·慢思考推理模型的论文（终于:），借此也分享给大家：

其中一篇是香港大学发布思维扩散DoT：Ye, J., Gong, S., Chen, L., Zheng, L., Gao, J., Shi, H., ... & Kong, L. (2024). Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models.https://arxiv.org/pdf/2402.07754.pdf

这篇论文应该正好赶上了近期火爆的rosa借助采用diffision models的思想，代替传统LLMs AR的方式的尝试，接下来在这里简单介绍一下这个模型所采用的方法：

随着扩散模型因在视觉领域的成功和相对于自回归模型的独特建模优势而在文本处理中引起了兴趣，有很多研究者也提出并尝试了基于扩散模型的一些看法和实践，如Gulrajani & Hashimoto 强调了扩散语言模型中的规模化法则，Ye展示了扩散模型在经过指令调整和规模化后能够处理复杂任务。因此，接下来的一种尝试变成：扩散语言模型能否也利用CoT风格的技术来获得增强的复杂推理能力？

因此作者提出了思维的扩散方法（DoT），一种为扩散模型量身定制的固有链式思考方法。本质上，DoT逐渐更新表示隐藏空间中思维的一系列潜变量，允许推理步骤随时间扩散。从方法论角度来看，DoT与最近提出的隐式CoT方法有相似之处，后者通过跨transformer层学习隐藏状态中的思维，以提高自回归CoT生成的时间效率。CoT、隐式CoT和DoT的对比示意图如下图所示。

在实践中，DoT在每个扩散时间步t迭代地对数据点施加高斯噪声，其中t从t = 0（最少噪声）运行到t = T（最多噪声），然后训练去噪模型从噪声数据中恢复干净数据。为了针对复杂查询，DoT不使用基于梯度的分类器引导，而是使用无分类器引导训练和采样去噪模型，以提供更可靠的控制信号。

DOT的流程如上图所示。受到扩散模型在文本生成中成功的启发，作者探索它们在特定任务中的推理能力及其相对于自回归模型的潜在优势。作者首先观察到Plaid模型中默认的基于梯度的引导无法进行精确的条件设置，因为模型不能完全恢复每个条件token。这在数学推理中尤其重要，因为它期望基于问题陈述中的确切token（例如，数字）进行推理，而不是更紧凑的梯度信号。为此，作者在Plaid的微调过程中采用了DiffuSeq风格的无分类器条件设置。这产生了DoT的原型，其中所有的推断都是通过一次性的逆向扩散过程生成的，所有条件token都被固定。具体来说，在训练和采样过程中，问题上下文与理由（链式思考推理路径）z0 = EMB([s; r1...n])被串联起来，且部分噪声仅施加于理由部分zt，保持s作为条件锚定。通过多步去噪过程DoT从扩散模型的内在自我修正能力中受益。为了进一步提高自我修正能力，作者设计了一个计划采样机制使得在训练阶段暴露并纠正自生成的错误思维。具体地，对于任何连续的时间步s, t, u，满足0 < s < t < u < 1，在训练阶段zt是从q (zt | z0)中采样的，而在推理过程中则是从q(zt | fθ (zu; u))中采样的，其中fθ是一个重新参数化Eq[z0|zt]的去噪神经网络。这种暴露偏差可能会阻碍模型在生成过程中从错误思维中恢复，因为模型fθ只在从标准数据扩散的zt上训练。为了缓解这个问题，对于时间步t，作者随机采样一个之前的连续时间步u ∈ (t, 1]，并执行模型前向传递以获得预测的z0。然后采样zt以替换损失计算中的常规值。与自回归模型的计划采样相比，DoT中的这种机制帮助模型考虑全局信息从错误中恢复。

同时，作者进一步提出了DoT的多通道（MP）变体，称为DoTMP，该变体以一个接一个的思维范式生成理由。这种方法分离了多个理由的生成，并引入了因果归纳偏差，使得后续的理由可以在生成过程中被先前理由的更强条件信号所引导。具体来说，在第一轮中，作者通过模型生成第一个理由r1。然后将r1与s作为条件[s; r1]连接起来，通过模型采样得到r2。通过多次迭代，可以得到最终答案。

作者首先从头开始训练DoT以完成数字乘法任务作为初步调查，如下表所示。可以观察到，ChatGPT和精简版的隐式CoT模型都无法达到100%的准确率。GPT-2可以通过微调达到高准确率，但在CoT过程中牺牲了吞吐量。有趣的是，从头开始训练的DoT能够在将扩散采样步骤设置为1的情况下，保持显著的吞吐量同时达到100%的准确率。随后作者从头开始在GSM8K上训练DoT，但只能达到5.61%的准确率，这低于GPT-2的微调版本。作者认为，这主要是由于从头开始训练DoT时缺乏预训练的自然语言理解能力。这就是为什么作者开始通过使用预训练的扩散模型进行进一步的微调探索。

接下来作者将DoT扩展到预训练的扩散语言模型Plaid 1B并在更复杂的推理任务上进行评估，即GSM8K。在下表中，与不使用CoT/DoT相比，自回归模型和扩散模型在使用CoT或DoT进行微调时都显示出显著提高的性能。这表明增加的计算（推理时间）带来了实质性的好处。DoT，与隐式CoT有类似的公式，但展现出比它更显著增强的推理能力，可与微调CoT模型的GPT-2相媲美。多通道DoT表现略优于单通道版本，而后者更高效。

在微调Plaid 1B时，作者探索了几种替代方案并进行了如表3所示的消融研究。使用GSM8K增强数据集继续预训练Plaid 1B并使用基于梯度的条件进行推理，对于在下游任务上微调扩散LM来说不是一个好选择，因为推理任务需要更具体的指导。

我们看到，这篇文章采用diffusion的思想对问题上下文及链式思考推理路径z0 = EMB([s; r1...n])进行过程学习采样，并在其中通过一些tricks进行施躁和降噪的梯度修正。

Think：也许未来的E2E系统二·复杂推理模型会将当前LLM这种自回归模型被扩散模型（源自于CV领域的扩散施噪方式）所取代？如diffsion拥有着先天的某种优势？又或者AR与Diffsion两者间实现某种程度或技巧上的平滑结合？再或者后来随着理论的进一步探索，人们发现两者间本身就存在着底层本质逻辑的一致性，无非是根本的底层不同的数学变换模式或方法上的差异？即跨transformer的中间隐状态表征与高斯施躁到降噪的数学变换具有相同的本质普遍性？比如AR在一直狂奔于scaling law下，其跨transfomer层的表征也将逼近diffusion式的推理。
另外一篇是斯坦福大学和Notbad AI Inc的研究人员开发的Quiet-STaR，让AI学会“思考”再“说话” Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking.https://arxiv.org/pdf/2403.09629.pdf

值得注意的是，这篇论文所提出的模型名字非常有意思「Quiet-STaR」，似乎预示着什么..论文中的Quiet-STaR 是以一种通用和可扩展的方式学习推理的语言模型。与上一篇不同，论文中将更多精力聚焦在推理任务数据上而非E2E模型结构或训练方法上。通过在多样化网络文本中隐含的丰富推理任务的范围上进行训练，而不是狭义地专门为特定数据集进行训练，Quiet-STaR 指引了更健壮和适应性更强的语言模型的方向。论文的结果证明了这种方法的潜力，Quiet-STaR 在提高下游推理性能的同时生成了具有质量意义的理由。论文相信这也开启了许多潜在的未来方向 - 例如，可以尝试对思考进行集成，以进一步提高对未来token的预测。此外，如果语言模型能够预测何时思考是有用的，例如通过在预测之前放置混合头，那么预测的混合权重可以用于在生成过程中动态分配计算资源。

通常，语言模型可以通过对问答数据集进行采样推理来自行训练其推理能力，即尝试回答问题、在推理导致正确最终答案时对其进行训练，然后重复该过程迭代解决更困难的问题。然而，从策划的问答数据集进行训练限制了推理的规模和普遍性。问答数据集，尤其是高质量的数据集，需要经过深思熟虑的策划，并且天生只能涵盖一部分推理任务。因此，论文扩展了STaR - 语言模型不是学习在特定任务(如数学问答)上推理，而是训练语言模型生成推理来帮助它从大型互联网文本语料库推断未来文本。因此，论文允许语言模型从语言中存在的多样化任务中学习。这建立在当前语言建模范式的一个基本直觉之上，即"语言模型是无监督的多任务学习者"。因此，与STaR一样，论文利用语言模型现有的推理能力来生成理由，并使用基于REINFORCE的奖励对语言模型及其生成的理由进行训练。论文将这种技术称为Quiet-STaR，因为它可以被理解为"悄悄地"应用STaR，训练模型在说话之前思考。

问题：论文发现平均来看，语言模型预测任意token的能力几乎没有改进。但是，当论文可视化相对改进的分布时，发现在更困难的token上改进是不成比例的。这反映了一些文本token实际上更难，而且受益于更深思考。论文试图提供一些关于改进发生的token类型的见解。换句话说，虽然在示例中思考似乎有助于许多token，但检查表明它不成比例地有助于预测回忆相关信息有用的token，比如适用定理的名称或证明下一步的开始。值得注意的是，这与 Prystawski 等人（2024）提出的框架非常契合。

另外，论文中尝试了验证性任务，这项任务的几个方面都有可能引入不稳定性。首先，也许最重要的是，生成的思考（或思考token）的效用是思考到其对语言预测的贡献的映射的函数。论文探索的一个解决方案是使用 Gumbel-Softmax 技巧和一个直通估计器，但是在许多连续的 softmax 操作中，论文观察到梯度消失。基本上，从 LM 输出到下一个token预测的映射越复杂，论文观察到的不稳定性就越多。另一方面，当论文在没有任何插值的情况下训练，即消除混合头并仅使用思考后的语言模型预测时，模型很快学会简单地忽略思考（论文没有看到任何下游任务的泛化

最后，论文总结到：虽然思维链提示和论文的方法之间存在自然的相似之处，但它们本质上是正交的。在思维链中，用户会积极提示模型“大声思考”，否则使用其普通的生成分布；而 Quiet-STaR 则会在每个token处安静地思考，生成的推理链的分布被其有效训练。这两种方法很可能是互补的。例如，在可能提示语言模型使用思维链的情境中，没有任何阻止论文允许模型在输出每个token的推理之前进行思考。论文进行了一个初步实验，表明内部隐式推理可能使模型能够生成更有结构和连贯性的思维链。

通过对上述两篇论文的核心观点进行总结，我们发现其两篇论文中都在尝试将中间推理过程与原始问题上下文进行联合采样，以对其隐空间状态的中所表征的推理(思维)的潜变量进行学习，即“过程学习”，不同的是两者所采用的模型结构及数据样本各有差异和独特性。同时，为了更深入的探究「系统二·慢思考」认知模式的本质，而不应仅仅停留在对思维的表征学习和其潜在变量对思维的简单表示这一静态表象层面，如这里提到的表征学习和潜变量的表示在认知推理过程中是如何体现和运用的？因此，我们需要跨越「系统二·慢思考」的这种更长程的认知推理过程的中回归第一性原理，寻找在两篇论文中的各自所尝试使用的创新训练方法和学习模式，与「系统二·慢思考」这种认知能力在底层有着哪些本质的联系。

如在香港大学发布思维扩散DoT中所提及的：「本质上，DoT逐渐更新表示隐藏空间中思维的一系列潜变量，允许推理步骤随时间扩散」中，其「潜变量」「隐藏空间」「思维」其对于模型系统二的推理或思维路径的背后更底层的本质是指什么？

为了更进一步探索背后的本质问题，为了方便大家回顾阅读，我将本节开篇的我的那条知乎回答再为大家贴到此处，避免大家频繁滚动页面对照。

知乎我的回答：
如题，我觉得人类的思维很有可能是基于此种tokenize的预测模式的，只不过tokenize的结果及过程形式会有一点不同，但回归第一性原理来思考，本质上是一样的。
另外从系统①（快思考）与系统②（慢思考）两者之间的内涵上来看其实也能侧面映射出当前LLM与人类的思维内涵存在着某种联系。任何模型在进行推理时，本质上都是对从一个状态（特征/过程）空间映射到另一个状态（决策/动作/甚至慢思考中的规划与反思…）的符号化（离散表征）或向量化（连续表征）空间，而这种映射其实模拟一下人类思考的思想试验也是类同的，而LLM模型网络内部和有研究表明的人类大脑，即其实亦是从一层神经元到下一层神经元的映射（神经元信号激活），比如这种映射可以表征对状态特征的提取，事物的具象到抽象，状态所对应的决策/行动...而这映射两端的不同空间表征是可以任意的且客观存在的，且随着人类行为的反馈亦机器的监督学习来建立关联的，当然这取决于“大自然”赋予人类的偏好决策与行动空间，就像人类赋予机器对应的任务监督模式与决策空间。
因此回到上述系统①和系统②，系统②相对于系统①，其实本质也都是同一的，只不过系统②在神经网络激活（信号正向传播）过程中，经历了不同的映射层，甚至在LLM所驱动的Agent中的规划，反思，如COT，TOT，GOT，AOT，BOT，XOT等策略过程亦是属于中间过程的不同表征空间的一种映射，只不过在映射的过程中通过in context上下文给予了提示（比如COT的step by ste..），而这种提示prompt有可能会激活（这里的「激活」在两者思维或运算推理过程中的数学本质上即是指将输入侧的信息向量化表征通过模型正向传播计算即数学变换）人类大脑神经元和模型中间网络神经元的信号传递的路径（当然路径是丰富多样的，并且模型或人类大脑在过程学习训练中可以呈现出上述泛*OT的这种模式）。
因此，对于上述所说的in context learning也好还是prompt leaning也罢其实对于人类和机器的推理与思考或直觉来说也是某种程度的同一。
当然LeCun提出了另外一种实现像人类智力能力的AGI-世界模型，强调模型在中间抽象层的构建，但我始终认为通过采用有效的训练与学习方法，模型在网络空间隐层中，是可以习得这些抽象概念的逐层映射推理表示的，关键采取什么样子的训练方法以学习到这种更抽象的类人能力甚至是超越人的抽象模式，也许LLM+RL强化学习是一条路径，包括引入相应的过程奖励函数，以及构造足够抽象可形式化推演的模拟环境以进行有效的self play（如围棋或数学证明）。→ 这里又会遇到另一个问题：这些虚拟环境与真实世界环境的空间可表征有多大差距，是否能通过某种方法进行逼近？当然即便无法有效完美逼近，在虚拟环境中所习得的抽象推理或决策（本质上是上述说的模式映射）亦可以通过迁移实现模型的的泛化。

如上所述，在回答中的前半部分，表述了对「系统二·慢思考」的一种认知推理形式上的阐释，对应的思维扩散DoT论文中所提及的「潜变量的表示或表征」，实际上体现的是在推理过程中位于不同状态空间的中的隐状态的动态过程映射，且映射两端的不同状态空间所表示的状态内涵包罗万象，如模型输入侧的像素空间、符号序列空间，模型隐空间层的不同特征变换空间、决策动作空间、推理思维空间，再到模型输出的结果侧的tokenize表示空间，其中在模型中的多个隐空间层，在形式表示上存在着对多层特征的抽象与变化过程，以及对多步骤的思维推理模式的演绎过程。而这种过程或模式，进一步抽象为更为简单的数学形式化表达则即是：建立潜变量对神经元信号状态(w·h)的抽象表示，在推理过程中进行数学变换操作，最终通过变换计算得出最终的结果，即形成了潜变量对某种状态空间状态的表征这一动态过程，如下图所示：

因此，结合本节内容逐步探索和进一步阐释，站在回归第一性原理思考的基础上，到了为各位伙伴们尝试针对「系统一 · 快思考与系统二 · 慢思考」这一概念进行本质性总结的时候了，我的阐释内容如下：

本节核心要点归纳与阐释：

「系统一」和「系统二」对于模型在推理过程中的底层映射与变换逻辑其本质上是相同的，其中「系统一」中所囊括的基本的事物的特征、知识和规律与「系统二」中所囊括的任何推理过程、思维路径和算法策略等均是可以被模型统一编码（或压缩）到多个状态空间层间形成状态组合映射与动态变换当中的，即模型统一实现对「现实物理世界空间」和「思维概念空间」到「模型隐状态空间」的表征。模型在推理过程在概念上体现出模型结构中不同状态空间层的「映射」，在数学上映射的过程即对应的数学「变换」，在形式上体现了多层神经元间的信号传递。两者在表象上的差异体现在模型训练的任务目标以及模型训练的数据分布构象的不同，如「结果」→「过程+结果」在训练目标和数据分布的差异。

在这里，如果上述本质的描述是能够自洽且被泛化的，那就意味着模型均可以通过建立这种空间状态映射机制，采用数学上的变换方法，对真实世界所存在的任何事物、现象甚至是人类脑海中的概念、逻辑、思维等进行某种程度的模拟，就像通过我们人类大脑或心灵一样，尝试用感性、理性的不同方法去思考、认知这个世界，将世界装入我们的内心世界并以此进行决策和行动。--- 这也是我在知乎上回答那位题主时当时内心的写照，也越来越感觉AGI离我们将不再遥远。

另外，在系统二的推理模式中，我们似乎能够找到将无限的”推理“压缩进模型内部即通过在模型的神经网络隐层中进行推理模拟，但这里我仍感觉我们应该进行稍微谨慎一点：这难是AGI最终实现的的其中一条路径吗？细想一下，人类的思考模式似乎也不是这种通过复杂的内在推理模式，但需要指出的是对于AI模型来说确实可以通过超过人类的这种内在的压缩或推理，在大部分领域超越人类，如当前LLM对世界通用知识的压缩某种程度上已经超越了人类。而无限压缩的这种模式在宏观的认识模式上似乎又存在着很多不同，如人类的推理和反思也是不断与外界交互反复多次的通过大脑神经皮层中的神经元进行信号传递激活并最终形成推理链完成推理的，这里与Agent的机制还是很类似的，因此，是否未来AI模型在通往AGI的路径中也需逐渐探索并最终达成模型E2E深度推理与类Agent推理机制的某种融合和平衡呢？

当然，本篇文章也希望能够为大家提供一种方法，以回归第一性原理的理性思考，去找寻事物间的一些本质普遍性与联系，在其中跑通底层逻辑的一些自洽性，这样在此基础之上，能够对不管是算法研究人员进行模型开发与建模，数据挖掘人员进行大规模的数据分析，认知应用产品设计人员来说，都能够更好的快速洞察到适合的探索路径中来。

本节尝试为各位读者阐释我对「系统一 · 快思考与系统二 · 慢思考」的理解和浅见，即便我们洞察到对于模型来说，似乎找到了对任何世界事物的压缩、编码或者模拟的可能，但即便如此，在通往AGI的路途中，也依然充满着一些荆棘和挑战，除了上述所说的E2E深度内化推理与Agent机制平衡的不确定之外，比如在接下来，对于需要考虑如何找到一个适合于模型的学习或训练方法，如何设定一个适应性、匹配性足够灵活的任务目标，如何发现或构造如此完备的数据样本在分布和构象上使得与上述中的那些学习方法和任务训练目标实现优雅的匹配也是十分重要的！接下来我将在下一个小节「RL与LLM融合的本质&阐释」中与大家一起进一步进行探索这方面所涉及的一些核心本质问题。