desc

OpenHUTB · Jun 14, 2024 · a7ee403 · a7ee403
1 parent 1e26b8d
commit a7ee403
Showing 1 changed file with 53 additions and 54 deletions.
diff --git a/chap11/chap11.tex b/chap11/chap11.tex
@@ -3,92 +3,92 @@
 \chapter{强化学习的心理学} \label{chap:chap11}
 
 在前面的章节中，我们仅从计算方面考虑就提出了算法的设想。
-在本章中，我们将从另一个角度来审视其中的一些算法：心理学的角度及其对动物如何学习的研究。
-本章的目的首先是，讨论强化学习的思想和算法与心理学家发现的动物学习的相对应关系；其次是，解释强化学习对动物学习研究的影响。
-事实证明，强化学习提供了清晰形式主义，将任务、回报和算法系统化，在理解实验数据、提出新的实验以及指出可能需要操作和测量的关键因素等方面非常有用。
-长期优化回报的想法是强化学习的核心，这有助于我们理解动物学习和行为中那些令人困惑的特征。
+在本章中，我们将从另一种视角来看待这些算法：心理学及其对动物学习的研究视角。
+本章的目的首先是，讨论强化学习的理念和算法如何与心理学家关于动物学习的发现相对应；其次是，解释强化学习对动物学习研究的影响。
+强化学习提供的明确形式系统化了任务、回报和算法，这对于理解实验数据、提出新实验的种类以及指向可能需要操控和测量的关键因素，都是极其有用的。
+强化学习核心的长期优化回报的理念，正在帮助我们理解动物学习和行为中一些令人困惑的特征。
 
 
 强化学习与心理学理论之间的一些对应关系并不令人惊讶，因为强化学习的发展受到了心理学学习理论的启发。
-然而，正如本书所述，强化学习从人工智能研究人员或工程师的角度出发，探索理想化的情况，目的是用高效的算法解决计算问题，而不是复制或详细解释动物如何学习。
+然而，在本书中，我们从人工智能研究者或工程师的角度，探讨了理想化的情况，旨在通过高效算法解决计算问题，而不是详细地复制或解释动物如何学习。
 因此，我们描述的一些对应关系将各自领域中独立产生的想法联系起来。
 我们认为这些联系点特别有意义，因为它们揭示了无论是通过人工系统还是自然系统学习都至关重要的计算原理。
 
 
-在大多数情况下，我们描述了强化学习与为了解释如老鼠、鸽子和兔子等动物在受控实验室实验中如何学习而发展起来的学习理论之间的对应关系。。
-在整个20世纪进行了数千次这样的实验，其中许多至今仍在进行中。
-虽然有时这些实验被认为与心理学中更广泛的问题无关，但它们探索了动物学习的微妙特性，这些实验常常受到精确理论问题的推动。
-随着心理学将重点转移到行为的更多认知方面，即思维和推理等心理过程，动物学习实验在心理学中的作用比以前少了。
-但是，这项实验导致了学习原则的发现，这些原则在整个动物界都是基本的和广泛的，在设计人工学习系统时不应该被忽视。
-此外，正如我们将看到的那样，认知处理的某些方面自然地与强化学习提供的计算视角相关联。
+在大多数情况下，我们描述的是强化学习与学习理论之间的对应关系，这些理论旨在解释像老鼠、鸽子和兔子等动物在受控实验中如何学习。
+20世纪进行过成千上万的此类实验，许多至今仍在进行。
+虽然有时这些实验被认为与心理学的更广泛问题无关，但它们探究了动物学习的微妙特性，常常是由精确的理论问题驱动的。
+随着心理学的重点转向行为的认知方面，即思维和推理等心理过程，动物学习实验在心理学中的作用逐渐减弱。
+然而，这些实验发现的学习原则是动物王国中普遍且基本的，在设计人工学习系统时不应被忽视。
+此外，正如我们将看到的，有些认知处理方面与强化学习提供的计算视角自然地联系在一起。
 
 
-本章的最后一节包括与我们讨论的联系以及我们忽视的联系相关的参考文献。
+本章的最后一节包含了与我们讨论的联系以及我们忽略的联系相关的参考文献。
 我们希望本章能鼓励读者更深入地探讨所有这些联系。
-最后一节还讨论了强化学习中使用的术语与心理学术语的关系。
-强化学习中使用的许多术语和短语都借鉴了动物学习理论，但是这些术语和短语的计算/工程意义并不总是与其在心理学中的意义一致。
+此外，这一节还讨论了强化学习中使用的术语与心理学中的术语之间的关系。
+强化学习中使用的许多术语和短语借鉴了动物学习理论中的概念，但这些术语和短语在计算/工程学中的含义并不总是与它们在心理学中的含义一致。
 
 
 \section{预测和控制}
 
 
 我们在本书中描述的算法大致可分为两大类：预测算法和控制算法。
-这两类算法在第三章介绍的强化学习问题的求解方法中自然产生。
-从许多方面来看，这些类别分别对应于心理学家广泛研究的学习类别：经典条件反射（或巴甫洛夫条件反射）和工具性条件反射（或操作性条件反射）。
-由于心理学对强化学习的影响，这些对应关系并不完全是偶然的，但它们仍然引人注目，因为它们将来自不同目标的想法联系起来。
+这些类别自然地源于第三章提出的强化学习问题的解决方法。
+在许多方面，这些类别分别对应于心理学家广泛研究的学习类别：经典条件反射（或巴甫洛夫式条件反射）和操作条件反射（或工具性条件反射）。
+这些对应关系并非完全偶然，因为心理学对强化学习有影响，但它们仍然引人注目，因为它们连接了来自不同目标的想法。
 
 
-本书中介绍的预测算法估计的数量取决于智能体环境的特征在未来的发展情况。
-我们特别关注于估计智能体在与环境交互时未来可能获得的回报量。
-在这个角色中，预测算法是策略评估算法，它是改进策略算法的组成部分。
+本书介绍的预测算法用于估计依赖于代理环境特征如何在未来展开的数量。
+我们特别关注于估计代理在与其环境交互过程中，未来可能获得的回报数量。
+在这一角色中，预测算法是策略评估算法，是用于改进策略的算法的核心组成部分。
 但预测算法不仅限于预测未来的回报；他们还可以预测环境的任何特征\cite{modayil2014prediction}。
 预测算法和经典条件反射之间的对应关系在于它们共同预测即将到来的刺激这一特性，无论这些刺激是否是奖励（或惩罚）的。
 
 
-工具性（或操作性）条件反射实验中的情况则有所不同。
+在操作性条件反射（或工具性条件反射）实验中的情况有所不同。
 在这里，实验装置被设置为根据动物的行为给予它喜欢的东西（奖励）或不喜欢的东西（惩罚）。
-动物学习增加产生奖励行为的倾向，减少产生惩罚行为的倾向。
-据说强化刺激取决于动物的行为，而在经典条件反射中则不然（尽管在经典条件反射实验中很难完全消除所有行为的依赖性）。
-工具性条件反射实验就像我们在第一章中简要讨论过的那些启发\textit{桑代克}效应定律的实验。
-控制是这种学习形式的核心，它对应于强化学习中策略改进算法的操作。
+动物通过学习增加产生被奖励行为的倾向，并减少产生被惩罚行为的倾向。
+强化刺激被认为依赖于动物的行为，而在经典条件反射中则不是（尽管在经典条件反射实验中完全去除行为依赖性是困难的）。
+操作性条件反射实验就像我们在第一章中简要讨论过的那些启发\textit{桑代克}效应定律的实验。
+控制是这种学习形式的核心，对应于强化学习中策略改进算法的运作。
 
 
-将经典条件反射视为预测，将工具性条件反射视为控制，这是将我们对强化学习的计算视角与动物学习联系起来的起点，但实际上情况比这更复杂。
-经典条件反射不仅仅涉及预测；它还涉及行动，控制模式也是如此，有时被称为巴甫洛夫控制。
-此外，经典条件反射和工具性条件反射以有趣的方式相互作用，这两种学习都可能在大多数实验情况下进行。
-尽管存在这些复杂性，但将经典/工具性条件反射的区别与预测/控制的区别对齐，是将强化学习与动物学习联系起来的方便的初步方法。
+将经典条件反射视为预测，将工具性条件反射视为控制，这是将我们的强化学习计算视角与动物学习联系起来的起点，但实际上情况比这更复杂。
+经典条件反射不仅仅涉及预测；它也涉及行动，因此也是一种控制模式，有时被称为巴甫洛夫式控制。
+此外，经典条件反射和工具性条件反射以有趣的方式相互作用，在大多数实验情况下，两种学习方式都可能参与其中。
+尽管存在这些复杂情况，将经典/工具性区分与预测/控制区分对齐，是在将强化学习与动物学习联系起来时一个方便的初步近似方法。
 
 
-在心理学中，强化一词用于描述经典条件反射和工具性条件反射中的学习。
-最初仅指强化一种行为模式，也经常用于弱化一种行为模式。
-被认为导致行为改变的刺激称为“强化物”，无论它是否依赖于动物之前的行为。
+在心理学中，术语“强化”用于描述经典条件反射和工具性条件反射中的学习。
+最初它只指行为模式的加强，但现在也经常用于描述行为模式的削弱。
+被认为是导致行为变化的刺激称为“强化物”，无论它是否依赖于动物先前的行为。
 在本章的末尾，我们将更详细地讨论这个术语，以及它与机器学习中使用的术语的关系。
 
 
 \section{经典条件反射} \label{sec:classical_conditioning}
 
-在研究消化系统的活动时，著名的俄罗斯生理学家\textit{伊万$\cdot$巴甫洛夫}发现，动物对某些触发刺激的先天反应可能会被与先天触发因素无关的其他刺激触发。
-他的实验对象是经过小手术的狗，这些手术允许准确测量它们的唾液反射强度。
-在他描述的一个案例中，这只狗在大多数情况下都不会流口水，但在喂食后约5秒钟，它会在接下来的几秒钟内产生约6滴唾液。
-在多次重复呈现另一种与食物无关的刺激（在这种情况下是节拍器的声音）并在食物出现前短时间内播放后，这只狗对节拍器声音的反应与对食物的反应相同。
+在研究消化系统的活动时，著名的俄罗斯生理学家\textit{伊万$\cdot$巴甫洛夫}发现，动物对某些触发刺激的天生反应可以被其他完全不相关的刺激触发。
+他的实验对象是经过小手术的狗，这样可以准确测量它们唾液反射的强度。
+在一个案例中，他描述了，狗在大多数情况下不会流口水，但在被给予食物约5秒后，在接下来的几秒内会分泌大约6滴唾液。
+在多次重复另一个与食物无关的刺激（在本例中是节拍器的声音）在引入食物之前的几秒钟后，这只狗在听到节拍器的声音时像对食物那样流口水。
 “因此，唾液腺的活动被声音的刺激所引发，这是一种与食物完全不同的刺激”。
 巴甫洛夫总结了这一发现的重要性，写道：
 
 
 很明显，在自然条件下，正常动物不仅必须对自身带来直接好处或伤害的刺激作出反应，而且还必须对其他物理或化学因素作出反应——如声波，光波等，这些因素本身只发出这些刺激的接近信号；
-虽然对小动物来说，捕食者的视线和声音本身并不会造成伤害，但它的牙齿和爪子会。
+虽然猛兽的声音和影像本身对较小的动物并不有害，但它的牙齿和爪子却是有害的。
 
 
-以这种方式将新刺激与先天性反射联系起来，现在被称为经典或巴甫洛夫条件反射。
-\textit{巴甫洛夫}将先天性反应（例如，上述演示中的唾液分泌）称为\textit{非条件反射}，其自然触发刺激（例如食物）\textit{非条件刺激}，以及由预测刺激触发的新反应（例如，这里也是唾液分泌）称为\textit{条件反射}。
-最初是中性的刺激，意味着它通常不会引起强烈的反应（例如节拍器声音），当动物知道它预测\textit{非条件反射}，并因此产生\textit{条件反射}以响应\textit{条件刺激}时，它就会成为\textit{条件刺激}。
-这些术语仍然用于描述经典的条件反射实验（尽管更好的翻译应该是“有条件的”和“无条件的”，而不是条件的和无条件的）。
-\textit{非条件反射}被称为强化物，因为它强化了对\textit{条件刺激}产生\textit{条件反射}的反应。
+将新刺激与先天反射联系起来的这种方式现在被称为经典条件反射（或巴甫洛夫式条件反射）。
+\textit{巴甫洛夫}（或者更确切地说，他的译者）将先天反应（例如，在他前述示例中的唾液分泌）称为“\textit{无条件反应}”（UR），将其自然触发刺激（例如食物）称为“\textit{无条件刺激}”（US），而将由预测刺激触发的新反应（例如这里也是唾液分泌）称为“\textit{条件反应}”（CR）。
+一种最初是中性的刺激，意思是它通常不会引起强烈反应（例如节拍器的声音），随着动物学习到它预示着US的出现而产生CR，这种刺激就成为“\textit{条件刺激}”（CS）。
+这些术语仍然用于描述经典条件反射实验（尽管更好的翻译应该是“条件的”和“无条件的”，而不是“条件反射的”和“无条件反射的”）。
+US被称为强化物，因为它强化了动物在面对CS时产生CR的行为。
 
 
-右侧显示了两种常见类型的经典调节实验中刺激的排列。
-在延迟条件反射中，\textit{条件刺激}延伸到整个刺激间隔或\textit{刺激间距}，这是\textit{条件刺激}开始和\textit{非条件刺激}开始之间的时间间隔（当\textit{非条件刺激}以此处显示的常见版本结束时，\textit{条件刺激}结束）。
-在跟踪条件反射中，\textit{非条件刺激}在\textit{条件刺激}结束后开始，\textit{条件刺激}结束和\textit{非条件刺激}开始之间的时间间隔称为跟踪间隔。
+右图显示了经典条件反射实验中两种常见类型的刺激安排。
+在延迟条件反射中，\textit{条件刺激}（CS）在\textit{刺激间隔}（ISI）期间持续存在，即从CS开始到\textit{非条件刺激}（US）开始的时间间隔（在此处常见版本中，CS在US结束时结束）。
+在痕迹条件反射中，US在CS结束后开始，CS结束与US开始之间的时间间隔称为痕迹间隔。
 
 
 \begin{figure}[!htb]
@@ -98,15 +98,14 @@ \section{经典条件反射} \label{sec:classical_conditioning}
 \end{figure}
 
 
-巴甫洛夫的狗对节拍器的声音流涎只是经典条件反射的一个例子，已经在许多动物的许多反应系统中进行了深入研究。
-\textit{非条件反射}通常以某种方式为准备反应，比如巴甫洛夫的狗流涎，或以某种方式为保护反应，例如眼睛对刺激物的眨眼反应，或看到捕食者时的冻结反应。
-在一系列试验中经历\textit{条件刺激}-\textit{非条件刺激}预测关系会使动物了解到\textit{条件刺激}预测\textit{非条件刺激}，因此动物可以通过\textit{条件反射}对\textit{条件刺激}做出反应，为动物做好准备或保护其免受预测的\textit{非条件刺激}的影响。
-一些\textit{条件反射}类似于\textit{非条件反射}，但开始得更早，并且以增加其有效性的方式开始。
-例如，在一项深入研究的实验中，音调\textit{条件刺激}可靠地预测了对兔子眼睛的空气喷射（\textit{非条件刺激}），触发了\textit{非条件反射}，该\textit{非条件反射}由称为切口膜的保护性内眼睑闭合组成。
-在一次或多次试验后，音调开始触发由膜闭合组成的\textit{条件反射}，该反应在空气喷射之前开始，并最终达到在空气喷射发生时达到峰值关闭的时间点。
-这种\textit{条件反射}是在预期吹空气和适当时间的情况下启动的，比简单地启动关闭作为对刺激我们的反应更好。
-通过学习刺激之间的预测关系来预测重要事件的能力是如此有益，它广泛存在于动物界。
-
+\textit{巴甫洛夫}的狗对节拍器声音流口水只是经典条件反射的一个例子，这种现象已经在许多动物种类的多种反应系统中进行了深入研究。
+\textit{无条件反应}（URs）通常在某种程度上是准备性的，比如\textit{巴甫洛夫}的狗的流口水，或者是保护性的，比如眼睛对刺激物的眨眼反应，或者看到捕食者时的冻结反应。
+通过一系列试验经历\textit{条件刺激}（CS）与\textit{无条件刺激}（US）的预测关系，使得动物学会了CS预测US，因此动物可以用\textit{条件反应}（CR）来对CS做出反应，以准备迎接或保护自己免受预测到的US的影响。
+一些\textit{条件反应}与\textit{无条件反应}类似，但开始得更早，并在某些方面有所不同，从而提高了它们的有效性。
+例如，在一种经过深入研究的实验中，一个音调CS可靠地预测了兔子眼睛中的一股空气（US），引发了无条件反应，包括保护性内膜（瞬膜）的关闭。
+在一轮或多轮试验后，该音调开始触发条件反应，即膜关闭，它在空气吹起前开始，最终时间安排得恰到好处，使得膜的最大闭合恰好发生在空气吹起的时刻。
+这个条件反应由于在空气吹起之前提前启动，并且时间安排得当，提供了比简单地作为对刺激性US的反应而启动关闭更好的保护。
+通过学习刺激之间的预测关系来预见重要事件的能力是如此有益，以至于在整个动物王国中广泛存在。
 
 
 \subsection{阻塞和高阶条件反射} \label{sec:blocking_higher_order}