社会

当前位置:澳门新葡亰官网app > 社会 > BP:成瘾相关行为中的无模型和基于模型的影响

BP:成瘾相关行为中的无模型和基于模型的影响

来源:未知 作者:澳门新葡亰官网app 时间:2019-07-13 22:58

  决策受到基于模型和无模型的强化学习系统的影响。本研究通过多阶段决策任务,量化成瘾前后大鼠中无模型和基于模型的行为特征。以探究强化学习系统的破坏是否是慢性吸毒的表现和/或是否是成瘾的预先存在的风险因素。结果表明强化学习系统的偏向和成瘾是相互影响的,即成瘾是先天和后天因素的综合结果。

  长期物质依赖的人类和动物在进行灵活选择方面存在困难。在毒品成瘾过程中,行为控制从目标导向转向习惯控制,最终转变为被假设为成瘾的强迫,可能是因为毒品引起调控的决策的多重强化学习(RL)系统的中断造成的。因此,对滥用毒品破坏的RL系统的识别对于理解成瘾的病理生理学可能是至关重要的,而这种识别需要能够同时表征同一个体内的多种RL策略的决策任务。

  多阶段决策(MSDM)任务,能够在在健康个体和精神疾病患者包括成瘾中,量化决策的程度受到过去选择和结果的回顾性评估(称为无模型RL)和/或未来结果的前瞻性评估(称为基于模型的RL)的影响。有人认为,具有物质依赖性的个体中观察到的这项任务中的异常行为反映了对基于模型的行为控制的受损。

  然而,在成瘾的个体中观察到的决策模式也可能反映出无模型系统的过分强大,甚至可以反映无模型和基于模型的过程的同时中断。总之,对者两套系统如何受慢性吸毒影响的理解尚未完全阐明。此外,这两套学习系统作为风险因素对吸毒行为发病机制的影响尚不清楚。在任何毒品暴露之前存在的灵活选择行为可能与成瘾倾向的成分有因果关系。因此,需要对无模型和基于模型的学习进行纵向和定量分析,以确定调节吸毒行为的学习系统是否与毒品所影响的学习系统有所差异。

  本研究最近开发了一种翻译的MSDM任务变体,用于啮齿动物,能够独立和纵向检查无模型和基于模型的行为。评估了甲基苯丙胺自我给药前后大鼠的决策,以确定无模型和基于模型的过程在成瘾行为的病理生理学中的确切作用。

  训练大鼠在MSDM任务中做出基于操作者的选择,该任务被设计成与人类中使用的MSDM任务并行(图1A)。其他地方已经详细描述了训练方案。在每次试验开始时(状态sA),给大鼠提供两个空间上不同的杠杆。两个杠杆中的任何一个的响应导致两个状态中的一个(sB或sC),每个状态对应于一对端口孔的照明(即,左杠杆响应→端口3和4;右杠杆响应→端口1和2)。使用交替阻塞计划概率地加强进入照明端口(图1A,底部)与单个蔗糖颗粒的交付。

  最初在MSDM任务的一个版本上训练大鼠,其中第一阶段(sA)中的选择确定地导致第二阶段状态(称为确定性MSDM任务)(补充图S1)以确保他们理解结构任务(见补充)。然后根据MSDM任务的概率版本评估决策,其中第一阶段选择随机地导致第二阶段状态(图1A)。在概率MSDM任务中,普遍(70%)试次中,选择一个第一阶段选项(例如,sA)导致相同第二阶段状态的照明(例如,sB或sC),这是确定性地分配给该第一级的选择在所述确定性MSDM任务(称为共同转换)。然而,在罕见的试次(30%)中,第一阶段的选择导致第二阶段状态的照明,这通常与其他第一阶段选择(称为罕见转变)相关联。使用确定性MSDM任务中使用的相同交替计划来加强第二阶段的选择(图1A,底部)。当老鼠完成300次试验或达到90分钟,任务即终止。大鼠在概率MSDM任务中完成五次任务,并且收集逐个试验的数据用于下面描述的计算分析。

  在自我管理测试后的五天,在确定性的MSDM任务中重新评估决策,在无毒品状态下进行五次测试,以确保接触甲基苯丙胺不会破坏对任务结构的理解。然后在概率MSDM任务中重新评估决策,再进行五次测试。

  (A)对概率MSDM任务进行决策评估,该任务与人类MSDM任务的结构平行(7)。(B)基于先前试验结果(奖励与未奖励)以及纯模型理论数据中的状态转换(共同转换:空心条;罕见转换:灰色条)保持相同的第一阶段选择的概率 - 无模型行为(左),基于模型行为(中间)或在概率MSDM任务中使用每种策略(右)的混合。(C)在概率MSDM任务中,基于先前的试验结果(奖励与未奖励)和状态转换(共同转换:蓝色条;罕见转换:红色条)保持相同的第一阶段选择的概率。(D)逻辑回归模型的回归权重,用于分析概率MSDM任务中的选择行为。结果预测器的权重(橙色条)表示无模型学习的强度,而按结果转换的交互预测器(紫色条)表示基于模型的学习的强度。(E)实验设计图,下面给出了每个实验阶段中大鼠花费的天数。reg coeff,回归系数。

  在MSDM任务中进行测试后,将大鼠(N = 50)植入颈内导管,并训练他们 在每天6小时的训练中自我给予甲基苯丙胺(0.05mg / kg /输注; n = 40)或生理盐水(n = 10)。为期14天。然后将大鼠强制禁欲 5天,随后在无毒品状态的MSDM任务中重新测试。

  使用逻辑回归模型分析影响自我管理前后MSDM任务中第一阶段选择的试验事件,该模型估计大鼠基于先前试验事件选择相同的第一阶段选择的可能性,即概率逗留,或p(逗留)。用于分析确定性MSDM任务中的选择数据的模型包含以下预测因子:“正确”,其编码用于最常导致最高强化第二阶段的第一阶段选择; 和“结果”,编码前一次审判的结果。用于分析概率MSDM任务中的选择数据的模型包含以下预测因子:正确; 结果; “转换”,它描述了以前的转换是普遍的还是罕见的; 以及转换与结果之间的相互作用。在该模型中,应用于结果的回归系数量化无模型行为,并且应用于逐个转换交互的回归系数量化基于模型的行为。

  使用RL算法也表征了无模型和基于模型的学习,该算法利用了Daw 等人 提出的基于模型的算法,以及无模型的算法,包含一个自由参数推定基于模型的学习(权重βMB)和不同的自由参数推定无模型学习(权重βMF)。

  在MSDM任务中评估决策。概率MSDM任务中的选择数据(图1A)通过计算大鼠根据前一个试次收到的结果(奖励或未奖励)重复相同的第一阶段选择的比例,以及(常见或罕见)状态转换的概率。根据无模型RL,重复第一阶段选择的概率应仅受先前试验结果的影响,无论状态转变是普遍还是罕见(图1B)。相比之下,基于模型的RL假定第二阶段的结果应该根据所经历的状态转换而不同地影响第一阶段选项的选择(图1B,中间)。值得注意的是,人类的证据(7)表明,个人在MSDM任务中使用无模型和基于模型的策略的混合(图1B,右)。

  图1C绘制了试验的比例,其中大鼠坚持使用相同的第一阶段选择作为先前试验结果和状态转变的函数。这种结果模式与人类观察到的结果非常相似。逻辑回归(图1D)显示结果的主效果,这是无模型学习的量度,与0相比差异显著(橙色条),表明大鼠使用前一次试验的第二阶段结果来指导他们在随后的试验中的第一阶段选择。结果和转变之间的交互作用(基于模型的学习的量度)显著(紫色条),表明大鼠在反应过程时考虑了转换模型。这些结果表明,在MSDM任务中做出决策时,大鼠同时使用无模型和基于模型的策略。

  结果系数(无模型行为)显著预测毒品强化初始强度的显著变化量(图2F),而不是毒品使用量的增(图2G)。具有较弱无模型行为的大鼠比具有较高无模型学习的大鼠,在自我给药的14天内持续自我给予更多甲基苯丙胺,但这些组之间毒品使用的升级速率相似。毒品强化的初始强度的变化可以通过奖励驱动的,先天存在无模型学习的差异来介导。

  (A)个体大鼠(红线小时自我给药期间获得的甲基苯丙胺输注次数和所有大鼠的平均值(黑色虚线)。*** p .001与自我管理的第一天相比。另见补充图S3。(B)个体大鼠(灰线小时自我给药所获得的盐水输注的数量和所有大鼠的平均值(黑色虚线。(C)甲基苯丙胺自我管理数据与最大可能性的幂函数拟合。将3只个体大鼠的药物自我给药数据绘制在红线只大鼠的拟合幂函数预测的药物输注的数量由黑线。(D)在药物使用相似的升级率(例如B参数)但具有低(红色; n = 8)或高(粉红色; n = 8)的大鼠的自我给药期间服用的药物输注次数药物强化的初始强度值(例如,A参数)。另见补充图S4。(E)大鼠自我给药期间的药物输注次数,具有相似的药物强化初始强度值(例如A参数)但低(深蓝色; n = 8)或高(浅蓝色; n) = 8)药物使用的升级率(例如,B参数)。另见补充图S4。(F)无模型行为(结果回归系数)与药物强化的初始强度(A参数)之间的关系。(G)模型自由行为(结果回归系数)与药物使用升级率(B参数)之间的关系。(H)基于模型的行为(按结果转换回归系数)与药物强化的初始强度(A参数)之间的关系。(I)基于模型的行为(按结果转换回归系数)与药物使用升级率(B参数)之间的关系。(J)来自简单逻辑回归的回归系数,其指示奖励结果对具有低(深橙色)或高(浅橙色)无模型行为的大鼠中的当前选择的影响。**p .01。(K)来自简单逻辑回归的回归系数,该回归系数指示未受奖励的结果对具有低(深灰色)或高(浅灰色)无模型行为的大鼠中的当前选择的影响。甲基苯丙胺; reg coeff,回归系数; Trans×Out,按结果转换。

  在一个没有奖赏的试次后,停留在相同的第一阶段的选择的可能性,大鼠在暴露于甲基苯丙胺后显著停留更久(图3A,B,右)。Logistic回归分析显示,自我给药后,在两组中,先前试验结果对当前试验选择的影响均降低。然而,这种减少在甲基苯丙胺组中显著更大(图3C,D,左)。甲基苯丙胺选择性地破坏了大鼠适当地使用负面结果来指导其决策的能力。

  (A)左图:选择与最高强化第二阶段期权相关的第一阶段期权的概率[ p(正确阶段1)]和选择最高强化第二阶段期权的概率[ p在(空心条形)之前和之后(实心条形)自我给药的盐水/对照大鼠中(校正阶段2)]。右图:根据先前的试验结果选择相同的第一阶段选择的概率(即奖励与未奖励)。下图:比较各个大鼠自我给药会话之前和之后的这些依赖性测量的散点图在每个条形图下方呈现,其中平均值由蓝色符号表示。(B)左图:选择与最高强化第二阶段期权相关的第一阶段期权的概率[ p(正确阶段1)]和选择最高强化第二阶段期权的概率[ p (正确)阶段2)]在大鼠之前(空心条形)和之后(闭合条形)甲基苯丙胺自我管理。右图:根据先前的试验结果选择相同的第一阶段选择的概率(即奖励与未奖励)。下图:在每个条形图下方显示比较各个大鼠自我给药期之前和之后的这些依赖性测量值的散点图,其中平均值由红色符号表示。** p .01。(C)从逻辑回归得到的回归系数在自我给药期之前(空心条形)和之后(实心条形)对照/盐水大鼠中的模型。左:来自逻辑回归模型的回归系数检验先前试验结果对当前选择的影响。右:来自简单逻辑回归模型的回归系数检验奖励和未奖励结果对当前选择的独立影响。下图:比较各个大鼠自我给药会话之前和之后的这些依赖性测量的散点图在每个条形图下方呈现,其中平均值由蓝色符号表示。*** p .001。(d)回归系数来自甲基苯丙胺大鼠的逻辑回归模型(空心条形)和之后(实心条形)自我给药期。左:来自逻辑回归模型的回归系数检验先前试验结果对当前选择的影响。右:来自简单逻辑回归模型的回归系数检验奖励和未奖励结果对当前选择的独立影响。下图:在每个条形图下方显示比较各个大鼠自我给药期之前和之后的这些依赖性测量值的散点图,其中平均值由红色符号表示。*** p .001。reg coeff,回归系数。

  应用于概率MSDM任务的选择数据的逻辑回归揭示了显著的毒品×时间×结果相互作用和显著的毒品×时间×按结果转换的交互作用(图4A,B)。这些结果表明,与对照/盐水大鼠相比,暴露于甲基苯丙胺后的大鼠中无模型和基于模型的学习均降低。类似地,从混合RL模型中检验到βMB和βMF值由甲基苯丙胺诱导地递减。得注意的是,通过计算结果和逐个结果回归系数之间的角度坐标来衡量基于模型和无模型学习之间的平衡,这反映了无模型和基于模型的策略的相对权重,不受甲基苯丙胺自我给药影响(补充图S7)。这表明接触甲基苯丙胺并没有改变无模型和基于模型的行为影响的平衡,而是类似的中断两种策略。无模型行为的差异与对照/盐水大鼠或甲基苯丙胺暴露大鼠中基于模型的行为的差异无显著相关性。说明这两个学习系统的可独立调节的事实表明,他们可能不总是直接竞争。

  (A)来自逻辑回归模型的回归系数检验先前试验事件对概率多阶段决策(MSDM)任务(空心条形)和之后(闭合条形)的相同第一阶段选择持续存在的可能性的影响)对照/盐水大鼠的自我给药。在个体大鼠自我给药之前和之后的回归系数之间的关系在条形图下方呈现,其中平均值由蓝色符号表示。另见补充图S6。(B)来自逻辑回归模型的回归系数检查先前试验事件对在甲基苯丙胺大鼠中自我给药之前(空心条形)和之后(实心条形)的概率性MSDM中持续相同第一阶段选择的可能性的影响。在个体大鼠自我给药之前和之后的回归系数之间的关系在条形图下方呈现,其中平均值由红色符号表示。*** p .001。另见补充图S6。(C)的权重的自由参数估计基于模型的学习(βMB)和无模型学习(βMF)从混合强化学习模型中获得,表征在对照/盐水大鼠中自我给药之前(空心条形)和之后(实心条形)的概率性MSDM任务中的选择。在个体大鼠自我给药之前和之后这些参数之间的关系呈现在条形图的右侧,其中平均值由蓝色符号表示。另见补充图S6。(d) 的βMB和βMF从混合强化学习模型获得的估计值表征在甲基苯丙胺大鼠中自我给药之前(空心条形)和之后(实心条形)的概率性MSDM任务中的选择。在个体大鼠自我给药之前和之后这些参数之间的关系呈现在条形图的右侧,其中平均值由红色符号表示。** p .01; #p = 0.08。另见补充图S6。(E)无模型回归系数(例如,结果)的变化(自我管理前后)与基于模型的回归系数(例如,按结果的转换)的变化之间的关系/盐水大鼠。也可以看看补充图S7。(F)甲基苯丙胺大鼠中无模型回归系数(例如,结果)的变化(自我管理前后)与基于模型的回归系数(例如,按结果转换)的变化之间的关系。另请参见补充图S7。Δ,改变; reg coeff,回归系数; Trans×Out,按结果转换。

  目前的研究表明,无模型RL预测毒品自我给药,在戒断甲基苯丙胺自我给药后,无模型和基于模型的RL均受损。本研究的数据表明,成瘾的脆弱性可能是由奖励驱动的无模型学习中预先存在的差异所介导的,而毒品引起的决策缺陷是由于与无奖赏结果相关的基于模型和无模型计算的中断造成的。因此,在成瘾的个体中观察到的强迫行为可能是既往存在的异常无模型RL和无模型与基于模型的系统的毒品诱导的功能障碍的结果。总之,这些结果表明影响毒品自我管理启动的潜在决策过程不同于受慢性毒品使用影响的那些,并提供了一个新的框架,用于解决与成瘾相关的成瘾易感性相关的神经生物、病理学机制。

本文由澳门新葡亰官网app发布,转载请注明出处:BP:成瘾相关行为中的无模型和基于模型的影响