书合文秘网 - 设为首页 - 加入收藏
当前位置 首页 > 范文大全 > 公文范文 >

基于强化学习视角的情绪调节研究及展望

作者: 浏览数: 关键词: 视角 展望 强化 调节 情绪

摘 要 情绪调节在强化学习视角下可以被视为旨在达到预期情绪状态的一系列行为决策过程。为进一步探究强化学习视角下的情绪调节内在过程和计算机制,首先要理解评价在情绪产生和调节过程中的重要作用,一些研究者基于此构建了与评价相关的情绪及情绪调节过程模型。此外,强化学习视角下的情绪调节过程和机制的未来研究应考虑如下方向:(1)基于强化学习视角进一步探究情绪调节分类及动态变化; (2)探究强化学习视角下情绪调节过程的脑网络整合(而非单一脑结构或回路)机制; (3)人工智能研发采用去模块化理念处理情绪与认知等其他成分的关系。

关键词 情绪调节; 强化学习; 展望

分类号 B842.6

1 引言

情绪调节是个体通过改变自身情绪体验的强度、持续时间和品质等来改变情緒反应的过程(Gross, 1998)。自这一概念提出以来,越来越多的行为以及神经科学研究将情绪调节作为核心问题来探讨,有证据显示,在2002至2012年这段时间,有关“情绪调节”的研究数量有了近40倍的增长(Gross, 2013)。当前对情绪调节的研究有两大趋势,一是由有意情绪调节转向自动情绪调节(高伟, 陈圣栋, 龙泉杉, 杨洁敏, 袁加锦, 2018),并且通过各种内隐情绪任务探究其特征及神经机制(Gallo, Keil, McCulloch, Rockstroh, & Gollwitzer, 2009; Yuan, Ding, Liu, & Yang, 2015; Yang, Tang, Gu, Luo, & Luo, 2015; Urbain, Sato, Pang, & Taylor, 2017); 二是深入探讨情绪调节与各类精神病理问题的关联(Aldao, Nolenhoeksema, & Schweizer, 2010),一些研究者甚至将情绪调节障碍列为多种精神病症的共性风险因素(Fernandez, Jazaieri, & Gross, 2016)。 但一直以来,对情绪调节内在决策过程及计算机制的研究还相对较少,而强化学习这一视角为我们进一步理解情绪调节的内在过程及机制提供了一种可能性。

基于强化学习理论,个体要根据刺激对自己有利还是有害而持续不断地做出选择,并且因预测偏差而不断修正各个选择的效价估计进而影响其后续行为。在这一视角下,情绪调节同样可以看作一系列行为决策过程(Etkin, Büchel, & Gross, 2015)。要进一步解释情绪调节的决策计算过程,首先要理解评价在情绪产生及调节过程中的作用。在Gross等人先前提出的情绪产生模型中,评价处于情绪线性过程的第三阶段; 而在其情绪调节过程模型中,有情境选择、情境修正、注意分配、认知改变以及反应调整五种调节方式,评价过程对应于认知改变(Sheppes,Suri, & Gross, 2015)。之后他们又在评价理论视角下进一步提出情绪调节的扩展过程模型-WPVA模型,这一模型更加强调评价在情绪以及情绪调节过程中的核心作用并且将情绪调节过程模型整合进来(Gross, 2015)。在此基础上,Etkin等人在强化学习视角下深入分析了情绪调节过程,并探究了其计算实现机制并将情绪调节视为一个决策过程模型(Etkin et al., 2015)。理清强化学习视角下的情绪调节过程对我们深入分析情绪调节分类及动态变化性有着积极意义,当前研究已经逐渐从单维度模式(如内隐/外显)转向多维度模式(如内隐/外显以及自动/控制)(Braunstein, Gross, & Ochsner, 2017)。此外,如何从神经层面为强化学习视角下的情绪调节模型提供支持是未来研究需要解决的,基于Pessoa提出的脑网络整合系统理论(Pessoa, 2017a),应从脑全局网络而非单一结构或回路的角度对其进行解释。进一步地,情绪调节过程同样对人工智能设计有着一定启发作用,模块化思路或更具体来说,将情绪与认知分离的做法已经越来越不能满足人们对人工智能的需求,去模块化设计(情绪-认知整合)是未来人工智能的新方向(Pessoa, 2017b)。

2 评价与情绪调节

评价与强化学习理论有着密切关联:个体需要对行为决策价值进行评价并通过预测偏差来加以修正。但在以往很长一段时间中,对评价和情绪调节两个主题的研究处于相对分离的状态,少有学者对评价在情绪调节中的作用进行探究(Smith & Kirby, 2011)。因此探究强化学习视角下的情绪调节,可先从理论上整合评价与情绪调节,而情绪产生与情绪调节又是不可分割的统一整体,因此,需要对评价与情绪产生以及评价与情绪调节的关系作分别探讨。

2.1 情绪产生评价模型

评价理论关注某一情境对个体的意义所在。例如,阿诺德的情绪认知评价理论认为,外界刺激唯有经过个体评价才能诱发情绪(Arnold, 1960)。而拉扎勒斯进一步将阿诺德的评价扩展为评价以及再评价过程,认为每种情绪都包含有生理、行为以及认知三种成分,并且必须通过个体对情绪刺激的评价以及引发的身体反应而得到(Lazarus, 1993)。而在这些评价模型的基础上,Moors (2013)加入了情绪的五种评价维度,如图1所示:情绪评价包含相关性、效价、可能性、代理性以及应对潜力五种维度。

其中,相关性指某一情境对个体当下目标的重要性程度(Smith & Lazarus, 1990); 效价指某一情境对个体的积极或消极程度,基于的是该情境的相对(非)愉悦性和动机一致性程度(Smith & Ellsworth, 1985); 可能性包含对当下情境的确认性、未来期望以及该情境在未来的可变性(Roseman, 2013); 代理性包含问责、责任心以及因果归因(Smith & Ellsworth, 1985; Smith & Lazarus, 1990); 最后应对潜力指个体已有的应对方式,不管是改变还是适应当下情境(Smith & Lazarus, 1990)。基于这五个维度,个体对每种刺激进行评价进而做出相应的情绪反应。结合强化学习理论,可以认为个体通过这五个维度对每种情绪反应的奖惩效价进行评估,并通过实际结果与预期结果间的预测偏差来调整该情绪反应的决策价值进而对接下来的评价过程产生影响。

相关文章:

Top