具有学习机制的列车运行调度Ａｇｅｎｔ

作者：浏览数：次关键词：调度列车机制运行学习

摘要:为提高列车运行调度的智能性,分析了列车运行调度活动,采用agent技术建立了具有学习机制的列车运行调度agent结构,学习机制包含自学习机制和它学习机制,并详细论述了学习机制。通过采用原京沪高速铁路数据建立仿真平台对具有学习机制的列车运行调度agent进行了验证,结果表明,采用具有学习机制的列车运行调度agent可提高列车运行调度系统的智能性,调度决策所用时间缩短一半左右。

关键词:agent;列车运行调度;学习机制

中图分类号:U292 文献标识码:A 文章编号:1009-3044(2009)15-3984-03

Train Operation Dispatch Agent With Learning Machinery

LI Mei-yue, WANG Hong-gang

(School of Electrical Information Engineering, Taiyuan University of Science & Technology, Taiyuan 030024, China)

Abstract: In order to improve the intelligence of train operation dispatch, by analyzing train operation dispatch activity and using agent technology, the agent architecture with learning machinery for train operation dispatch was built, which includes self-learning machinery and other-learning machinery, and the learning machinery was described in detail. The agent architecture was verified in the simulation system using the Jing-Hu high-speed railway data. The result indicates that the agent architecture with learning machinery could improve the intelligence of train operation dispatch, and the time to make dispatch decision is about one half of the time to make dispatch decision without the learning machinery.

Key words: agent; train operation dispatch, learning machinery

1 引言

客运专线的建设和列车的高速运行一方面给铁路运输带来了新的曙光,另一方面列车的高速运行使得列车运行过程变得更为复杂,列车的安全隐患和不可控因素比以往更高。与既有線相比,客运专线对列车运行调度系统的性能提出了更高的要求,要求列车运行调度系统具有更好的实时性、智能性和交互响应特性。这就要求寻求新的控制策略以满足列车的高速运行以及安全、正点、舒适的多目标要求。

目前,MAS技术已成为研究列车运行调度的重要手段之一,并取得了一定的成果。乐逸祥[1]采用agent模式对空车调整决策系统进行了研究,提出了基于agent的空车调整决策系统的总体结构;邹晟[2]采用Multi-agent技术设计了列车速度联控仿真系统的结构和运行控制模型;王宏刚[3]对MAS在行车调度中的应用进行了研究,提出行车调度agent结构并对agent之间的协作方法进行了研究。但是这些研究成果没有考虑知识重用的问题,即未能有效的实现调度重用。刘弘[4-5]在分析现实设计活动的基础上,提出了一种支持设计环境中学习的软件设计agent的框架结构。

本文在研究了上述文献的基础上,提出了支持学习机制的列车运行调度agent,这种机制允许把agent在列车运行调度中学到的知识进行聚合和改造,用来进行新的调度,从而实现调度重用。

2 agent基本结构和列车运行调度活动分析

2.1 agent基本结构

agent是一个封装好的计算实体,它能够根据生存环境的变化自主灵活地进行活动以完成任务,达到目标。它不仅能作用于自身,而且可以施动作于环境,并能接受环境的反馈信息,重新评估自己的行为。同时,它能通过与其它agent协同工作以完成更复杂的任务。agent由于具有自主性、交互性、主动性、社会性和反应性等特性,因而在许多领域中得到应用。

agent的基本结构由五部分组成:感知模块、目标模块、信息处理器、通信模块和执行模块,如图1所示。其中感知模块、执行模块和通讯模块负责与系统外部环境和其它agent进行交互,目标模块为该agent所要完成的功能和任务,信息处理器负责对感知和接收到的信息进行加工、处理和存储,并对信息进一步分析推理,为进一步通讯做出合理的决策,并激活相应的部件。

agent的整个工作流程构成了一个闭环反馈系统,如图2所示。其中,感知模块时刻对外界环境进行感知,获取外界环境信息;信息处理模块根据目标和外界环境信息及时做出决策,使得外界环境的状态向目标靠近。当单个agent无法完成决策任务时,agent会通过通信模块与其它agent进行协作和协商以完成任务。

信息处理模块是agent结构中的一个核心模块,对信息的不同处理方式构成了不通类型结构的agent。如采用传统人工智能中的符号推理法形成了慎思式agent,采用基于言语动作理论构成了反应式agent,采用两种方法的混合则形成了混合式agent。agent的智能特性主要是通过信息处理模块体现出来的。

2.2 列车运行调度活动分析

由于列车在运行过程中不可避免地遇到各种因素的干扰,如铁路沿线的自然状况、各种设备故障等,列车的运行秩序往往会发生紊乱。当列车运行秩序发生紊乱时,在保证列车安全运行的前提下,如何在尽可能短的时间内恢复列车的正常运行是列车运行调度的主要任务。目前,国内铁路运输调度部门主要是通过“调度员+机器”方式来完成对列车的运行调度。机器向调度员提供列车群的运行状况(如列车位置、速度)和各车站的状况(如进路办理状况等),调度员根据机器提供的信息来实时对列车的运行做出调整。列车运行调度主要是依靠调度员的经验来进行,即对信息的处理主要是调度员来完成。

通过分析,列车运行调度员的每一次调度活动可以用一个五元组来表示:

调度活动def=(Id,Dt,Od,Gd,Td)。

其中,Id是输入(列车群运行状况等),Dt是转换器(实现从输入到输出的转换),Od是输出结果(调度决策),Gd是调度目标(列车运行计划),Td是调度活动触发器。调度活动的流程如图3所示,图中的粗线表示信息流,细线表示控制流。

图3表明通过与调度目标Gd进行比较,Dt实现输入Id到输出Od的转换。当调度目标Gd没有被满足时,驱动触发器Td与输入Id形成一个调度循环,直到找到满足目标Gd的决策。从图3可看出,列车运行调度的关键在于Id到Od之间的转换,即Dt。列车运行调度的最理想情况是一次将输入Id成功转换成满足目标Gd的输出Od。但是最优调度决策的制定往往需要消耗比较长的时间。由于列车的高速运行需要在很短时间内做出调度决策,因此列车运行调度活动的关键在于如何在较短的时间内找到满意的调度决策。

3 具有学习机制的列车运行调度agent

根据对agent基本结构和列车运行调度活动的分析,为使列车运行调度系统具有更好的智能特性,本文提出了具有学习机制的列车运行调度agent。

列车运行调度agent是以某种方式协助列车运行调度人员完成调度任务的软件,在多agent系统中通过与调度员及agent之间的交互实现学习,从而不断地提高自身的能力。具有学习机制的列车运行调度agent结构如图4所示。图中的粗线表示信息流,细线表示控制流。其中:

输入接口:获取外界环境信息,如铁路沿线的自然状况、各种设备状况以及列车的运行位置等,并把它们传给调度目标和信息处理与决策模块。它还从通信模块获得信息,转换后将其传出。

通讯模块:从其它agent或外界环境处接受消息,并把消息传给输入接口。

信息处理与决策模块:它是基于知识的转换模块,它把输入转化为输出。信息处理模块负责对感知到的外部环境信息和其它agent的通讯信息进行加工、处理和存储。

调度目标:在列车运行调度中,调度目标也就是列车计划运行图。

内部知识库:保存列车运行调度agent的调度经验,方便其后的调度活动学习、采纳其知识和经验。

调度触发器:它是一个触发调度活动的构件,由“事件-条件-动作”规则组成。agent通过其变换规则、约束检查及“事件-条件-动作”自动地执行调度任务。用户输入、通讯模块及调度产生的输出触发agent的调度触发器,激活学习机制,从而产生新的知识、更新知识库。

学习机制:负责对agent的知识库进行维护,包括新知识的加入和过时知识的删除。调度agent的学习包括两个方面:一方面是对其自身参与任务求解过程中的经验和知识的积累,这种积累为以后遇到类似任务时能够更快、更准确的执行奠定了基础;另一方面是吸取其它agent的经验和知识。前一方面是agent自己学习的过程,后一方面是向其它agent学习的过程。

4 调度agent的学习机制

4.1 多agent列车运行调度系统结构

多agent列车运行调度系统是一个分布式计算机辅助系统,它为调度员提供辅助决策支持。在调度过程中,多个调度agent对不同来源的信息进行同步处理,并在调度员的参与下通过协作共同完成对列车运行的调度。多个调度agent通过网络相连,在冲突协调agent和公共知识库维护agent的帮助下协同工作。多agent列车运行调度系统的框架结构图如5所示。

在正常情况下,各调度agent各司其职,根据内部知识库中的知识对管辖范围内的列车和车站进行调度(如办理进路等)。在异常情况下,调度agent首先根据内部知识库中的知识对列车进行调度,若内部知识库不存在类似的知识,则在公共知识库中查找类似知识。若公共知识库也不存在类似知识,则调度人员通过与调度agent之间的交互以及各调度agent之间的协作对列车进行调度,调度完毕之后将产生的调度知识存入公共知识库,以备后用。

4.2 调度agent的学习机制

调度agent的学习机制包含自学习机制和它学习机制两方面的机制。自学习机制是对其自身参与任务求解过程中经验和知识的积累;它学习机制是吸取其它agent和调度员的经验和知识。调度agent的学习流程如图6所示,具体描述如下:

1)调度触发器触发调度活动;

2)调度agent在内部知识库中查找调度方案或类似的调度方案,即进行自学习;

3)若找到调度方案,且调度方案合理,则在调度员的参与下对调度方案进行修正,并将调度方案作用于外界环境,转(10)。若找不到调度方案,转(6);

4)若找到的调度方案不合理,则agent进行慎思产生新的调度方案;

5)将新调度方案存入内部知识库,即积累知识,并将新调度方案作用于外界环境,转(10);

6)调度agent在外部知识库中查找调度方案,即进行它学习,吸取其它agent的知识;

7)若找到调度方案,则在调度员的参与下对调度方案进行修正,并将调度方案作用于外部环境,转(10);

8)若没有找到调度方案,则调度agent在协调agent的指导下,通过与其它调度agent进行协作產生新的调度方案;

9)将新的调度方案存入公共知识库,并将新的调度方案作用于外部环境;

10)调度结束。

在调度agent学习过程中,agent首先查找内部知识库,即向自身的经验进行学习。若存在所需的调度方案则直接使用以往的经验对列车进行调度;若找不到,则调度agent进行知识推理,产生新的调度方案,并将调度方案存入内部知识库中,即积累经验,以备后用。

若内部知识库中不存在所需要的调度方案,则调度agent在公共知识库中进行查找,即向其它agent进行学习。若公共知识库中不存在所需要的调度方案,则调度agent通过与其它调度agent协作产生新的调度方案,调度方案在存入外部知识库后作用于外界环境。它学习过程与黑板学习机制类似,公共知识库类似于黑板。

另外,为防止随着知识库中知识的增加而引起查找时间的增加,知识库维护agent需要定期对知识库中过时的知识进行删除。

5 应用和结论

以原京沪高速铁路数据为例,仿真系统模拟了32个车站(包含一个线路所)和2个调度中心(北京和上海),4个调度agent(北京、上海各2个),全线长1320公里。仿真系统中所有agent全部采用软件实现,语言采用Visual C++6.0。规划数据库中的预案以“IF-THEN”形式存储,反应部件的推理采用数据驱动的方式进行推理。实验目的是验证调度agent的效率。实验结果表明,具有学习机制的调度agent和不具有学习机制的调度agent在系统运行的初期,几乎具有相同的效率,即产生调度方案的时间相近。随着系统运行时间的延长,具有学习机制的调度agent产生调度方案所需时间是不具有学习机制的调度agent产生调度方案所需时间的二分之一左右,即效率提高了一倍。在系统运行前期,两种agent产生调度方案所需时间相近是因为具有学习机制的调度agent缺乏经验。

列车的运行调度是一个复杂的问题求解过程,合理利用调度员的经验及成功的调度知识,能改善调度员和列车运行调度系统的能力。本文在分析了agent基本结构、列车运行调度活动的基础上,提出了一种具有学习机制的列车运行调度agent,并详细阐述了学习机制。

参考文献:

[1] 乐逸祥,周磊山.基于Multi-agent的列车速度联控系统的仿真研究[J].系统仿真学报,2004,16(12):2647-2654.

[2] 邹晟,张喜,王国旗.基于agent模式的空车调整决策系统的研究[J].铁路计算机应用,2003,12(5):8-11.

[3] 王宏刚.MAS在行车调度系统中的应用研究[D].铁道部科学研究院,2006.

[4] 刘弘,刘希玉.支持设计环境中学习的多agent系统[J].小型微型计算机系统,2002,23(3):330-333.

[5] 刘弘,曾广周,林宗楷.一种面向agent的设计过程模型[J].小型微型计算机系统,1998,19(6):23-28.