图中从左到右分别是区域信息采集系统的不同时刻状态,在图(a) 中,左侧的八个 小船代表八个用IC MARL 算法模型控制的智能体,智能体的数目是可以动态修改 的,蓝色的八边形框代表的是目标海域,在本章中范围大小是3x5 海里,在系统运行的 整个过程中,智能体不能离开该区域,否则也算作任务失败,这也是评价算法性能的一 个指标,目标海域的范围也可以动态修改。图中的红色区域代表的是禁航区域,这是考 虑到实际情况中可能会存在一些危险区域,这在系统运行过程中也是不可以进入的,蓝 色圆圈代表静目标的可探测范围,也就是说,当智能体到达蓝色圈边缘时,就可以对静 目标进行探测,其中的红色圈代表...
右侧的模块则代表的是T_QMIX 算法种QMIX 的核心,这是一种超网络(hyper network)结构,这样设计的目的是尽可能多的利用到系统场景的全局状态信息,主要的 网络层是全连接MLP 层,st 代表的是在t 时刻系统场景的全局状态信息,Qa( a; at )(a = 1; 2; :::;N) 则是由上述单智能体网络输出的动作价值,W1 为网络的第一层权值,W2 为 网络的第二层权值。此网络的输入时单智能体的动作价值和全局状态信息,输出则为混 合网络的权值,真实全局动作价值Qjt(; )。T_QMIX 算法的主要贡献是通过将个体 全局最大化条件转换成新的单调性约束...
右侧的模块则代表的是T_QMIX 算法种QMIX 的核心,这是一种超网络(hyper network)结构,这样设计的目的是尽可能多的利用到系统场景的全局状态信息,主要的 网络层是全连接MLP 层,st 代表的是在t 时刻系统场景的全局状态信息,Qa( a; at )(a = 1; 2; :::;N) 则是由上述单智能体网络输出的动作价值,W1 为网络的第一层权值,W2 为 网络的第二层权值。此网络的输入时单智能体的动作价值和全局状态信息,输出则为混 合网络的权值,真实全局动作价值Qjt(; )。T_QMIX 算法的主要贡献是通过将个体 全局最大化条件转换成新的单调性约束...