右侧的模块则代表的是T_QMIX 算法种QMIX 的核心,这是一种超网络(hyper
network)结构,这样设计的目的是尽可能多的利用到系统场景的全局状态信息,主要的
网络层是全连接MLP 层,st 代表的是在t 时刻系统场景的全局状态信息,Qa( a; at
)(a =
1; 2; :::;N) 则是由上述单智能体网络输出的动作价值,W1 为网络的第一层权值,W2 为
网络的第二层权值。此网络的输入时单智能体的动作价值和全局状态信息,输出则为混
合网络的权值,真实全局动作价值Qjt(; )。T_QMIX 算法的主要贡献是通过将个体
全局最大化条件转换成新的单调性约束2.4, 从而使得本算法能够贪心地通过个体动作价
值获取最优动作, 在此网络中,为了保证权值的非负性和单调性,则使用线性网络加绝
对值来实现。