如何使用gym库定义一个信道分配离散分配动作空间,信道分配动作alpha为n×m维,每一个元素用户占用信道的情况, C2表示每个信道只能被一个用户占用, C3表示向每个用户只占用一条信道enter image description here
如果将该动作输入策略网络中动作的维度是m×n吗,策略网络的输出是概率的分布,怎么转化为具体的动作
利用gym库的spaces.MultiBinary()函数定义了,但无法满足约束条件,如果使用穷举法,太复杂了,求帮助
New contributor
nini is a new contributor to this site. Take care in asking for clarification, commenting, and answering.
Check out our Code of Conduct.