基于超模博弈的认知无线Ad hoc网络分布式功率控制技术

引用本文

李湘鲁, 侯冬, 田杰. 基于超模博弈的认知无线Ad hoc网络分布式功率控制技术[J]. 重庆大学学报, 2021, 44(9): 117-131. DOI: 10.11835/j.issn.1000-582X.2021.09.012.

LI Xianglu, HOU Dong, TIAN Jie. Distributed power control technique of cognitive radio Ad hoc network based on supermodel game[J]. Journal of Chongqing University, 2021, 44(9): 117-131. DOI: 10.11835/j.issn.1000-582X.2021.09.012.

基金项目

中国工程物理研究院基础研究基金（CX20200010）；国家自然科学基金资助项目（61771410，61871084，61601084）

通信作者

田杰(1982-), 男, 博士, 副研究员, 主要从事无线网络优化和高精度时频同步方向研究, (Tel)0816-2487566, (E-mail)tianjie@caep.cn

作者简介

李湘鲁(1983-), 男, 博士, 副研究员, 主要从事数字信号处理、无线通信系统和无线网络优化等研究, (Tel)0816-2484567, (E-mail)bluelxl@163.com。

文章历史

收稿日期: 2020-01-12

Contents Abstract Full text Figures/Tables PDF

基于超模博弈的认知无线Ad hoc网络分布式功率控制技术

李湘鲁 ¹, 侯冬 ², 田杰 ¹

1. 中国工程物理研究院电子工程研究所, 四川绵阳 621900;
2. 电子科技大学自动化工程学院, 成都 611731

收稿日期: 2020-01-12

基金项目: 中国工程物理研究院基础研究基金（CX20200010）；国家自然科学基金资助项目（61771410，61871084，61601084）

作者简介: 李湘鲁(1983-), 男, 博士, 副研究员, 主要从事数字信号处理、无线通信系统和无线网络优化等研究, (Tel)0816-2484567, (E-mail)bluelxl@163.com.

通讯作者: 田杰(1982-), 男, 博士, 副研究员, 主要从事无线网络优化和高精度时频同步方向研究, (Tel)0816-2487566, (E-mail)tianjie@caep.cn.

摘要: 考虑一种交织（Interweave）模式下的单跳认知无线Ad hoc网络（CRAHN）应用场景，针对次用户（SU）组成的Ad hoc网络提出一种分布式功率控制技术，以最大化提高次网络容量。SU网络通过频谱感知来探测主用户（PU）所在授权频段的使用情况。一旦授权频段空闲，次网络中的SU将利用授权频谱进行并发通信，目标是通过优化各SU的发射功率，以达到次网络频谱效率最大化。首先根据应用场景给出了网络容量优化近似模型，为了解决该非凸问题，将网络容量优化模型建立为等效博弈模型，并在不同的SINR条件下证明了Nash均衡的存在性和唯一性，最终提出基于Gradient Play的分布式功率控制算法来实现资源最优分配。仿真结果表明，该算法可在保证收敛性的同时、支持一定的并发通信用户数、提高该网络系统的频谱效率。

关键词: 频谱效率认知无线Ad hoc网络 Gradient Play 超模博弈

Distributed power control technique of cognitive radio Ad hoc network based on supermodel game

LI Xianglu ¹, HOU Dong ², TIAN Jie ¹

1. Institute of Electronic Engineering, China Academy of Engineering Physics, Mianyang, Sichuan 621900, P. R. China;
2. School of Automation Engineering, University of Electronic Science and Technology of China, Chengdu 611731, P. R. China

Supported by the Fundamental Research Foundation from Chinese Academy of Engineering Physics(CX20200010) and Supported by National Natural Science Foundation of China (61771410, 61871084, 61601084)

Abstract: In this paper, a distributed power control technique is proposed for Ad hoc network composed of secondary users (SU) within a single-hop cognitive radio Ad hoc network (CRAHN) application scenario in Interweave mode to maximize the capacity of the secondary network. Once authorized spectrum becomes idle, SUs in the secondary network will use authorized spectrum for concurrent communication, which aims at optimizing the transmission power of each SU so as to optimize the network spectrum efficiency. We first introduce the optimization approximation model of network capacity according to the given application scenario. In order to solve the non-convex problem, we establish the equivalent game model based on the network capacity optimization problem. Then we prove the existence and uniqueness of Nash equilibrium under the condition of different SINR. Finally, we propose a distributed power control algorithm based on Gradient Play method to realize optimal resource allocation. Simulation results show that the proposed algorithm can support a certain number of concurrent communication users and improve the spectral efficiency of the network system to a certain degree.

Keywords: spectral efficiency cognitive wireless Ad hoc network Gradient Play supermodel game

数十年来，无线网络技术得到了空前发展，通信终端规模和无线数据业务量也呈现井喷式增长，频谱资源日渐稀缺，频谱分配饱和与频谱利用率低下也亟待解决。认知无线网络(CRN，cognitive radio network)技术允许多个次用户(SU，secondary user)通过频谱感知来探测授权频谱上主用户(PU，primary user)的活动性，利用动态频谱接入(DSA，dynamic spectrum access)来提高频谱利用率，在保证PU通信的前提下增加SU网络传输的业务种类和质量^[1-2]。其中，干扰管理的功率控制、吞吐量优化及能量优化问题得到广泛关注。

单跳认知无线Ad hoc网络(CRAHN，cognitive radio ad hoc network)并发通信场景由PU系统和SU系统组成。其中，PU对授权频段具有绝对优先使用权，以一定概率随机使用授权频段信道；而各SU组成的分布式网络，缺乏中心设施的统一资源调度，各节点发射机的不同功率等级将对网络系统带来不同性能影响和网内干扰效果。因此，多个SU节点需通过分布式功率控制方法在最大化提高频谱效率(SE，spectrum efficiency)同时减轻网内干扰。CRAHN中的SU主要采用交织(interweave)、覆盖(overlay)和重叠(underlay)模式来访问授权频谱^[1]。在Underlay模式下，SU可使用不超过干扰阈值的功率与PU进行数据并行传输^[2]。在Overlay模式下假设PU与SU间存在良好合作关系，SU需要进行频谱感知并同时服务自己与PU的通信业务^[3-4]。在Interweave模式下，SU同样使用频谱感知探测频谱空洞，但SU网络独立通信、不需要将额外能量消耗在协助PU上^[4]。

CRAHN中的SU系统一般包含多个ST(second-user transmitter)到SR(second-user receiver)的收发通信对，且SU系统将在不影响PU业务QoS前提下，对多种业务数据进行传输，这些SU数据业务和节点不区分优先级，得到各节点地位对等的CRAHN系统。由于可用频谱资源受到限制，所有节点需要共享频谱资源进行并发通信，授权频谱通过采用Interweave模式进行共享。因此，SU系统所有节点需要先通过频谱感知技术判断PU是否占用频谱，若信道为占用状态，则次用户继续等待；反之，次用户对授权频谱进行利用。这种机制可确保SU系统在PU空闲时对授权频谱加以利用，满足SU系统数据传输的需求，也可避免对PU传输造成干扰影响；另一方面，在针对多目标的遥测网络数据传输中，SU可根据信道中干扰强度变化，发现和规避干扰。

目前，有大量CRN频谱效率优化研究的文献[5-9]：1)一些方法针对Underlay频谱共享方式下的CRN系统^[10-13]，该模式下PU和SU需要共存。针对Interweave模式的研究一部分聚焦于频谱感知^[14-15]、PU检测率和虚警率的改善^[16]，但这类性能讨论并未与SU网络容量挂钩；另一部分基于感知频谱共享研究SU网络遍历容量最大化^[17-20]，但文献[17-20]等仅针对单个SU用户进行链路容量优化，而文献[19]需要SU基站进行协同感知的信息融合和判决。因此，需要对多个CR用户在Interweave模式下组成的次用户网络容量优化问题及其功率控制方法进行研究；2)在Interweave模式中，SU网络可在PU空闲时占用授权频谱进行通信，且不用考虑对PU的干扰，在PU空闲时可将SU网络近似看做无线Ad hoc网路。目前已有一些基于博弈理论以网络容量最大化为目标提出相应功率控制算法的研究^[21-26]。为简化分析难度，一些研究基于高SINR假设下将香农容量进行了近似^[26]，或针对特殊的网络结构(如正交多址NOMA等)进行信道增益等参数的序列假设^[21-22]，缺乏对一般SINR条件下博弈模型相关性质的深入分析。因此，需要考虑移动设备所受硬件水平和处理速度的限制，控制各用户间信息交互量并降低算法复杂度，对CRAHN的SU节点之间的干扰进行补偿、并达到SU网络容量最大化目的。

本研究有3个主要贡献：1)根据约束条件建立CRAHN容量模型并转化为等效博弈模型，利用KKT条件引入代表干扰代价的新变量；2)针对不同SINR和用户数条件下的等效博弈模型进行了等效博弈模型的超模性证明；3)提出该场景下基于Gradient Play方法的分布式资源分配算法，并在不同功率、干扰和QoS条件下进行仿真，该算法所需交换信息少，相比Best Response方法具有更稳健的收敛性保证。

1 系统模型

设想一个由单个PU和SU网络组成的通信应用场景。SU网络包含L={1, …, L}条收发通信链路，每条通信链路分别包含一个SU发射机ST_l和一个SU接收机SR_l，SU网络节点均采用Interweave方式与PU共享频谱，在不影响PU业务QoS的前提下，对多SU数据业务进行不区分优先级的单跳并发传输，构成由多个对等SU节点组成的单跳CRAHN系统，如图 1所示。假设用户位置均匀分布在可互相影响的同区域内，网络中不存在中心设施，所有SU对一定带宽的授权频谱进行共享。PU具有较高QoS要求，若主系统和次系统同时工作，则次系统将严重影响主系统传输性能，因此，主系统和次系统不能同时工作；另一方面，SU网络中各用户间的并发传输会不可避免地产生用户间干扰(MUI，multi-user interference)。假设SU网络内各SU都可得到信道状态信息(CSI，channel state information)完全知识，以及所有信道遵循块衰落(block fading)方式，即在数据帧周期内信道增益(channel gain)为常数，但不同时隙之间的信道增益可能不同。

图 1 4个用户组成的CRAHN网络架构 Fig. 1 CRAHN network architecture composed of 4 users

1.1 频谱感知过程

根据CR技术的Interweave模式思想，每个数据帧(时隙)可分为2个阶段：1)各SU首先进行基于能量探测(energy detection)的频谱感知，判断频谱占用情况；2)若频谱被PU占用，则所有SU保持静默；反之，SU网络中所有节点利用分布式功率控制算法最大程度降低网内干扰、提高SU网络容量。假设频谱空洞时间足够SU网络完成多个时隙的频谱感知和数据传输操作，则系统时隙的组成见图 2。

图 2 CRAHN系统时隙结构图 Fig. 2 Time slot structure diagram of CRAHN system

其中，τ为频谱感知时间，T－τ为数据传输时间。可知每帧数据时隙包含：1)频谱感知时间为τ，SU需完成PU状态的确定；2)在T－τ数据传输时间内，SU基于频谱感知结果，决定静默或进行基于功率控制的数据传输。由于SU硬件资源有限，系统中各SU采用能量检测来进行频谱感知以降低运算复杂度。假设所有SU间实现了同步且与PU间距离相近，PT发射功率足够强，使得所有SU对频谱可用性判决一致，SU_l感知到授权频谱上PU存在性可由以下假设表示^[23]

$ H_{l 0}: r_{l}(i)=n_{l}(i), $

(1)

$ H_{l 1}: r_{l}(i)=s(i) g_{s l p}+n_{l}(i), $

(2)

式中: 对l = 1, 2, …, L和i = 1, 2, …, N，L为次系统中SU的个数，N为采样数; H_l0表示SU_l关于PU信号不存在的假设，H_l1表示PU信号存在假设，s(i)和u_l(i)分别表示PU发射信号和SU_l接收机处噪声采样值，均为独立同分布随机变量，并遵循正态分布N(0, σ_s²)和N(0, σ_n²)，g_{s_lp}为从PU发射机到ST_l发射机间的AWGN信道增益，r_l(i)为SR_l处接收信号。若PU占用授权频谱时SU_l感知结果为H_l₁，则认为SU_l做出正确判决，其概率为相应的检测率P_d。反之，PU未占用频谱而SU的检测结果相反，则该概率为虚警概率P_f。因此，SU系统仅在H_l0假设下感知到PU为空闲时，SU才能进行数据传输并产生效用回报，其概率为(1－P_f)，采用香农容量作为SU网络的效用尺度。

1.2 次用户传输容量模型

根据图 2所示系统时隙结构，系统以概率(1－P_f)进行数据传输，使用链路香农容量作为系统效用函数。在表示SU_l所在链路的香农容量时，该函数是关于SU_l接收信干噪比(SINR, signal to interference plus noise power ratio)的函数，即使SINR_l可表示为

$ \gamma_{l}(p)=\frac{p_{l} h_{l l}}{n_{0}+\sum\nolimits_{l \neq k} p_{k} h_{l k}}=\frac{p_{l} h_{l l}}{n_{0}+I_{l}\left(p_{-l}\right)}, $

(3)

式中：p=(p₁, …, p_L)是所有ST的发射功率矢量; h_ll表示从ST_l到SR_l的信道增益; h_lk_表示从ST_k到ST_l的信道增益; n₀_为SR_l的背景噪声且其满足高斯分布n₀~(0, σ²)，使用I_l(p_－l)来表示SU_l所接收到的来自其他用户干扰MUI的总和。

从式(3)中可以看出，由于次用户网络中自干扰的存在，各次用户l的效用函数关于其他SU_k的发射功率变量p_k在分母具有强耦合性。因此，当主用户为空闲且没有虚警发生时，基于香农公式可得到次用户Ad hoc网络效用函数——对数效用函数(logarithmic utility function)，每个SU_l所在链路的香农容量c_l(γ_l)可表示为

$ c_{l}\left(\gamma_{l}\right)=B \log \left(1+\gamma_{l}(p)\right)=B \log \left(1+\frac{p_{l} h_{l l}}{n_{0}+\sum\nolimits_{l \neq k} p_{k} h_{l k}}\right), $

(4)

其中，B为多个SU所占用的总带宽。在SINR远大于1的高SINR场景中，对数效用函数u_l(γ_l)可根据1+γ_l(p)≈γ_l(p)将香农容量近似为u_l(γ_l)=θ_llog(1+γ_l)≈θ_llog(γ_l)，θ_l为网络系统的服务优先级权重因子。换句话说，香农容量可以近似用对数效用函数log(γ_l)进行表示。而在低SINR场景，用户数据率关于SINR呈近似线性的关系，即用户效用函数与容量的对数值成比例变化。接着，综合考虑次用户的虚警和PU的活跃概率等因素，可以得到新的SU_l所在链路的容量公式^[23]

$ \begin{aligned} u_{l}\left(\gamma_{l}\right)=& C_{1} \theta_{1} P_{d}+C_{0} \theta_{1}\left(1-P_{d}\right)+c_{l}\left(\gamma_{l}\right) \theta_{0}\left(1-P_{f}\right)+C_{1} \theta_{0} P_{f} \approx \\ & c_{l}\left(\gamma_{l}\right) \theta_{0}\left(1-P_{f}\right), \end{aligned} $

(5)

其中，θ₁和θ₀为常数，分别为PU忙和空闲的概率。如前所述，次用户系统当且仅当H₀假设下次用户l正确感知PU的空闲状态时才有链路容量回报。假设在本场景中，PU的发射功率非常大，且频谱感知时间足够长，则虚警P_f可忽略且为常数，假设在多个数据时隙内PU均未出现，则θ₁=0，因此在后续的次用户网络容量最大化推导和分布式功率控制算法设计过程中，均不专门对P_f和θ_x进行讨论。SU分配的共享带宽B_w也是常数。设θ_x(1－P_f)B_w=B，即效用函数可转化为u_l(γ_l)=c_l(γ_l)=Blog(1+γ_l(p))，且频谱效率为

$ \mathrm{SE}_{l}\left(\gamma_{l}\right)=\frac{c_{l}\left(\gamma_{l}\right)}{B_{w}}=\frac{B}{B_{w}} \log \left(1+\gamma_{l}(\boldsymbol{p})\right) \approx \log \left(1+\gamma_{l}(\boldsymbol{p})\right)(\mathrm{bit} / \mathrm{s}) / \mathrm{Hz}, $

(6)

1.3 系统问题建模

根据网络效用最大化(NUM，network utility maximization)的相关描述，系统需要在每个SU_l l∈L满足发射功率约束条件的前提下，对SU发射功率矢量p进行控制，以达到SU网络内所有SU效用值总和最大化的目的。需要对链路容量代表的网络效用总和进行优化

$ \begin{aligned} &\operatorname{OP}_{1}: \max \sum\limits_{l=1}^{L} u_{l} \quad\left(\gamma_{l}(\boldsymbol{p})\right) \\ &\text { s.t. } \quad p_{l} \in P_{l}, \qquad\quad \forall l \end{aligned}, $

(7)

其中，每个SU_l的策略空间P_l是一个紧致的、具有最大值和最小值的闭合凸区间p_l∈P_l=[P_l^min, P_l^max]。此外，当P_l^min=P_l=0时表示SU_l选择不进行数据传输和信号发射的特例。

从式(4)和式(7)可知，虽然OP₁的约束条件是紧致凸集，但OP₁的目标函数由于多用户决策p_l之间的耦合性，造成函数u_l关于变量p的非凸特性，则OP₁是一个非凸优化问题(non-convex problem)。对于该问题一般没有显示解，且其复杂度为NP-Hard^[24]。为求解OP₁，可定义一种等效的功率控制博弈模型^[25]。

2 等效博弈模型及超模性分析 2.1 等效博弈模型及代价因子

假设用户从不交换任何信息且仅选择发射功率来满足自身效用最大化目标的情况，可以得到一个非合作功率控制博弈(NPG，noncooperative power control game)模型，有如下定义

定义1：一个NPG模型可被定义为一个三元组

$ G=\left[L,\left\{P_{l}\right\}_{l \in L},\left\{u_{l}\right\}_{l \in L}\right], $

(8)

其中: 玩家集合L可对应网络SU_l集合; P_l=[P_l, P_l]为用户策略集; u_l(γ_l)为支付函数(payoff function)。在博弈中，每个玩家(网络用户)从策略集P_l中挑选发射功率策略，并得到收益值u_l(γ_l)。p表示所有用户决策组成的功率矢量，而SU_l竞争对手(SU_k, k≠l)的功率分量可被定义为p_－l=(p₁, …, p_l－1, p_l+1, …, p_M)。因此p又可以表示为p=(p_l; p_－l)。支付函数u_l(p_l, p_－l)是连续的，且在紧致集P_l上的最大化函数集被称作最优响应对应关系(best response correspondence)并可表示为r_l(p_－l)，具体表现为r_l: P_－l→P_l的映射关系。若p^*为NCP模型的纳什均衡(NE, nash equilibrium)，当且仅当p^*是最优响应函数的不动点，即

定义2：当满足以下条件

$ r_{l}\left(p_{-l}\right)=\left\{u_{l}\left(p_{i}{ }^{*} ; p_{i}^{*}\right) \geqslant u_{l}\left(p_{l}^{\prime}, p_{-l}^{*}\right) \forall p_{l}^{\prime} \in P_{l}, l \in L\right\}, $

(9)

其中，功率策略p^*=(p_l^*, p_－l^*)是NCP模型G的NE。在达到NE后，由于系统效用不会进一步提高，因此各玩家不会擅自对自身策略进行重新选择。文献[25]等已经验证了由于SU_l的自私性，博弈G的唯一NE点将是将是p_G^*=(P_l)_l=1^L，即每个ST_l会选择最大发射功率进行数据传输，这将极大影响系统性能，甚至造成数据传输中断。因此，SU_l应为策略(功率值)的选取付出相应费用，策略与费用间形成一定对应关系的代价函数，显然该函数应为SU_l发射功率p_l的递增函数，以对策略的选取发挥有效约束作用。

利用KKT条件求得了代价函数表达式为^[26]

$ {\rm{ \mathsf{ π} }}_{j}\left(p_{j}, p_{-j}\right)=-\frac{\partial u_{j}\left(\gamma_{j}\left(p_{j}, p_{-j}\right)\right)}{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)} \frac{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)}{\partial I_{j}\left(p_{-j}\right)}=-\frac{\partial u_{j}\left(\gamma_{j}\left(p_{j}, p_{-j}\right)\right)}{\partial I_{j}\left(p_{-j}\right)}, $

(10)

其中，代价因子π_j(p_j, p_－j)为ST_l向对其产生干扰的SU_j(j≠l)收取的价格，因此其值为负。为了精确表示代价函数，类似文献[27]，使用对数y_l=logp_l对用户决策变量进行代换，用y_l表示分贝(decibel，单位dB)，则可得到p_l=e^y_l。这种变换是合理的，因为在无线通信系统中一般使用分贝数来描述发射功率的相对强度。因此，代换得到的变量矢量y与原变量p是一一对应的。经过对变量y的变换，式(3)所表示的SINR表达式可重新写为

$ \gamma_{j}(\boldsymbol{p})=\frac{p_{j} h_{j j}}{n_{0}+\sum\nolimits_{k \neq j} p_{k} h_{j k}} \stackrel{p_{j}=e \boldsymbol{y}_{j}}{=} \frac{e^{\boldsymbol{y}_{j}} h_{j j}}{n_{0}+\sum\nolimits_{k \neq j} e^{y k} h_{j k}}=\frac{e^{\boldsymbol{y}_{j}} h_{l l}}{n_{0}+I_{j}\left(p_{-j}\right)}, $

(11)

从式(10)和式(11)可得到代价因子π_j(p_j, p_－j)的全新表达式为

$ {\rm{ \mathsf{ π} }}_{j}\left(p_{j}, p_{-j}\right)=-\frac{\partial u_{j}\left(\gamma_{j}\left(p_{j}, p_{-j}\right)\right)}{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)} \frac{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)}{\partial I_{j}\left(p_{-j}\right)}=-u_{j}^{\prime} \frac{\partial}{\partial I_{j}}\left(\frac{e^{\boldsymbol{y}_{j}} h_{j j}}{1+I_{j}\left(p_{-j}\right)}\right)=u_{j}^{\prime} \gamma_{j}^{2} \frac{1}{e^{\boldsymbol{y}_{j}} h_{j j}}, $

(12)

其中，π_j完全由用户决策变量所确定。然后，可以得到新的收益函数为

$ U_{l}\left(p_{l} ; p_{-l}, {\rm{ \mathsf{ π} }}_{-l}\right)=u_{l}\left(p_{l}, p_{-l}\right)-p_{l} \sum\limits_{j \neq l} {\rm{ \mathsf{ π} }}_{j} h_{j l}, $

(13)

将式(12)的结果代入式(13)中，可消除代价因子π继续化简得到

$ U_{l}\left(y_{l} ; y_{-l}\right)=u_{l}\left(\gamma_{l}\left(y_{l}, y_{-l}\right)\right)-e^{y l} \sum\limits_{j \neq l} u_{j}^{\prime} \gamma_{j}^{2} \frac{1}{e^{y j} h_{j j}} h_{j l}=u_{l}\left(\gamma_{l}\left(y_{l}, y_{-l}\right)\right)-\sum\limits_{j \neq l} u_{j}^{\prime} \gamma_{j}^{2} A_{l j}, $

(14)

其中，设A_lj=(exp(y_l)h_ji)/(exp(y_j)h_jj)。从式(14)可知，SU_l需要最大限度提高其效用函数和代价函数间的差值，权重在数值上等于ST_l到SR_k间信道增益。因此式(8)可变为G=[L, {P_l}_l∈L, {U_l}_l∈L]，并对此等效博弈模型的超模性、纳什均衡、解的唯一性和相应迭代算法的设计以及收敛性进行分析和讨论。

2.2 博弈模型超模性和纳什均衡

在等效博弈模型G中，每个ST_l被当作博弈中的玩家制定各自功率策略，每个ST_l所付代价看作功率的函数。为了进行分布式资源分配算法的设计，需要讨论博弈G的NE存在性和解的唯一性的条件，并对算法收敛性进行证明。由于超模博弈在对NE解收敛性等方面有很多有用性质，因此首先得到如下定理。

定理1：若其他用户策略y_-l固定，则支付函数U_l是1个凹函数。

证明：可将U_l看作效用函数u_l(y_l, y_－l)和代价函数$- \sum_{j \ne l} {u_j^\prime } \gamma _j^2{A_{lj}}$的和值。其中，效用函数u_l(y_l, y_－l)为对数函数，且在同一时隙内其他用户策略y_-l是固定的，则该对数函数显然为凹函数；此外，代价函数也为凹函数。根据凹函数线性组合性质^[28]，定理得证。

定理2：等效非合作功率控制博弈G中存在至少1个纳什均衡。证明：根据文献[29]所述。若要博弈模型G=[L, {P_l}_l∈L, {U_l}_l∈L]中存在纳什均衡，则当对任何i=1, …, N可满足：P_l为某欧几里得空间R^N的非空、凸和紧致子集；u_l(p)在p上为连续的，且在p_l为拟凹的(Quasi-concave)^[30]。则博弈模型G=[L, {P_l}_l∈L, {U_l}_l∈L]中存在至少一个纳什均衡。由于优化问题OP₁的原约束变量空间p_l∈P_l=[P_l, P_l]和变换后的新策略空间Y=∏_l∈L[logP_l, logP_l]均为紧凸集，且根据定理1，收益函数U_l_是关于y_l的连续凹函数，则根据相关描述，等效非合作功率控制纯策略博弈G中必然存在至少一个纳什均衡。因此定理2得证。

定义3：假设X⊆$\mathbb{R} $且T为某偏(有)序集，若函数f在(x, t)上满足f: X×T→$\mathbb{R} $对任意x′≥x及t′≥t可满足f(x′, t′)－f(x, t′)≥f(x′, t)－f(x, t)，则称函数f具有差值递增性(Increasing Differences)，即超模性。超模函数具有以下性质:

a) 当t增加时，选择更高x的增量增益将更大。

b) 差值递增性具有对称性，即若t′≥t，则f(x, t′)－f(x, t)关于x为非递减函数。

c) 若函数f为二阶连续可导，则当且仅当对所有x，t′≥t时有f(x, t′)－f(x, t)，或对所有x和t，有f_xt(x, t)≥0，则称函数f具有差值递增性。

定义4：若能满足以下条件，则博弈模型G=[L, {P_l}_l∈L, {u_l}_l∈L]可被称为超模博弈。

a) 对任意给定p_-l，策略空间P_l为某欧氏空间R^N中的非空、凸的且紧致子格；

b) u_l关于(p_l, p_-l) 具有上半连续性(upper semicontinuous)；

c) 效用函数u_l具有差值递增性，即对用户策略p_l二阶可导且满足

$ \frac{\partial^{2} U_{l}\left(p_{l}, p_{-l}\right)}{\partial p_{l} \partial p_{l}^{\prime}} \geqslant 0, $

其中，p′_l为除玩家l外的任何其他用户的发射功率策略。由于超模博弈具有如下重要性质^[26]，说明一旦确定了博弈G的超模性，则其最优响应收敛性可得到保证。

定理3：若博弈模型G=[L, {P_l}_l∈L, {U_l}_l∈L]为超模博弈，则满足下列性质：

a) NE集合始终存在，且为非空和紧致子格(Sublattice)，可逐个搜索最小和最大的NE值；

b) 若SU_l从策略空间中最小(或最大)决策值更新策略，则策略值单调收敛到最小(或最大)NE；

c) SU_l策略将位于有界区间内。若G存在唯一NE，则策略更新可从初始值全局收敛到唯一NE。

性质a)遵从文献[31]中引理；b)遵从文献[32]中定理；c)的证明详见文献[33]。针对不同SINR情况下不同用户数的认知无线网络需要满足超模性的基本条件进行分析。证明以下定理。

定理4：当网络用户数L=2时，若存在p_l可满足条件使$c \le \sqrt {\frac{{{d^2}{A_{12}}\left( {2d{A_{12}} - 1} \right)}}{{{A_{21}}}}} $，则博弈模型G=[L, {P_l}_l∈L, {u_l}_l∈L]为超模博弈。其中，p_l=e^y_l，$c=\frac{\gamma_{1}}{\left(1+\gamma_{1}\right)}$，以及$d=\frac{\gamma_{2}}{\left(1+\gamma_{2}\right)}$。

证明：每个SU_l策略空间非空，且策略空间为R^N空间的子集，所以必为Sublattice子格，因此，必满足定义3条件a)。U_l的函数形式显然连续且二阶可微。当网络用户数L=2时，SU_l效用函数为

$ U_{1}\left(y_{1}, y_{2}\right)=u_{1}\left(\gamma_{1}\left(y_{1}, y_{2}\right)\right)-u_{2}^{\prime} \gamma_{2}^{2} A_{12} ; U_{2}\left(y_{2}, y_{1}\right)=u_{2}\left(\gamma_{2}\left(y_{2}, y_{1}\right)\right)-u_{1}^{\prime} \gamma_{1}^{2} A_{21}, $

(15)

式(15)中2个效用函数式具有对称性，分别对两式计算对策略y₁和y₂的交叉偏微分，省略计算过程可得

$ \frac{\partial U_{1}\left(y_{1} ; y_{2}, {\pi}_{2}\right)}{\partial y_{1}}=u_{1}^{\prime} \gamma_{1}-\left(\frac{\partial u_{2}^{\prime}}{\partial \gamma_{2}} \frac{\partial \gamma_{2}}{\partial y_{1}} \gamma_{2}^{2} A_{12}+2 u_{2}^{\prime} \gamma_{2} \frac{\partial \gamma_{2}}{\partial y_{1}} A_{12}+u_{2}^{\prime} \gamma_{2}^{2} \frac{\partial A_{12}}{\partial y_{1}}\right), $

(16)

$ \begin{aligned} \frac{\partial^{2} U_{1}}{\partial y_{1} \partial y_{2}}=&-\gamma_{1}^{2} A_{21}\left(u_{1}^{\prime \prime} \gamma_{1}+u_{1}^{\prime}\right)+u_{2}^{\prime \prime \prime} \gamma_{2}^{5} A_{12}^{2}+2 u_{2}^{\prime \prime} \gamma_{2}^{4} A_{12}^{2}+\\ &2\left(u_{2}^{\prime \prime} \gamma_{2}^{4} A_{12}^{2}+u_{2}^{\prime} \gamma_{2}^{3} A_{12}^{2}\right)-\left(u_{2}^{\prime \prime} \gamma_{2}^{3} A_{12}+u_{2}^{\prime} \gamma_{2}^{2} A_{12}\right), \end{aligned} $

(17)

其中，式(17)即为L = 2时，SU₂收益函数U₁二阶交叉偏导。为区别以往研究仅针对高SNR场景的情况，对一般SNR场景确定了满足超模性的条件。

a) 高SINR情况。在高SINR下，效用函数可近似为u_l(γ_l)=logγ_l，则其关于变量γ_l的一阶、二阶和三阶导数分别为u′_l(γ_l)=1/γ_l、u″_l(γ_l)=－1/γ_l²和u'''_l(γ_l)=2/γ_l³。代入公式(17)，可得$\frac{{{\partial ^2}{U_1}}}{{\partial {y_1}\partial {y_2}}} = \frac{{{\partial ^2}{U_1}}}{{\partial {y_2}\partial {y_1}}} = 0$。同时根据对称性可得$\frac{{{\partial ^2}{U_2}}}{{\partial {y_2}\partial {y_1}}} = \frac{{{\partial ^2}{U_2}}}{{\partial {y_1}\partial {y_2}}} = 0$。满足了定义3中的条件b)，说明在该场景下G为超模博弈；

b) 一般SINR情况。在一般SINR下，效用函数为u_l(γ_l)=log(1+γ_l)，其关于变量γ_l的一阶、二阶和三阶导数分别为u′_l(γ_l)=1/(1+γ_l)、u″_l(γ_l)=－1/(1+γ_l)²和u'''_l(γ_l)=2/(1+γ_l)³。代入式(17)，可得

$ \frac{\partial^{2} U_{1}}{\partial y_{1} \partial y_{2}}=-\frac{\gamma_{1}^{2}}{\left(1+\gamma_{1}\right)^{2}} A_{21}-\frac{\gamma_{2}^{2}}{\left(1+\gamma_{2}\right)^{2}} A_{12}+\frac{2 \gamma_{2}^{3}}{\left(1+\gamma_{2}\right)^{3}} A_{12}^{2}, $

(18)

根据式(18)，只要满足$\frac{{{\partial ^2}{U_1}}}{{\partial {y_1}\partial {y_2}}} = - \frac{{\gamma _1^2}}{{{{\left({1 + {\gamma _1}} \right)}^2}}}{A_{21}} - \frac{{\gamma _2^2}}{{{{\left({1 + {\gamma _2}} \right)}^2}}}{A_{12}} + \frac{{2\gamma _2^3}}{{{{\left({1 + {\gamma _2}} \right)}^3}}}A_{12}^2 \ge 0$，即可满足定义3条件b)。因此，这里令$\frac{{{\gamma _1}}}{{\left({1 + {\gamma _1}} \right)}} = c$，以及$\frac{{{\gamma _2}}}{{\left({1 + {\gamma _2}} \right)}} = d$，则可将式(18)改写为

$ \begin{aligned} &\frac{\partial^{2} U_{1}}{\partial y_{1} \partial y_{2}}=2 d^{3} A_{12}^{2}-d^{2} A_{12}-c^{2} A_{21} \geqslant 0 \rightarrow d^{2} A_{12}\left(2 d A_{12}-1\right) \geqslant c^{2} A_{21} \\ &\sqrt{\frac{d^{2} A_{12}\left(2 d A_{12}-1\right)}{A_{21}}} \geqslant c \end{aligned}, $

(19)

则从式(19)可以看出，只要SU₁的SINR γ₁满足条件$c \le \sqrt {\frac{{{d^2}{A_{12}}\left({2d{A_{12}} - 1} \right)}}{{{A_{21}}}}} $，则可满足定义3中条件b)。通过对称性可知对于SU₂同样适用。则在一般SNR场景下G为超模博弈。定理得证。

定理5：使用对数效用函数u_l(γ_l)=θ_llog(γ_l)，当网络用户数L＞2时，若存在p_l=e^y_l可满足条件使当0＜γ_jA_lj≤$\frac{1}{2}$，则G=[L, {P_l}_l∈L, {u_l}_l∈L]为超模博弈，且其支付函数为凹函数。

证明：首先证明博弈G的超模性，然后证明收益函数的凹凸性。已知多用户的收益函数如式(14)，分别计算关于y_l的二阶偏导(目标函数Hessian矩阵的对角线项)和关于y_l与y_i的交叉偏导(非对角线项)如下(相关计算步骤从略)

$ \frac{\partial^{2} U_{l}}{\partial y_{l}{}^{2}}=\gamma_{l}\left(u_{l}^{\prime \prime} \gamma_{l}+u_{l}^{\prime}\right)-\sum\limits_{j \neq l}\left(u_{j}^{(3)} \gamma_{j}^{6} A_{l j}^{3}+6 u_{j}^{\prime \prime} \gamma_{j}^{5} A_{l j}^{3}-3 u_{j}^{\prime \prime} \gamma_{j}^{4} A_{i j}^{2}+6 u_{j}^{\prime} \gamma_{j}^{4} A_{l j}^{3}-6 u_{j}^{\prime} \gamma_{j}^{3} A_{l j}^{2}+u_{j}^{\prime} \gamma_{j}^{2} A_{l j}\right), $

(20)

$ \begin{aligned} &\frac{\partial^{2} U_{l}}{\partial y_{l} \partial y_{i}}=-\gamma_{l}^{2} A_{i l}\left(u_{l}^{\prime \prime} \gamma_{l}+u_{l}^{\prime}\right)-\gamma_{i}^{2} A_{l i}\left(u_{i}^{\prime \prime} \gamma_{i}+u_{i}^{\prime}\right)+\gamma_{i}^{3} A_{l i}^{2}\left(u_{i}^{(3)} \gamma_{i}^{2}+4 u_{i}^{\prime \prime} \gamma_{i}+2 u_{i}^{\prime}\right)- \\ &\sum\limits_{j \neq i, l} \gamma_{j}^{3} A_{l j} A_{i j}\left(u_{j}^{(3)} \gamma_{j}^{3} A_{l j}+u_{j}^{\prime \prime} \gamma_{j}\left(6 \gamma_{j} A_{l j}-1\right)+2 u_{j}^{\prime}\left(3 \gamma_{j} A_{l j}-1\right)\right)=\frac{\partial^{2} U_{l}}{\partial y_{i} \partial y_{l}} \end{aligned}, $

(21)

其中，根据式(21)，由于$\frac{{{\partial ^2}{U_l}}}{{\partial {y_l}\partial {y_i}}} = \frac{{{\partial ^2}{U_l}}}{{\partial {y_i}\partial {y_l}}}$，可知收益函数的Hessian矩阵具有对称性。由于效用函数中权重θ_l为常数，不失一般地设为θ_l=1，表示每个用户具有相同业务优先级。

a) 证明收益函数凹凸性。

不失一般性，在高SINR下若SU_l使用对数效用函数u_l，对∀l有u″_lγ_l+u′_l=0以及u″_lγ_l+2u′_l＞0。对于收益函数Hessian矩阵对角线项式(20)，有γ_l(u″_lγ_l+u′_l)=0，可确定对角线元素为负的条件。式(20)将变为

$ \frac{\partial^{2} U_{l}}{\partial y_{l}{ }^{2}}=-\sum\limits_{j \neq l}\left(u_{j}^{(3)} \gamma_{j}^{6} A_{l j}^{3}+3 u_{j}^{\prime \prime} \gamma_{j}^{4} A_{l j}^{2}\left(2 \gamma_{j} A_{l j}-1\right)+u_{j}^{\prime} \gamma_{j}^{2} A_{l j}\left(6 \gamma_{j}^{2} A_{l j}^{2}-6 \gamma_{j} A_{l j}+1\right)\right., $

(22)

使式(22)为负的计算较为复杂，对数函数u_l，其三阶导数应大于零，则可得$u_j^{(3)}\gamma _j^6A_{lj}^3 \ge 0, u_j^{\prime \prime } = - \frac{{{\theta _j}}}{{\gamma _i^2}} \le 0$。相似地，可得u′_jγ_j²A_lj≥0。通过求解以下条件，可得到式(20)和式(22)所代表的对数效用函数Hessian矩阵中对角元素小于零的条件子集

$ \left\{\begin{array}{l} 2 \gamma_{j} A_{l j}-1 \leqslant 0 ,\\ 6 \gamma_{j}^{2} A_{l j}^{2}-6 \gamma_{j} A_{l j}+1 \geqslant 0。\end{array}\right. $

(23)

从$2{\gamma _j}{A_{lj}} - 1 \le 0 \Rightarrow {\gamma _j}{A_{lj}} \le \frac{1}{2}$，则有

$ \begin{aligned} &2 \gamma_{j} A_{l j}-1=2 \frac{e^{y_{j}} h_{j j}}{1+\sum\nolimits_{k \neq j} e^{y k} h_{j k}} \frac{e^{y l} h_{j l}}{e^{y j} h_{j j}}-1 \\ &\Rightarrow e^{y l} h_{j l} \leqslant \frac{1}{2}\left(1+\sum\limits_{k \neq j} e^{y k} h_{j k}\right) \end{aligned}, $

(24)

这表示若SU_j的SINR中由SU_l带来的干扰功率小于等于SR_j所接收干扰加噪声功率的一半，则2γ_jA_lj－1≤0。此外对于条件6γ_j²A_lj²－6γ_jA_lj+1≥0，可根据二次函数求根公式进行求解为

$ \gamma_{j} A_{l j}=\frac{-b \pm \sqrt{b^{2}-4 a c}}{2 a}=\frac{6 \pm \sqrt{36-24}}{12}=\frac{3 \pm \sqrt{3}}{6}, $

(25)

则γ_jA_lj取值范围为$\gamma_{j} A_{l j} \geqslant \frac{3+\sqrt{3}}{6}$或$0 < \gamma_{j} A_{l j} \leqslant \frac{3-\sqrt{3}}{6}$，结合式(20)可知，当γ_jA_lj满足γ_jA_lj∈$\left(0, \frac{3-\sqrt{3}}{6}\right]$时，H_ll(y)＜0，则收益函数为凹函数。又比如，使γ_jA_lj=B_j并将对数效用函数u_l代入式(22)，可等效表示为

$ \begin{aligned} &2 \theta_{j} B_{j}^{3}-6 \theta_{j} B_{j}^{3}+3 \theta_{j} B_{j}^{2}+6 \theta_{j} B_{j}^{3}-6 \theta_{j} B_{j}^{2}+\theta_{j} B_{j}= \\ &2 \theta_{j} B_{j}^{3}+3 \theta_{j} B_{j}^{2}+\theta_{j} B_{j}= \\ &\theta_{j} B_{j}\left(2 B_{j}^{2}-3 B_{j}+1\right) \geqslant 0, \end{aligned} $

(26)

其中，θ_j为每个SU_j为常数的优先级权重，且γ_jA_lj=B_j＞0，由此可解得当满足B_j∈(0, 1/2]∪[1, +∞)时，H_ll(y)＜0，则支付函数为严格凹函数。

b) 证明博弈模型超模性。

要证明G=[N, {P_i}, {u_i(·)}]具有超模性，只需使收益函数Hessian矩阵的非对角项为非负。不失一般性，在高SINR下当使用对数效用函数θ_llog(γ_l)时，式(21)中有－γ_j²A_ij(u″_lγ_l+u′_l)－γ_i²A_li(u″_iγ_i+u′_i)=0，以及γ_i³A_li²(u_i⁽³⁾γ_i²+4u″_iγ_i+2u′_i)=0。则可将式(21)计算为

$ \begin{aligned} \frac{\partial^{2} U_{l}}{\partial y_{l} \partial y_{i}}=&-\gamma_{l}^{2} A_{i l}\left(u_{i}^{\prime \prime} \gamma_{l}+u_{l}^{\prime}\right)-\gamma_{i}^{2} A_{l i}\left(u_{i}^{\prime \prime} \gamma_{i}+u_{i}^{\prime}\right)+\gamma_{i}^{3} A_{l i}^{2}\left(u_{i}^{(3)} \gamma_{i}^{2}+4 u_{i}^{\prime \prime} \gamma_{i}+2 u_{i}^{\prime}\right)-\\ & \sum\limits_{j \neq i, l} \gamma_{j}^{3} A_{l j} A_{i j}\left(u_{j}^{(3)} \gamma_{j}^{3} A_{l j}+u_{j}^{\prime \prime} \gamma_{j}\left(6 \gamma_{j} A_{l j}-1\right)+2 u_{j}^{\prime}\left(3 \gamma_{j} A_{l j}-1\right)\right)=\\ &-\sum\limits_{j \neq i, l}\left(2 \gamma_{j}^{3} A_{l j}^{2} A_{i j}-\gamma_{j}^{2} A_{l j} A_{i j}\right) \geqslant 0 \Rightarrow \sum\limits_{j \neq i, l} \gamma_{j}^{2} A_{l j} A_{i j}\left(2 \gamma_{j} A_{l j}-1\right) \leqslant 0 \Rightarrow 0<\gamma_{j} A_{l j} \leqslant \frac{1}{2}, \end{aligned} $

(27)

可得，当0＜γ_jA_lj≤$\frac{1}{2}$时，使得G中支付函数关于y_l和y_i交叉偏导数非负。因此，当满足该条件时，博弈G为超模博弈，且支付函数为严格凹函数。至此，定理5得证，另外，由于与文献[26]应用场景相似，因此关于OP₁解的唯一性(NE的全局收敛性)分析可直接参考文献[26]。

3 基于Gradient Play的分布式容量优化算法设计

在本博弈模型G中考虑一种系统状态更新机制，使玩家SU_l通过观察其他SU_k所制定策略造成结果(对其他用户产生干扰所支付代价)，使其能重复调整发射功率以及时调整所得收益，最终达到NE。最简单的策略更新机制是最优响应，如${r_l}\left({p{ - _l}} \right) = \mathop {\arg \max }\limits_{pl \in {P_l}} {u_l}\left({{\gamma _l}\left({{p_l}, {p_{ - l}}} \right)} \right)$：若系统工作在时隙模式下，每个时隙，各SU_l基于上个时隙所获反馈信息选择下个时隙的最优决策。即在t+1时隙，SU_l通过以下机制选择策略

$ p_{l}(t+1)=r_{l}\left(p_{-l}(t)\right)=\arg \max \limits_{p_l(t) \in P_{l}} U_{l}\left(\gamma_{l}\left(p_{l}(t), p_{-l}(t)\right)\right) $

(28)

当所表示的上述动态模型达到稳定状态，则该状态一定是均衡点。然而，对一般形式的博弈模型，其收敛性能并不令人满意。因此考虑另一种替代机制Gradient Play^[34]。相比在前述每一步致力于寻找使性能最优的“最优响应”机制，Gradient Play可看成一种“更优响应”的机制。在这种机制中，每个玩家基于对其他玩家所做决策的结果观察，以梯度方向迭代地调整当前决策。则每个SU_l可根据下式更新其策略

$ p_{l}(t+1)=\left[p_{l}(t)+f_{l}\left(p_{l}(t)\right)\left(U_{l}^{\prime}\left(p_{l}(t), p_{-l}(t)\right)\right)\right] P_{l}, $

(29)

其中: f_l(p_l(t))＞0代表每次迭代的步长，可以是关于玩家l在当前时隙t下决策的函数; P_l表示向SU_l策略空间的映射。若将代价因子π_j解释为SU间竞争的价格，则Gradient Play为系统提供了合理的经济学解释：如果边际效用$\frac{\mathrm{d} u_{l}\left(p_{l}\right)}{\mathrm{d} p_{l}}$(Marginal Utility)比竞争成本高，则可提高发射功率，反之则不提高甚至降低发射功率(在经济学领域，边际效用是指某种物品的消费量每增加一单位所增加的满足程度。每增加一个单位的功率，增加的效用递减；最后一个消耗单位的效用最小；而决定价值的，不是它的最大效用，也不是它的平均效用，而是它的最小效用，即“边际效用”)。

$ y_{l}(t+1)=\left[y_{l}(t)+f_{l}\left(y_{l}(t)\right)\left(U_{l}^{\prime}\left(y_{l}(t), y_{-l}(t)\right)\right)\right] Y_{l}, $

(30)

系统工作在时隙模式下，每个SU_l在第t个时隙向其他用户声明各自的功率值p_l(t)，SU_l接收到其他SU_k提供信息后，基于所得发射功率p_j(t), j≠l首先通过y_l(t)=logp_l(t)进行变量代换，接着利用式(12)对向所有其他用户j进行代价因子(收取干扰产生费用)的计算，然后通过式(30)计算t+1时隙使用的发射功率y_l(t+1)，最后通过p_l(t+1)=e^y_l(t+1)对发射功率进行还原。这里为了保证算法的收敛性，使用Gradient算法进行状态的更新。这里假设所有用户都知道所有链路和交叉链路信道增益的完全知识(由其他用户的广播所得)。此外，基于对数效用函数的式(14)可化为U_l(y_l; y_－l)=u_l(γ_l(y_l, y_－l))－$\sum_{j \ne l} {} \frac{1}{{1 + {\gamma _j}}}\gamma _j^2{A_{lj}}$或U_l(y_l; y_－l)=u_l(γ_l(y_l, y_－l))－$\sum_{j \ne l} {{\gamma _j}} {A_{lj}}$的形式。步长f_l(p_l(t))＞0采用固定步长f_l＞0且尽量小(如选取0.000 1和0.001作为步长值)，另一方面可参考文献中使用的Diminishing步长^[35-38]，已有相关收敛性结论可供参考。相应解法所概括的算法1伪代码如表 1所示。

表 1 基于Gradient Play方法的分布式容量优化算法 Table 1 The Gradient-Play based distributed capacity optimization algorithm

针对表 1，可看到为了实现系统策略状态更新，在每个时隙t，每个用户需要获取的信息有：1)其他用户的功率值p_l(t)(每个用户的发射机进行周期性广播)；2)当前信道增益h_ll(接收机处测量并反馈到发射机)和临近信道增益h_jl(每个用户的接收机进行周期的信标广播)；3)接收SINR值γ_l(t), l∈L(每个用户的接收机周期广播)。每个用户基于以上信息，计算其他用户的代价值并用于后续计算中。从定理3描述的超模博弈的性质出发，只要博弈模型满足超模性且存在NE，即使是非增量式的最优响应算法也可以得到平衡，因此增量式的Gradient Play算法也可以收敛到NE。

定理6：等效超模博弈G=[L, {P_l}_l∈L, {U_l}_l∈L]可从任意初始值收敛到其NE点。

证明：通过相关定义，非合作博弈的纳什均衡(NE)点必须满足最优响应函数BR_l(y_－l)=(y_l^*)=arg$\mathop {\max }\limits_{yl \in {Y_l}} {U_l}\left({{y_l}, {y_{ - l}}} \right)$。为了证明该等效超模博弈收敛到其NE点，必须证明用户l的最优响应策略函数是标准函数(Standard Function)^[25]。若要函数具有Standard属性，对所有x≥0必须满足以下条件：

1) 函数值为正(Positivity)：f(x)＞0；

2) 单调性(Monotonicity)：若x≥x′，则f(x)≥f(x′)；

3) 可伸缩性(Scalability)：对所有a＞1，均有af(x)≥f(ax)。

其中，x=(x₁, x₂, …, x_N)为NE点。对于所定义的等效超模博弈模型，根据文献[25]，能容易证明最优响应函数BR_l(y)满足上述条件。相似地，对于Gradient Play更新函数，对∀y_l∈Y_l也可证明如下：

1) y_l(t)＞0，显然U′_l(y_l(t), y_－l(t))＞0，且y_l(t+1)=y_l(t)+f_l·U′_l(y_l(t), y_－l(t))＞0；

2) 若y_l(t)＞y′_l(t)，可知支付函数一阶导U′_l(y_l(t), y_－l(t))＞0，因此得y_l(t)+f_l·U′_l(y_l(t), y_－l(t))＞y′_l(t)+f_l·U′_l(y′_l(t), y_－l(t))，满足单调性(u_l采用对数效用函数)；

3) 对所有a＞1，由于y_l+f_l·U′_l(y_l, y_－l)为关于y_l的严格递增函数，则有a(y_l(t)+f_l·U′_l(y_l(t), y_－l(t)))≥ay_l(t)+f_l·U′_l(ay_l(t), ay_－l(t))。

因此，等效超模博弈始终会向NE点收敛，定理得证，在仿真实验中选取0.001和0.01步长分别在2用户和30用户上进行了收敛性数值仿真验证。

4 仿真实验及性能对比

在仿真实验中，假设多个SU已经检测到了频谱空洞，基于Gradient Play的分布式容量优化资源分配算法分析SU网络的性能，并假设算法运行过程中PU不出现，基于此假设进行仿真实验并对结果进行分析。首先设置仿真场景，相关参数如下：

1) 模拟一个在50 m×50 m方形区域内随机生成的分布式网络，生成1~30对网络用户通信对，每个用户节点的相应收发端随机分布在15 m×15 m的方形区域内；

2) 所有网络用户共享相同频谱资源，信道带宽B=64；

3) 信道增益遵循的衰落公式为h_jl=d_jl^－4，其中d为用户j发射机到用户l接收机的欧式距离；

4) 每个用户功率范围p_l=[0, 1]W，P_l^max/n₀=40 dB；

5) 每个用户选择固定步长为f_l = 0.01，且假设θ₀ = 1和P_f虚警概率为0，将CRAHN近似为Ad hoc；

6) 产生1到30个用户传输对，同时对用户之间的距离单位和信号衰减因子等参数进行设置。

如图 3所示显示了30个网络用户的链路分布情况，其中蓝色圆圈为发射机，红色方块为相应的接收机，针对不同用户数的每个场景，均通过均匀分布随机生成20组拓扑结构进行比较。

图 3 1~30个用户通信收发对的网络模型 Fig. 3 The CRAHN model with randomized 1~30 users

图 4~图 6显示了用户收发对分别为2和30个的时候，网络系统中各用户发射功率分配和对其他用户干扰代价值的典型收敛情况(每条线均代表一个用户的发射功率值或干扰代价值的变化情况)，所有场景均基于随机的参数初始化。其中，用户数不多时(图 4的2用户网络)将发射功率和干扰代价在一张图上显示，当用户收发对增加到30个，即通过图 5和图 6分别将发射功率值和干扰代价值的收敛情况进行分开显示。

图 4 2用户无线网络Gradient Play算法的收敛效果仿真 Fig. 4 The convergence effects of Gradient-play based algorithm for CRAHN with 2 users

图 5 30个用户无线网络中Gradient Play算法对用户功率分配的收敛效果 Fig. 5 The power allocation convergence of Gradient-play based algorithm for CRAHN with 30 users

图 6 30个用户无线网络Gradient Play算法对干扰代价值的收敛效果 Fig. 6 The interference price convergence of Gradient-play based algorithm for CRAHN with 30 users

图 4显示了2用户网络中各用户发射功率和系统容量变化的对应关系，由于网络节点的SNR较高(P_l^max/n₀=40 dB)，因此用户效用函数可以用香农公式的近似对数形式表示，可以看到在迭代过程中，随着功率的变化，各用户所在的链路容量是呈明显的正比关系的。由于信道增益随着图 4的网络传输对之间的随机距离所得，因此算法从初始化到收敛的迭代次数不定；另一方面迭代次数与步长大小和收敛精度等参数的设置有关。但从图可见经过1 000次以内的迭代，算法均能收敛。说明增量式算法能保证收敛性。

图 5和图 6分别显示了30用户的网络中各用户发射功率和干扰代价值变化的过程。各用户随着分布式算法迭代次数的增加，根据其他用户的策略状态导致的反馈结果，以增量方式对各自的发射功率进行调节。除了个别用户达到了发射功率最大值1以外，其他大多数用户都在p_l= [0, 1]W范围内取得了发射功率值。该场景下，算法的收敛迭代次数在600次以内。

此外，图 6显示了各用户因发射功率更新所得到对其他用户相应的干扰代价值的变化趋势。从图中前40次左右的迭代中，几乎所有用户由于其自私性，都在尽力提高当前链路上的发射功率，因此相应地增大了各自的干扰代价。随着分布式算法迭代次数的增加，根据其他用户的策略状态导致的反馈结果，以增量方式对各自的发射功率进行调节，干扰代价又降低了下来，最终达到均衡点下的稳定状态。该场景下，算法的收敛迭代次数在600次以内。

最后，图 7展示了在CRAHN中的不同信噪比条件下，用户收发对从1个提高到30个所带来的网络容量性能变化趋势。从图上可以看出：1)用户数从1个到15个的增加过程中，3种信噪比场景下，网络的总容量都基本处于提高阶段，说明在分布式算法的发射功率控制优化是有效的，能使网络总容量得到提升。其中SNR=30 dB和SNR=40 dB的情况比较类似，而SNR=20 dB场景下的信噪比相比之下网络总容量差别较大，说明分布式算法在这个SNR条件下，针对基于香农容量对数近似公式的网络容量的优化效果并不明显；2)用户数从15个~25个左右时，3种SNR场景的网络总容量呈现一种保持中略有下降的趋势，直到用户数从25个到30个变化过程中，3个SNR条件场景中的网络总容量出现较明显的下降。这是因为随着网络中用户数的增多，网内干扰的比重大大增加，且随着用户数增多造成了用户策略的耦合性增强，用户依靠分布式算法进行的功率调整不容量对网络总容量有太多的贡献；3)在SNR=20 dB的场景中的网络总容量相比较强SNR条件下的网络性能来说，更容易收到用户数增加的影响，因为各用户的最大发射功率不变，而网络SNR偏低，则网内干扰更容易收到各用户发射功率的影响，用户数的增多使得网络内的资源优化共享更加难以协调。因此SNR越低的场景下，网络总容量更容易受到用户数的影响。

图 7 认知无线网络中用户数和信噪比变化对网络总容量的影响关系 Fig. 7 The influence of user number and SINR on the total capacity of CRAHN

5 结论

基于超模博弈理论针对CRAHN网络系统容量最大化问题进行了研究，解决了同频点无线Ad hoc网络容量和模型中用户间策略的偶合性问题。首先，根据相关约束条件对无线Ad hoc网络吞吐量之和模型进行了建立，转化为等效博弈模型，并利用KKT条件引入代表干扰代价的新变量，且写出代价关于策略的精确表达式；然后，针对不同SINR条件下的等效博弈模型进行了系统容量模型的超模性证明，后分别基于Best Response和Gradient方法得到分布式资源分配算法。仿真结果表明，在不同的功率、干扰和QoS需求条件下，该方法相比其他同类算法所需要的信息交换更少，相比Best Response算法具有更稳健的收敛性保证。主要贡献在于：首先，根据相关约束条件对无线Ad hoc网络容量和模型进行了建立，然后转化为等效博弈模型，利用KKT条件引入代表干扰代价的新变量；然后，针对不同SINR和用户数条件下的等效博弈模型进行了系统容量模型的超模性证明，后基于梯度法得到分布式资源分配算法。仿真结果表明，在不同的功率、干扰和QoS需求条件下，该方法相比其他同类算法所需要的信息交换更少，相比最优响应方法具有更稳健的收敛性保证。

参考文献

[1]	Xu C, Zheng M, Liang W, et al. End-to-end throughput maximization for underlay multi-hop cognitive radio networks with RF energy harvesting[J]. IEEE Transactions on Wireless Communications, 2017, 16(6): 3561-3572. DOI:10.1109/TWC.2017.2684125
[2]	Rakovic V, Denkovski D, Hadzi-Velkov Z, et al. Optimal time sharing in underlay cognitive radio systems with RF energy harvesting[EB/OL]. 2015: arXiv: 1507.00071[cs. IT]. https://arxiv.org/abs/1507.00071
[3]	Hoang D T, Niyato D, Wang P, et al. Opportunistic channel access and RF energy harvesting in cognitive radio networks[J]. IEEE Journal on Selected Areas in Communications, 2014, 32(11): 2039-2052. DOI:10.1109/JSAC.2014.141108
[4]	Wang Z H, Chen Z Y, Xia B, et al. Cognitive relay networks with energy harvesting and information transfer: design, analysis, and optimization[J]. IEEE Transactions on Wireless Communications, 2016, 15(4): 2562-2576. DOI:10.1109/TWC.2015.2504581
[5]	Shen K M, Yu W. Fractional programming for communication systems-part I: power control and beamforming[J]. IEEE Transactions on Signal Processing, 2018, 66(10): 2616-2630. DOI:10.1109/TSP.2018.2812733
[6]	Alpcan T, Nekouei E, Nair G N, et al. An information analysis of iterative algorithms for network utility maximization and strategic games[J]. IEEE Transactions on Control of Network Systems, 2019, 6(1): 151-162. DOI:10.1109/TCNS.2018.2802869
[7]	Shi Q J, Razaviyayn M, Luo Z Q, et al. An iteratively weighted MMSE approach to distributed sum-utility maximization for a MIMO interfering broadcast channel[J]. IEEE Transactions on Signal Processing, 2011, 59(9): 4331-4340. DOI:10.1109/TSP.2011.2147784
[8]	Chiang M, Hande P, Lan T, et al. Power control in wireless cellular networks[J]. Foundations and Trends© in Networking, 2007, 2(4): 381-533. DOI:10.1561/1300000009
[9]	Zhang H H, Venturino L, Prasad N, et al. Weighted sum-rate maximization in multi-cell networks via coordinated scheduling and discrete power control[J]. IEEE Journal on Selected Areas in Communications, 2011, 29(6): 1214-1224. DOI:10.1109/JSAC.2011.110609
[10]	El Tanab M, Hamouda W. Resource allocation for underlay cognitive radio networks: a survey[J]. IEEE Communications Surveys & Tutorials, 2017, 19(2): 1249-1276.
[11]	Lee H W, Chang W, Jung B C. Optimal power allocation and allowable interference shaping in cognitive radio networks[J]. Computers & Electrical Engineering, 2018, 71: 265-272.
[12]	Tang N K, Mao S W, Kompella S. Power control in full duplex underlay cognitive radio networks: a control theoretic approach[C]//2014 IEEE Military Communications Conference. October 6-8, 2014, Baltimore, MD, USA. IEEE, 2014: 949-954.
[13]	Wang H C, Chen J, Ding G R, et al. D2D communications underlaying UAV-assisted access networks[J]. IEEE Access, 2018, 6: 46244-46255. DOI:10.1109/ACCESS.2018.2865629
[14]	Luo L, Roy S. A two-stage sensing technique for dynamic spectrum access[J]. 2008 IEEE International Conference on Communications, 2008, 4181-4185.
[15]	Luo L, Ghosh C, Roy S. Joint optimization of spectrum sensing for cognitive radio networks[C]//2010 IEEE Global Telecommunications Conference GLOBECOM 2010. December 6-10, 2010, Miami, FL, USA: IEEE, 2010: 1-5.
[16]	Qian X M, Hao L. Spectrum sensing with energy detection in cognitive Vehicular Ad hoc Networks[C]//2014 IEEE 6th International Symposium on Wireless Vehicular Communications (WiVeC 2014). September 14-15, 2014, Vancouver, BC, Canada: IEEE, 2014: 1-5.
[17]	Verma G, Sahu O P. Throughput maximization of cognitive radio under the optimization of sensing duration[J]. Wireless Personal Communications, 2017, 97(1): 1251-1266. DOI:10.1007/s11277-017-4564-x
[18]	Kang X, Liang Y C, Garg H K, et al. Sensing-based spectrum sharing in cognitive radio networks[J]. IEEE Transactions on Vehicular Technology, 2009, 58(8): 4649-4654. DOI:10.1109/TVT.2009.2018258
[19]	Nguyen V D, Shin O S. Cooperative prediction-and-sensing-based spectrum sharing in cognitive radio networks[J]. IEEE Transactions on Cognitive Communications and Networking, 2018, 4(1): 108-120. DOI:10.1109/TCCN.2017.2776138
[20]	Choi S, Park H, Hwang T. Optimal beamforming and power allocation for sensing-based spectrum sharing in cognitive radio networks[J]. IEEE Transactions on Vehicular Technology, 2014, 63(1): 412-417. DOI:10.1109/TVT.2013.2270091
[21]	Wang R S, Liu G L, Zhang H J, et al. Resource allocation for energy-efficient NOMA network based on super-modular game[C]//2018 IEEE International Conference on Communications Workshops (ICC Workshops). May 20-24, 2018, Kansas City, MO, USA: IEEE, 2018: 1-6.
[22]	Liu G L, Wang R S, Zhang H J, et al. Super-modular game-based user scheduling and power allocation for energy-efficient NOMA network[J]. IEEE Transactions on Wireless Communications, 2018, 17(6): 3877-3888. DOI:10.1109/TWC.2018.2817194
[23]	Pei Y Y, Liang Y C, Teh K C, et al. Sensing-throughput tradeoff for cognitive radio networks: a multiple-channel scenario[C]//2009 IEEE 20th International Symposium on Personal, Indoor and Mobile Radio Communications. September 13-16, 2009, Tokyo, Japan: IEEE, 2009: 1257-1261.
[24]	Luo Z Q, Zhang S Z. Dynamic spectrum management: complexity and duality[J]. IEEE Journal of Selected Topics in Signal Processing, 2008, 2(1): 57-73. DOI:10.1109/JSTSP.2007.914876
[25]	Saraydar C U, Mandayam N B, Goodman D J. Efficient power control via pricing in wireless data networks[J]. IEEE Transactions on Communications, 2002, 50(2): 291-303. DOI:10.1109/26.983324
[26]	Huang J W, Berry R A, Honig M L. Distributed interference compensation for wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2006, 24(5): 1074-1084. DOI:10.1109/JSAC.2006.872889
[27]	Chiang M. Balancing transport and physical Layers in wireless multihop networks: jointly optimal congestion control and power control[J]. IEEE Journal on Selected Areas in Communications, 2005, 23(1): 104-116. DOI:10.1109/JSAC.2004.837347
[28]	Boyd S, Vandenberghe L. Convex optimization[M]. Cambridge: Cambridge University Press, 2004.
[29]	Glicksberg I L. A further generalization of the kakutani fixed point theorem, with application to Nash equilibrium points[J]. Proceedings of the American Mathematical Society, 1952, 3(1): 170.
[30]	Roberts A W, Varberg D E. Convex functions[M]. New York: Academic Press, 1973.
[31]	Topkis D M. Supermodularity and complementarity[EB/OL]. 1998
[32]	Altman E, Altman Z. S-modular games and power control in wireless networks[J]. IEEE Transactions on Automatic Control, 2003, 48(5): 839-842. DOI:10.1109/TAC.2003.811264
[33]	Milgrom P, Roberts J. Rationalizability, learning, and equilibrium in games with strategic complementarities[J]. Econometrica, 1990, 58(6): 1255. DOI:10.2307/2938316
[34]	Taylor P, Day T. Evolutionary stability under the replicator and the gradient dynamics[J]. Evolutionary Ecology, 1997, 11(5): 579-590. DOI:10.1007/s10682-997-1513-2
[35]	Zhou X Y, Dall'Anese E, Chen L J. Online stochastic optimization of networked distributed energy resources[J]. IEEE Transactions on Automatic Control, 2020, 65(6): 2387-2401. DOI:10.1109/TAC.2019.2927925
[36]	Zhou X. Distributed real-time voltage regulation in distribution networks[D]. US: University of Colorado at Boulder, 2018.
[37]	Zhou X Y, Liu Z Y, Dall'Anese E, et al. Stochastic dual algorithm for voltage regulation in distribution networks with discrete loads[C]//2017 IEEE International Conference on Smart Grid Communications (SmartGridComm). October 23-27, 2017, Dresden, Germany: IEEE, 2017: 405-410.
[38]	Scutari G, Palomar D P. MIMO cognitive radio: a game theoretical approach[J]. IEEE transactions on signal processing, 2010, 58(2): 761-780. DOI:10.1109/TSP.2009.2032039