重庆大学学报  2021, Vol. 44 Issue (9): 117-131  DOI: 10.11835/j.issn.1000-582X.2021.09.012 RIS(文献管理工具)
0

引用本文 

李湘鲁, 侯冬, 田杰. 基于超模博弈的认知无线Ad hoc网络分布式功率控制技术[J]. 重庆大学学报, 2021, 44(9): 117-131. DOI: 10.11835/j.issn.1000-582X.2021.09.012.
LI Xianglu, HOU Dong, TIAN Jie. Distributed power control technique of cognitive radio Ad hoc network based on supermodel game[J]. Journal of Chongqing University, 2021, 44(9): 117-131. DOI: 10.11835/j.issn.1000-582X.2021.09.012.

基金项目

中国工程物理研究院基础研究基金(CX20200010);国家自然科学基金资助项目(61771410,61871084,61601084)

通信作者

田杰(1982-), 男, 博士, 副研究员, 主要从事无线网络优化和高精度时频同步方向研究, (Tel)0816-2487566, (E-mail)tianjie@caep.cn

作者简介

李湘鲁(1983-), 男, 博士, 副研究员, 主要从事数字信号处理、无线通信系统和无线网络优化等研究, (Tel)0816-2484567, (E-mail)bluelxl@163.com

文章历史

收稿日期: 2020-01-12
基于超模博弈的认知无线Ad hoc网络分布式功率控制技术
李湘鲁 1, 侯冬 2, 田杰 1     
1. 中国工程物理研究院 电子工程研究所, 四川 绵阳 621900;
2. 电子科技大学 自动化工程学院, 成都 611731
摘要: 考虑一种交织(Interweave)模式下的单跳认知无线Ad hoc网络(CRAHN)应用场景,针对次用户(SU)组成的Ad hoc网络提出一种分布式功率控制技术,以最大化提高次网络容量。SU网络通过频谱感知来探测主用户(PU)所在授权频段的使用情况。一旦授权频段空闲,次网络中的SU将利用授权频谱进行并发通信,目标是通过优化各SU的发射功率,以达到次网络频谱效率最大化。首先根据应用场景给出了网络容量优化近似模型,为了解决该非凸问题,将网络容量优化模型建立为等效博弈模型,并在不同的SINR条件下证明了Nash均衡的存在性和唯一性,最终提出基于Gradient Play的分布式功率控制算法来实现资源最优分配。仿真结果表明,该算法可在保证收敛性的同时、支持一定的并发通信用户数、提高该网络系统的频谱效率。
关键词: 频谱效率    认知无线Ad hoc网络    Gradient Play    超模博弈    
Distributed power control technique of cognitive radio Ad hoc network based on supermodel game
LI Xianglu 1, HOU Dong 2, TIAN Jie 1     
1. Institute of Electronic Engineering, China Academy of Engineering Physics, Mianyang, Sichuan 621900, P. R. China;
2. School of Automation Engineering, University of Electronic Science and Technology of China, Chengdu 611731, P. R. China
Abstract: In this paper, a distributed power control technique is proposed for Ad hoc network composed of secondary users (SU) within a single-hop cognitive radio Ad hoc network (CRAHN) application scenario in Interweave mode to maximize the capacity of the secondary network. Once authorized spectrum becomes idle, SUs in the secondary network will use authorized spectrum for concurrent communication, which aims at optimizing the transmission power of each SU so as to optimize the network spectrum efficiency. We first introduce the optimization approximation model of network capacity according to the given application scenario. In order to solve the non-convex problem, we establish the equivalent game model based on the network capacity optimization problem. Then we prove the existence and uniqueness of Nash equilibrium under the condition of different SINR. Finally, we propose a distributed power control algorithm based on Gradient Play method to realize optimal resource allocation. Simulation results show that the proposed algorithm can support a certain number of concurrent communication users and improve the spectral efficiency of the network system to a certain degree.
Keywords: spectral efficiency    cognitive wireless Ad hoc network    Gradient Play    supermodel game    

数十年来,无线网络技术得到了空前发展,通信终端规模和无线数据业务量也呈现井喷式增长,频谱资源日渐稀缺,频谱分配饱和与频谱利用率低下也亟待解决。认知无线网络(CRN,cognitive radio network)技术允许多个次用户(SU,secondary user)通过频谱感知来探测授权频谱上主用户(PU,primary user)的活动性,利用动态频谱接入(DSA,dynamic spectrum access)来提高频谱利用率,在保证PU通信的前提下增加SU网络传输的业务种类和质量[1-2]。其中,干扰管理的功率控制、吞吐量优化及能量优化问题得到广泛关注。

单跳认知无线Ad hoc网络(CRAHN,cognitive radio ad hoc network)并发通信场景由PU系统和SU系统组成。其中,PU对授权频段具有绝对优先使用权,以一定概率随机使用授权频段信道;而各SU组成的分布式网络,缺乏中心设施的统一资源调度,各节点发射机的不同功率等级将对网络系统带来不同性能影响和网内干扰效果。因此,多个SU节点需通过分布式功率控制方法在最大化提高频谱效率(SE,spectrum efficiency)同时减轻网内干扰。CRAHN中的SU主要采用交织(interweave)、覆盖(overlay)和重叠(underlay)模式来访问授权频谱[1]。在Underlay模式下,SU可使用不超过干扰阈值的功率与PU进行数据并行传输[2]。在Overlay模式下假设PU与SU间存在良好合作关系,SU需要进行频谱感知并同时服务自己与PU的通信业务[3-4]。在Interweave模式下,SU同样使用频谱感知探测频谱空洞,但SU网络独立通信、不需要将额外能量消耗在协助PU上[4]

CRAHN中的SU系统一般包含多个ST(second-user transmitter)到SR(second-user receiver)的收发通信对,且SU系统将在不影响PU业务QoS前提下,对多种业务数据进行传输,这些SU数据业务和节点不区分优先级,得到各节点地位对等的CRAHN系统。由于可用频谱资源受到限制,所有节点需要共享频谱资源进行并发通信,授权频谱通过采用Interweave模式进行共享。因此,SU系统所有节点需要先通过频谱感知技术判断PU是否占用频谱,若信道为占用状态,则次用户继续等待;反之,次用户对授权频谱进行利用。这种机制可确保SU系统在PU空闲时对授权频谱加以利用,满足SU系统数据传输的需求,也可避免对PU传输造成干扰影响;另一方面,在针对多目标的遥测网络数据传输中,SU可根据信道中干扰强度变化,发现和规避干扰。

目前,有大量CRN频谱效率优化研究的文献[5-9]:1)一些方法针对Underlay频谱共享方式下的CRN系统[10-13],该模式下PU和SU需要共存。针对Interweave模式的研究一部分聚焦于频谱感知[14-15]、PU检测率和虚警率的改善[16],但这类性能讨论并未与SU网络容量挂钩;另一部分基于感知频谱共享研究SU网络遍历容量最大化[17-20],但文献[17-20]等仅针对单个SU用户进行链路容量优化,而文献[19]需要SU基站进行协同感知的信息融合和判决。因此,需要对多个CR用户在Interweave模式下组成的次用户网络容量优化问题及其功率控制方法进行研究;2)在Interweave模式中,SU网络可在PU空闲时占用授权频谱进行通信,且不用考虑对PU的干扰,在PU空闲时可将SU网络近似看做无线Ad hoc网路。目前已有一些基于博弈理论以网络容量最大化为目标提出相应功率控制算法的研究[21-26]。为简化分析难度,一些研究基于高SINR假设下将香农容量进行了近似[26],或针对特殊的网络结构(如正交多址NOMA等)进行信道增益等参数的序列假设[21-22],缺乏对一般SINR条件下博弈模型相关性质的深入分析。因此,需要考虑移动设备所受硬件水平和处理速度的限制,控制各用户间信息交互量并降低算法复杂度,对CRAHN的SU节点之间的干扰进行补偿、并达到SU网络容量最大化目的。

本研究有3个主要贡献:1)根据约束条件建立CRAHN容量模型并转化为等效博弈模型,利用KKT条件引入代表干扰代价的新变量;2)针对不同SINR和用户数条件下的等效博弈模型进行了等效博弈模型的超模性证明;3)提出该场景下基于Gradient Play方法的分布式资源分配算法,并在不同功率、干扰和QoS条件下进行仿真,该算法所需交换信息少,相比Best Response方法具有更稳健的收敛性保证。

1 系统模型

设想一个由单个PU和SU网络组成的通信应用场景。SU网络包含L={1, …, L}条收发通信链路,每条通信链路分别包含一个SU发射机STl和一个SU接收机SRl,SU网络节点均采用Interweave方式与PU共享频谱,在不影响PU业务QoS的前提下,对多SU数据业务进行不区分优先级的单跳并发传输,构成由多个对等SU节点组成的单跳CRAHN系统,如图 1所示。假设用户位置均匀分布在可互相影响的同区域内,网络中不存在中心设施,所有SU对一定带宽的授权频谱进行共享。PU具有较高QoS要求,若主系统和次系统同时工作,则次系统将严重影响主系统传输性能,因此,主系统和次系统不能同时工作;另一方面,SU网络中各用户间的并发传输会不可避免地产生用户间干扰(MUI,multi-user interference)。假设SU网络内各SU都可得到信道状态信息(CSI,channel state information)完全知识,以及所有信道遵循块衰落(block fading)方式,即在数据帧周期内信道增益(channel gain)为常数,但不同时隙之间的信道增益可能不同。

图 1 4个用户组成的CRAHN网络架构 Fig. 1 CRAHN network architecture composed of 4 users
1.1 频谱感知过程

根据CR技术的Interweave模式思想,每个数据帧(时隙)可分为2个阶段:1)各SU首先进行基于能量探测(energy detection)的频谱感知,判断频谱占用情况;2)若频谱被PU占用,则所有SU保持静默;反之,SU网络中所有节点利用分布式功率控制算法最大程度降低网内干扰、提高SU网络容量。假设频谱空洞时间足够SU网络完成多个时隙的频谱感知和数据传输操作,则系统时隙的组成见图 2

图 2 CRAHN系统时隙结构图 Fig. 2 Time slot structure diagram of CRAHN system

其中,τ为频谱感知时间,Tτ为数据传输时间。可知每帧数据时隙包含:1)频谱感知时间为τ,SU需完成PU状态的确定;2)在Tτ数据传输时间内,SU基于频谱感知结果,决定静默或进行基于功率控制的数据传输。由于SU硬件资源有限,系统中各SU采用能量检测来进行频谱感知以降低运算复杂度。假设所有SU间实现了同步且与PU间距离相近,PT发射功率足够强,使得所有SU对频谱可用性判决一致,SUl感知到授权频谱上PU存在性可由以下假设表示[23]

$ H_{l 0}: r_{l}(i)=n_{l}(i), $ (1)
$ H_{l 1}: r_{l}(i)=s(i) g_{s l p}+n_{l}(i), $ (2)

式中: 对l = 1, 2, …, Li = 1, 2, …, NL为次系统中SU的个数,N为采样数; Hl0表示SUl关于PU信号不存在的假设,Hl1表示PU信号存在假设,s(i)和ul(i)分别表示PU发射信号和SUl接收机处噪声采样值,均为独立同分布随机变量,并遵循正态分布N(0, σs2)和N(0, σn2),gslp为从PU发射机到STl发射机间的AWGN信道增益,rl(i)为SRl处接收信号。若PU占用授权频谱时SUl感知结果为Hl1,则认为SUl做出正确判决,其概率为相应的检测率Pd。反之,PU未占用频谱而SU的检测结果相反,则该概率为虚警概率Pf。因此,SU系统仅在Hl0假设下感知到PU为空闲时,SU才能进行数据传输并产生效用回报,其概率为(1-Pf),采用香农容量作为SU网络的效用尺度。

1.2 次用户传输容量模型

根据图 2所示系统时隙结构,系统以概率(1-Pf)进行数据传输,使用链路香农容量作为系统效用函数。在表示SUl所在链路的香农容量时,该函数是关于SUl接收信干噪比(SINR, signal to interference plus noise power ratio)的函数,即使SINRl可表示为

$ \gamma_{l}(p)=\frac{p_{l} h_{l l}}{n_{0}+\sum\nolimits_{l \neq k} p_{k} h_{l k}}=\frac{p_{l} h_{l l}}{n_{0}+I_{l}\left(p_{-l}\right)}, $ (3)

式中:p=(p1, …, pL)是所有ST的发射功率矢量; hll表示从STl到SRl的信道增益; hlk示从STk到STl的信道增益; n0SRl的背景噪声且其满足高斯分布n0~(0, σ2),使用Il(pl)来表示SUl所接收到的来自其他用户干扰MUI的总和。

从式(3)中可以看出,由于次用户网络中自干扰的存在,各次用户l的效用函数关于其他SUk的发射功率变量pk在分母具有强耦合性。因此,当主用户为空闲且没有虚警发生时,基于香农公式可得到次用户Ad hoc网络效用函数——对数效用函数(logarithmic utility function),每个SUl所在链路的香农容量cl(γl)可表示为

$ c_{l}\left(\gamma_{l}\right)=B \log \left(1+\gamma_{l}(p)\right)=B \log \left(1+\frac{p_{l} h_{l l}}{n_{0}+\sum\nolimits_{l \neq k} p_{k} h_{l k}}\right), $ (4)

其中,B为多个SU所占用的总带宽。在SINR远大于1的高SINR场景中,对数效用函数ul(γl)可根据1+γl(p)≈γl(p)将香农容量近似为ul(γl)=θllog(1+γl)≈θllog(γl),θl为网络系统的服务优先级权重因子。换句话说,香农容量可以近似用对数效用函数log(γl)进行表示。而在低SINR场景,用户数据率关于SINR呈近似线性的关系,即用户效用函数与容量的对数值成比例变化。接着,综合考虑次用户的虚警和PU的活跃概率等因素,可以得到新的SUl所在链路的容量公式[23]

$ \begin{aligned} u_{l}\left(\gamma_{l}\right)=& C_{1} \theta_{1} P_{d}+C_{0} \theta_{1}\left(1-P_{d}\right)+c_{l}\left(\gamma_{l}\right) \theta_{0}\left(1-P_{f}\right)+C_{1} \theta_{0} P_{f} \approx \\ & c_{l}\left(\gamma_{l}\right) \theta_{0}\left(1-P_{f}\right), \end{aligned} $ (5)

其中,θ1θ0为常数,分别为PU忙和空闲的概率。如前所述,次用户系统当且仅当H0假设下次用户l正确感知PU的空闲状态时才有链路容量回报。假设在本场景中,PU的发射功率非常大,且频谱感知时间足够长,则虚警Pf可忽略且为常数,假设在多个数据时隙内PU均未出现,则θ1=0,因此在后续的次用户网络容量最大化推导和分布式功率控制算法设计过程中,均不专门对Pfθx进行讨论。SU分配的共享带宽Bw也是常数。设θx(1-Pf)Bw=B,即效用函数可转化为ul(γl)=cl(γl)=Blog(1+γl(p)),且频谱效率为

$ \mathrm{SE}_{l}\left(\gamma_{l}\right)=\frac{c_{l}\left(\gamma_{l}\right)}{B_{w}}=\frac{B}{B_{w}} \log \left(1+\gamma_{l}(\boldsymbol{p})\right) \approx \log \left(1+\gamma_{l}(\boldsymbol{p})\right)(\mathrm{bit} / \mathrm{s}) / \mathrm{Hz}, $ (6)
1.3 系统问题建模

根据网络效用最大化(NUM,network utility maximization)的相关描述,系统需要在每个SUl lL满足发射功率约束条件的前提下,对SU发射功率矢量p进行控制,以达到SU网络内所有SU效用值总和最大化的目的。需要对链路容量代表的网络效用总和进行优化

$ \begin{aligned} &\operatorname{OP}_{1}: \max \sum\limits_{l=1}^{L} u_{l} \quad\left(\gamma_{l}(\boldsymbol{p})\right) \\ &\text { s.t. } \quad p_{l} \in P_{l}, \qquad\quad \forall l \end{aligned}, $ (7)

其中,每个SUl的策略空间Pl是一个紧致的、具有最大值和最小值的闭合凸区间plPl=[Plmin, Plmax]。此外,当Plmin=Pl=0时表示SUl选择不进行数据传输和信号发射的特例。

从式(4)和式(7)可知,虽然OP1的约束条件是紧致凸集,但OP1的目标函数由于多用户决策pl之间的耦合性,造成函数ul关于变量p的非凸特性,则OP1是一个非凸优化问题(non-convex problem)。对于该问题一般没有显示解,且其复杂度为NP-Hard[24]。为求解OP1,可定义一种等效的功率控制博弈模型[25]

2 等效博弈模型及超模性分析 2.1 等效博弈模型及代价因子

假设用户从不交换任何信息且仅选择发射功率来满足自身效用最大化目标的情况,可以得到一个非合作功率控制博弈(NPG,noncooperative power control game)模型,有如下定义

定义1:一个NPG模型可被定义为一个三元组

$ G=\left[L,\left\{P_{l}\right\}_{l \in L},\left\{u_{l}\right\}_{l \in L}\right], $ (8)

其中: 玩家集合L可对应网络SUl集合; Pl=[Pl, Pl]为用户策略集; ul(γl)为支付函数(payoff function)。在博弈中,每个玩家(网络用户)从策略集Pl中挑选发射功率策略,并得到收益值ul(γl)。p表示所有用户决策组成的功率矢量,而SUl竞争对手(SUk, kl)的功率分量可被定义为pl=(p1, …, pl-1, pl+1, …, pM)。因此p又可以表示为p=(pl; pl)。支付函数ul(pl, pl)是连续的,且在紧致集Pl上的最大化函数集被称作最优响应对应关系(best response correspondence)并可表示为rl(pl),具体表现为rl: PlPl的映射关系。若p*为NCP模型的纳什均衡(NE, nash equilibrium),当且仅当p*是最优响应函数的不动点,即

定义2:当满足以下条件

$ r_{l}\left(p_{-l}\right)=\left\{u_{l}\left(p_{i}{ }^{*} ; p_{i}^{*}\right) \geqslant u_{l}\left(p_{l}^{\prime}, p_{-l}^{*}\right) \forall p_{l}^{\prime} \in P_{l}, l \in L\right\}, $ (9)

其中,功率策略p*=(pl*, pl*)是NCP模型G的NE。在达到NE后,由于系统效用不会进一步提高,因此各玩家不会擅自对自身策略进行重新选择。文献[25]等已经验证了由于SUl的自私性,博弈G的唯一NE点将是将是pG*=(Pl)l=1L,即每个STl会选择最大发射功率进行数据传输,这将极大影响系统性能,甚至造成数据传输中断。因此,SUl应为策略(功率值)的选取付出相应费用,策略与费用间形成一定对应关系的代价函数,显然该函数应为SUl发射功率pl的递增函数,以对策略的选取发挥有效约束作用。

利用KKT条件求得了代价函数表达式为[26]

$ {\rm{ \mathsf{ π} }}_{j}\left(p_{j}, p_{-j}\right)=-\frac{\partial u_{j}\left(\gamma_{j}\left(p_{j}, p_{-j}\right)\right)}{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)} \frac{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)}{\partial I_{j}\left(p_{-j}\right)}=-\frac{\partial u_{j}\left(\gamma_{j}\left(p_{j}, p_{-j}\right)\right)}{\partial I_{j}\left(p_{-j}\right)}, $ (10)

其中,代价因子πj(pj, pj)为STl向对其产生干扰的SUj(jl)收取的价格,因此其值为负。为了精确表示代价函数,类似文献[27],使用对数yl=logpl对用户决策变量进行代换,用yl表示分贝(decibel,单位dB),则可得到pl=eyl。这种变换是合理的,因为在无线通信系统中一般使用分贝数来描述发射功率的相对强度。因此,代换得到的变量矢量y与原变量p是一一对应的。经过对变量y的变换,式(3)所表示的SINR表达式可重新写为

$ \gamma_{j}(\boldsymbol{p})=\frac{p_{j} h_{j j}}{n_{0}+\sum\nolimits_{k \neq j} p_{k} h_{j k}} \stackrel{p_{j}=e \boldsymbol{y}_{j}}{=} \frac{e^{\boldsymbol{y}_{j}} h_{j j}}{n_{0}+\sum\nolimits_{k \neq j} e^{y k} h_{j k}}=\frac{e^{\boldsymbol{y}_{j}} h_{l l}}{n_{0}+I_{j}\left(p_{-j}\right)}, $ (11)

从式(10)和式(11)可得到代价因子πj(pj, pj)的全新表达式为

$ {\rm{ \mathsf{ π} }}_{j}\left(p_{j}, p_{-j}\right)=-\frac{\partial u_{j}\left(\gamma_{j}\left(p_{j}, p_{-j}\right)\right)}{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)} \frac{\partial \gamma_{j}\left(p_{j}, p_{-j}\right)}{\partial I_{j}\left(p_{-j}\right)}=-u_{j}^{\prime} \frac{\partial}{\partial I_{j}}\left(\frac{e^{\boldsymbol{y}_{j}} h_{j j}}{1+I_{j}\left(p_{-j}\right)}\right)=u_{j}^{\prime} \gamma_{j}^{2} \frac{1}{e^{\boldsymbol{y}_{j}} h_{j j}}, $ (12)

其中,πj完全由用户决策变量所确定。然后,可以得到新的收益函数为

$ U_{l}\left(p_{l} ; p_{-l}, {\rm{ \mathsf{ π} }}_{-l}\right)=u_{l}\left(p_{l}, p_{-l}\right)-p_{l} \sum\limits_{j \neq l} {\rm{ \mathsf{ π} }}_{j} h_{j l}, $ (13)

将式(12)的结果代入式(13)中,可消除代价因子π继续化简得到

$ U_{l}\left(y_{l} ; y_{-l}\right)=u_{l}\left(\gamma_{l}\left(y_{l}, y_{-l}\right)\right)-e^{y l} \sum\limits_{j \neq l} u_{j}^{\prime} \gamma_{j}^{2} \frac{1}{e^{y j} h_{j j}} h_{j l}=u_{l}\left(\gamma_{l}\left(y_{l}, y_{-l}\right)\right)-\sum\limits_{j \neq l} u_{j}^{\prime} \gamma_{j}^{2} A_{l j}, $ (14)

其中,设Alj=(exp(yl)hji)/(exp(yj)hjj)。从式(14)可知,SUl需要最大限度提高其效用函数和代价函数间的差值,权重在数值上等于STl到SRk间信道增益。因此式(8)可变为G=[L, {Pl}lL, {Ul}lL],并对此等效博弈模型的超模性、纳什均衡、解的唯一性和相应迭代算法的设计以及收敛性进行分析和讨论。

2.2 博弈模型超模性和纳什均衡

在等效博弈模型G中,每个STl被当作博弈中的玩家制定各自功率策略,每个STl所付代价看作功率的函数。为了进行分布式资源分配算法的设计,需要讨论博弈G的NE存在性和解的唯一性的条件,并对算法收敛性进行证明。由于超模博弈在对NE解收敛性等方面有很多有用性质,因此首先得到如下定理。

定理1:若其他用户策略y-l固定,则支付函数Ul是1个凹函数。

证明:可将Ul看作效用函数ul(yl, yl)和代价函数$- \sum_{j \ne l} {u_j^\prime } \gamma _j^2{A_{lj}}$的和值。其中,效用函数ul(yl, yl)为对数函数,且在同一时隙内其他用户策略y-l是固定的,则该对数函数显然为凹函数;此外,代价函数也为凹函数。根据凹函数线性组合性质[28],定理得证。

定理2:等效非合作功率控制博弈G中存在至少1个纳什均衡。证明:根据文献[29]所述。若要博弈模型G=[L, {Pl}lL, {Ul}lL]中存在纳什均衡,则当对任何i=1, …, N可满足:Pl为某欧几里得空间RN的非空、凸和紧致子集;ul(p)在p上为连续的,且在pl为拟凹的(Quasi-concave)[30]。则博弈模型G=[L, {Pl}lL, {Ul}lL]中存在至少一个纳什均衡。由于优化问题OP1的原约束变量空间plPl=[Pl, Pl]和变换后的新策略空间Y=∏lL[logPl, logPl]均为紧凸集,且根据定理1,收益函数Ul关于yl的连续凹函数,则根据相关描述,等效非合作功率控制纯策略博弈G中必然存在至少一个纳什均衡。因此定理2得证。

定义3:假设X$\mathbb{R} $T为某偏(有)序集,若函数f在(x, t)上满足f: X×T$\mathbb{R} $对任意x′≥xt′≥t可满足f(x′, t′)-f(x, t′)≥f(x′, t)-f(x, t),则称函数f具有差值递增性(Increasing Differences),即超模性。超模函数具有以下性质:

a) 当t增加时,选择更高x的增量增益将更大。

b) 差值递增性具有对称性,即若t′≥t,则f(x, t′)-f(x, t)关于x为非递减函数。

c) 若函数f为二阶连续可导,则当且仅当对所有xt′≥t时有f(x, t′)-f(x, t),或对所有xt,有fxt(x, t)≥0,则称函数f具有差值递增性。

定义4:若能满足以下条件,则博弈模型G=[L, {Pl}lL, {ul}lL]可被称为超模博弈。

a) 对任意给定p-l,策略空间Pl为某欧氏空间RN中的非空、凸的且紧致子格;

b) ul关于(pl, p-l) 具有上半连续性(upper semicontinuous);

c) 效用函数ul具有差值递增性,即对用户策略pl二阶可导且满足

$ \frac{\partial^{2} U_{l}\left(p_{l}, p_{-l}\right)}{\partial p_{l} \partial p_{l}^{\prime}} \geqslant 0, $

其中,pl为除玩家l外的任何其他用户的发射功率策略。由于超模博弈具有如下重要性质[26],说明一旦确定了博弈G的超模性,则其最优响应收敛性可得到保证。

定理3:若博弈模型G=[L, {Pl}lL, {Ul}lL]为超模博弈,则满足下列性质:

a) NE集合始终存在,且为非空和紧致子格(Sublattice),可逐个搜索最小和最大的NE值;

b) 若SUl从策略空间中最小(或最大)决策值更新策略,则策略值单调收敛到最小(或最大)NE;

c) SUl策略将位于有界区间内。若G存在唯一NE,则策略更新可从初始值全局收敛到唯一NE。

性质a)遵从文献[31]中引理;b)遵从文献[32]中定理;c)的证明详见文献[33]。针对不同SINR情况下不同用户数的认知无线网络需要满足超模性的基本条件进行分析。证明以下定理。

定理4:当网络用户数L=2时,若存在pl可满足条件使$c \le \sqrt {\frac{{{d^2}{A_{12}}\left( {2d{A_{12}} - 1} \right)}}{{{A_{21}}}}} $,则博弈模型G=[L, {Pl}lL, {ul}lL]为超模博弈。其中,pl=eyl$c=\frac{\gamma_{1}}{\left(1+\gamma_{1}\right)}$,以及$d=\frac{\gamma_{2}}{\left(1+\gamma_{2}\right)}$

证明:每个SUl策略空间非空,且策略空间为RN空间的子集,所以必为Sublattice子格,因此,必满足定义3条件a)。Ul的函数形式显然连续且二阶可微。当网络用户数L=2时,SUl效用函数为

$ U_{1}\left(y_{1}, y_{2}\right)=u_{1}\left(\gamma_{1}\left(y_{1}, y_{2}\right)\right)-u_{2}^{\prime} \gamma_{2}^{2} A_{12} ; U_{2}\left(y_{2}, y_{1}\right)=u_{2}\left(\gamma_{2}\left(y_{2}, y_{1}\right)\right)-u_{1}^{\prime} \gamma_{1}^{2} A_{21}, $ (15)

式(15)中2个效用函数式具有对称性,分别对两式计算对策略y1y2的交叉偏微分,省略计算过程可得

$ \frac{\partial U_{1}\left(y_{1} ; y_{2}, {\pi}_{2}\right)}{\partial y_{1}}=u_{1}^{\prime} \gamma_{1}-\left(\frac{\partial u_{2}^{\prime}}{\partial \gamma_{2}} \frac{\partial \gamma_{2}}{\partial y_{1}} \gamma_{2}^{2} A_{12}+2 u_{2}^{\prime} \gamma_{2} \frac{\partial \gamma_{2}}{\partial y_{1}} A_{12}+u_{2}^{\prime} \gamma_{2}^{2} \frac{\partial A_{12}}{\partial y_{1}}\right), $ (16)
$ \begin{aligned} \frac{\partial^{2} U_{1}}{\partial y_{1} \partial y_{2}}=&-\gamma_{1}^{2} A_{21}\left(u_{1}^{\prime \prime} \gamma_{1}+u_{1}^{\prime}\right)+u_{2}^{\prime \prime \prime} \gamma_{2}^{5} A_{12}^{2}+2 u_{2}^{\prime \prime} \gamma_{2}^{4} A_{12}^{2}+\\ &2\left(u_{2}^{\prime \prime} \gamma_{2}^{4} A_{12}^{2}+u_{2}^{\prime} \gamma_{2}^{3} A_{12}^{2}\right)-\left(u_{2}^{\prime \prime} \gamma_{2}^{3} A_{12}+u_{2}^{\prime} \gamma_{2}^{2} A_{12}\right), \end{aligned} $ (17)

其中,式(17)即为L = 2时,SU2收益函数U1二阶交叉偏导。为区别以往研究仅针对高SNR场景的情况,对一般SNR场景确定了满足超模性的条件。

a) 高SINR情况。在高SINR下,效用函数可近似为ul(γl)=logγl,则其关于变量γl的一阶、二阶和三阶导数分别为ul(γl)=1/γlul(γl)=-1/γl2u'''l(γl)=2/γl3。代入公式(17),可得$\frac{{{\partial ^2}{U_1}}}{{\partial {y_1}\partial {y_2}}} = \frac{{{\partial ^2}{U_1}}}{{\partial {y_2}\partial {y_1}}} = 0$。同时根据对称性可得$\frac{{{\partial ^2}{U_2}}}{{\partial {y_2}\partial {y_1}}} = \frac{{{\partial ^2}{U_2}}}{{\partial {y_1}\partial {y_2}}} = 0$。满足了定义3中的条件b),说明在该场景下G为超模博弈;

b) 一般SINR情况。在一般SINR下,效用函数为ul(γl)=log(1+γl),其关于变量γl的一阶、二阶和三阶导数分别为ul(γl)=1/(1+γl)、ul(γl)=-1/(1+γl)2u'''l(γl)=2/(1+γl)3。代入式(17),可得

$ \frac{\partial^{2} U_{1}}{\partial y_{1} \partial y_{2}}=-\frac{\gamma_{1}^{2}}{\left(1+\gamma_{1}\right)^{2}} A_{21}-\frac{\gamma_{2}^{2}}{\left(1+\gamma_{2}\right)^{2}} A_{12}+\frac{2 \gamma_{2}^{3}}{\left(1+\gamma_{2}\right)^{3}} A_{12}^{2}, $ (18)

根据式(18),只要满足$\frac{{{\partial ^2}{U_1}}}{{\partial {y_1}\partial {y_2}}} = - \frac{{\gamma _1^2}}{{{{\left({1 + {\gamma _1}} \right)}^2}}}{A_{21}} - \frac{{\gamma _2^2}}{{{{\left({1 + {\gamma _2}} \right)}^2}}}{A_{12}} + \frac{{2\gamma _2^3}}{{{{\left({1 + {\gamma _2}} \right)}^3}}}A_{12}^2 \ge 0$,即可满足定义3条件b)。因此,这里令$\frac{{{\gamma _1}}}{{\left({1 + {\gamma _1}} \right)}} = c$,以及$\frac{{{\gamma _2}}}{{\left({1 + {\gamma _2}} \right)}} = d$,则可将式(18)改写为

$ \begin{aligned} &\frac{\partial^{2} U_{1}}{\partial y_{1} \partial y_{2}}=2 d^{3} A_{12}^{2}-d^{2} A_{12}-c^{2} A_{21} \geqslant 0 \rightarrow d^{2} A_{12}\left(2 d A_{12}-1\right) \geqslant c^{2} A_{21} \\ &\sqrt{\frac{d^{2} A_{12}\left(2 d A_{12}-1\right)}{A_{21}}} \geqslant c \end{aligned}, $ (19)

则从式(19)可以看出,只要SU1的SINR γ1满足条件$c \le \sqrt {\frac{{{d^2}{A_{12}}\left({2d{A_{12}} - 1} \right)}}{{{A_{21}}}}} $,则可满足定义3中条件b)。通过对称性可知对于SU2同样适用。则在一般SNR场景下G为超模博弈。定理得证。

定理5:使用对数效用函数ul(γl)=θllog(γl),当网络用户数L>2时,若存在pl=eyl可满足条件使当0<γjAlj$\frac{1}{2}$,则G=[L, {Pl}lL, {ul}lL]为超模博弈,且其支付函数为凹函数。

证明:首先证明博弈G的超模性,然后证明收益函数的凹凸性。已知多用户的收益函数如式(14),分别计算关于yl的二阶偏导(目标函数Hessian矩阵的对角线项)和关于ylyi的交叉偏导(非对角线项)如下(相关计算步骤从略)

$ \frac{\partial^{2} U_{l}}{\partial y_{l}{}^{2}}=\gamma_{l}\left(u_{l}^{\prime \prime} \gamma_{l}+u_{l}^{\prime}\right)-\sum\limits_{j \neq l}\left(u_{j}^{(3)} \gamma_{j}^{6} A_{l j}^{3}+6 u_{j}^{\prime \prime} \gamma_{j}^{5} A_{l j}^{3}-3 u_{j}^{\prime \prime} \gamma_{j}^{4} A_{i j}^{2}+6 u_{j}^{\prime} \gamma_{j}^{4} A_{l j}^{3}-6 u_{j}^{\prime} \gamma_{j}^{3} A_{l j}^{2}+u_{j}^{\prime} \gamma_{j}^{2} A_{l j}\right), $ (20)
$ \begin{aligned} &\frac{\partial^{2} U_{l}}{\partial y_{l} \partial y_{i}}=-\gamma_{l}^{2} A_{i l}\left(u_{l}^{\prime \prime} \gamma_{l}+u_{l}^{\prime}\right)-\gamma_{i}^{2} A_{l i}\left(u_{i}^{\prime \prime} \gamma_{i}+u_{i}^{\prime}\right)+\gamma_{i}^{3} A_{l i}^{2}\left(u_{i}^{(3)} \gamma_{i}^{2}+4 u_{i}^{\prime \prime} \gamma_{i}+2 u_{i}^{\prime}\right)- \\ &\sum\limits_{j \neq i, l} \gamma_{j}^{3} A_{l j} A_{i j}\left(u_{j}^{(3)} \gamma_{j}^{3} A_{l j}+u_{j}^{\prime \prime} \gamma_{j}\left(6 \gamma_{j} A_{l j}-1\right)+2 u_{j}^{\prime}\left(3 \gamma_{j} A_{l j}-1\right)\right)=\frac{\partial^{2} U_{l}}{\partial y_{i} \partial y_{l}} \end{aligned}, $ (21)

其中,根据式(21),由于$\frac{{{\partial ^2}{U_l}}}{{\partial {y_l}\partial {y_i}}} = \frac{{{\partial ^2}{U_l}}}{{\partial {y_i}\partial {y_l}}}$,可知收益函数的Hessian矩阵具有对称性。由于效用函数中权重θl为常数,不失一般地设为θl=1,表示每个用户具有相同业务优先级。

a) 证明收益函数凹凸性。

不失一般性,在高SINR下若SUl使用对数效用函数ul,对∀lulγl+ul=0以及ulγl+2ul>0。对于收益函数Hessian矩阵对角线项式(20),有γl(ulγl+ul)=0,可确定对角线元素为负的条件。式(20)将变为

$ \frac{\partial^{2} U_{l}}{\partial y_{l}{ }^{2}}=-\sum\limits_{j \neq l}\left(u_{j}^{(3)} \gamma_{j}^{6} A_{l j}^{3}+3 u_{j}^{\prime \prime} \gamma_{j}^{4} A_{l j}^{2}\left(2 \gamma_{j} A_{l j}-1\right)+u_{j}^{\prime} \gamma_{j}^{2} A_{l j}\left(6 \gamma_{j}^{2} A_{l j}^{2}-6 \gamma_{j} A_{l j}+1\right)\right., $ (22)

使式(22)为负的计算较为复杂,对数函数ul,其三阶导数应大于零,则可得$u_j^{(3)}\gamma _j^6A_{lj}^3 \ge 0, u_j^{\prime \prime } = - \frac{{{\theta _j}}}{{\gamma _i^2}} \le 0$。相似地,可得ujγj2Alj≥0。通过求解以下条件,可得到式(20)和式(22)所代表的对数效用函数Hessian矩阵中对角元素小于零的条件子集

$ \left\{\begin{array}{l} 2 \gamma_{j} A_{l j}-1 \leqslant 0 ,\\ 6 \gamma_{j}^{2} A_{l j}^{2}-6 \gamma_{j} A_{l j}+1 \geqslant 0。\end{array}\right. $ (23)

$2{\gamma _j}{A_{lj}} - 1 \le 0 \Rightarrow {\gamma _j}{A_{lj}} \le \frac{1}{2}$,则有

$ \begin{aligned} &2 \gamma_{j} A_{l j}-1=2 \frac{e^{y_{j}} h_{j j}}{1+\sum\nolimits_{k \neq j} e^{y k} h_{j k}} \frac{e^{y l} h_{j l}}{e^{y j} h_{j j}}-1 \\ &\Rightarrow e^{y l} h_{j l} \leqslant \frac{1}{2}\left(1+\sum\limits_{k \neq j} e^{y k} h_{j k}\right) \end{aligned}, $ (24)

这表示若SUj的SINR中由SUl带来的干扰功率小于等于SRj所接收干扰加噪声功率的一半,则2γjAlj-1≤0。此外对于条件6γj2Alj2-6γjAlj+1≥0,可根据二次函数求根公式进行求解为

$ \gamma_{j} A_{l j}=\frac{-b \pm \sqrt{b^{2}-4 a c}}{2 a}=\frac{6 \pm \sqrt{36-24}}{12}=\frac{3 \pm \sqrt{3}}{6}, $ (25)

γjAlj取值范围为$\gamma_{j} A_{l j} \geqslant \frac{3+\sqrt{3}}{6}$$0 < \gamma_{j} A_{l j} \leqslant \frac{3-\sqrt{3}}{6}$,结合式(20)可知,当γjAlj满足γjAlj$\left(0, \frac{3-\sqrt{3}}{6}\right]$时,Hll(y)<0,则收益函数为凹函数。又比如,使γjAlj=Bj并将对数效用函数ul代入式(22),可等效表示为

$ \begin{aligned} &2 \theta_{j} B_{j}^{3}-6 \theta_{j} B_{j}^{3}+3 \theta_{j} B_{j}^{2}+6 \theta_{j} B_{j}^{3}-6 \theta_{j} B_{j}^{2}+\theta_{j} B_{j}= \\ &2 \theta_{j} B_{j}^{3}+3 \theta_{j} B_{j}^{2}+\theta_{j} B_{j}= \\ &\theta_{j} B_{j}\left(2 B_{j}^{2}-3 B_{j}+1\right) \geqslant 0, \end{aligned} $ (26)

其中,θj为每个SUj为常数的优先级权重,且γjAlj=Bj>0,由此可解得当满足Bj∈(0, 1/2]∪[1, +∞)时,Hll(y)<0,则支付函数为严格凹函数。

b) 证明博弈模型超模性。

要证明G=[N, {Pi}, {ui(·)}]具有超模性,只需使收益函数Hessian矩阵的非对角项为非负。不失一般性,在高SINR下当使用对数效用函数θllog(γl)时,式(21)中有-γj2Aij(ulγl+ul)-γi2Ali(uiγi+ui)=0,以及γi3Ali2(ui(3)γi2+4uiγi+2ui)=0。则可将式(21)计算为

$ \begin{aligned} \frac{\partial^{2} U_{l}}{\partial y_{l} \partial y_{i}}=&-\gamma_{l}^{2} A_{i l}\left(u_{i}^{\prime \prime} \gamma_{l}+u_{l}^{\prime}\right)-\gamma_{i}^{2} A_{l i}\left(u_{i}^{\prime \prime} \gamma_{i}+u_{i}^{\prime}\right)+\gamma_{i}^{3} A_{l i}^{2}\left(u_{i}^{(3)} \gamma_{i}^{2}+4 u_{i}^{\prime \prime} \gamma_{i}+2 u_{i}^{\prime}\right)-\\ & \sum\limits_{j \neq i, l} \gamma_{j}^{3} A_{l j} A_{i j}\left(u_{j}^{(3)} \gamma_{j}^{3} A_{l j}+u_{j}^{\prime \prime} \gamma_{j}\left(6 \gamma_{j} A_{l j}-1\right)+2 u_{j}^{\prime}\left(3 \gamma_{j} A_{l j}-1\right)\right)=\\ &-\sum\limits_{j \neq i, l}\left(2 \gamma_{j}^{3} A_{l j}^{2} A_{i j}-\gamma_{j}^{2} A_{l j} A_{i j}\right) \geqslant 0 \Rightarrow \sum\limits_{j \neq i, l} \gamma_{j}^{2} A_{l j} A_{i j}\left(2 \gamma_{j} A_{l j}-1\right) \leqslant 0 \Rightarrow 0<\gamma_{j} A_{l j} \leqslant \frac{1}{2}, \end{aligned} $ (27)

可得,当0<γjAlj$\frac{1}{2}$时,使得G中支付函数关于ylyi交叉偏导数非负。因此,当满足该条件时,博弈G为超模博弈,且支付函数为严格凹函数。至此,定理5得证,另外,由于与文献[26]应用场景相似,因此关于OP1解的唯一性(NE的全局收敛性)分析可直接参考文献[26]。

3 基于Gradient Play的分布式容量优化算法设计

在本博弈模型G中考虑一种系统状态更新机制,使玩家SUl通过观察其他SUk所制定策略造成结果(对其他用户产生干扰所支付代价),使其能重复调整发射功率以及时调整所得收益,最终达到NE。最简单的策略更新机制是最优响应,如${r_l}\left({p{ - _l}} \right) = \mathop {\arg \max }\limits_{pl \in {P_l}} {u_l}\left({{\gamma _l}\left({{p_l}, {p_{ - l}}} \right)} \right)$:若系统工作在时隙模式下,每个时隙,各SUl基于上个时隙所获反馈信息选择下个时隙的最优决策。即在t+1时隙,SUl通过以下机制选择策略

$ p_{l}(t+1)=r_{l}\left(p_{-l}(t)\right)=\arg \max \limits_{p_l(t) \in P_{l}} U_{l}\left(\gamma_{l}\left(p_{l}(t), p_{-l}(t)\right)\right) $ (28)

当所表示的上述动态模型达到稳定状态,则该状态一定是均衡点。然而,对一般形式的博弈模型,其收敛性能并不令人满意。因此考虑另一种替代机制Gradient Play[34]。相比在前述每一步致力于寻找使性能最优的“最优响应”机制,Gradient Play可看成一种“更优响应”的机制。在这种机制中,每个玩家基于对其他玩家所做决策的结果观察,以梯度方向迭代地调整当前决策。则每个SUl可根据下式更新其策略

$ p_{l}(t+1)=\left[p_{l}(t)+f_{l}\left(p_{l}(t)\right)\left(U_{l}^{\prime}\left(p_{l}(t), p_{-l}(t)\right)\right)\right] P_{l}, $ (29)

其中: fl(pl(t))>0代表每次迭代的步长,可以是关于玩家l在当前时隙t下决策的函数; Pl表示向SUl策略空间的映射。若将代价因子πj解释为SU间竞争的价格,则Gradient Play为系统提供了合理的经济学解释:如果边际效用$\frac{\mathrm{d} u_{l}\left(p_{l}\right)}{\mathrm{d} p_{l}}$(Marginal Utility)比竞争成本高,则可提高发射功率,反之则不提高甚至降低发射功率(在经济学领域,边际效用是指某种物品的消费量每增加一单位所增加的满足程度。每增加一个单位的功率,增加的效用递减;最后一个消耗单位的效用最小;而决定价值的,不是它的最大效用,也不是它的平均效用,而是它的最小效用,即“边际效用”)。

$ y_{l}(t+1)=\left[y_{l}(t)+f_{l}\left(y_{l}(t)\right)\left(U_{l}^{\prime}\left(y_{l}(t), y_{-l}(t)\right)\right)\right] Y_{l}, $ (30)

系统工作在时隙模式下,每个SUl在第t个时隙向其他用户声明各自的功率值pl(t),SUl接收到其他SUk提供信息后,基于所得发射功率pj(t), jl首先通过yl(t)=logpl(t)进行变量代换,接着利用式(12)对向所有其他用户j进行代价因子(收取干扰产生费用)的计算,然后通过式(30)计算t+1时隙使用的发射功率yl(t+1),最后通过pl(t+1)=eyl(t+1)对发射功率进行还原。这里为了保证算法的收敛性,使用Gradient算法进行状态的更新。这里假设所有用户都知道所有链路和交叉链路信道增益的完全知识(由其他用户的广播所得)。此外,基于对数效用函数的式(14)可化为Ul(yl; yl)=ul(γl(yl, yl))-$\sum_{j \ne l} {} \frac{1}{{1 + {\gamma _j}}}\gamma _j^2{A_{lj}}$Ul(yl; yl)=ul(γl(yl, yl))-$\sum_{j \ne l} {{\gamma _j}} {A_{lj}}$的形式。步长fl(pl(t))>0采用固定步长fl>0且尽量小(如选取0.000 1和0.001作为步长值),另一方面可参考文献中使用的Diminishing步长[35-38],已有相关收敛性结论可供参考。相应解法所概括的算法1伪代码如表 1所示。

表 1 基于Gradient Play方法的分布式容量优化算法 Table 1 The Gradient-Play based distributed capacity optimization algorithm

针对表 1,可看到为了实现系统策略状态更新,在每个时隙t,每个用户需要获取的信息有:1)其他用户的功率值pl(t)(每个用户的发射机进行周期性广播);2)当前信道增益hll(接收机处测量并反馈到发射机)和临近信道增益hjl(每个用户的接收机进行周期的信标广播);3)接收SINR值γl(t), lL(每个用户的接收机周期广播)。每个用户基于以上信息,计算其他用户的代价值并用于后续计算中。从定理3描述的超模博弈的性质出发,只要博弈模型满足超模性且存在NE,即使是非增量式的最优响应算法也可以得到平衡,因此增量式的Gradient Play算法也可以收敛到NE。

定理6:等效超模博弈G=[L, {Pl}lL, {Ul}lL]可从任意初始值收敛到其NE点。

证明:通过相关定义,非合作博弈的纳什均衡(NE)点必须满足最优响应函数BRl(yl)=(yl*)=arg$\mathop {\max }\limits_{yl \in {Y_l}} {U_l}\left({{y_l}, {y_{ - l}}} \right)$。为了证明该等效超模博弈收敛到其NE点,必须证明用户l的最优响应策略函数是标准函数(Standard Function)[25]。若要函数具有Standard属性,对所有x≥0必须满足以下条件:

1) 函数值为正(Positivity):f(x)>0;

2) 单调性(Monotonicity):若xx′,则f(x)≥f(x′);

3) 可伸缩性(Scalability):对所有a>1,均有af(x)≥f(ax)。

其中,x=(x1, x2, …, xN)为NE点。对于所定义的等效超模博弈模型,根据文献[25],能容易证明最优响应函数BRl(y)满足上述条件。相似地,对于Gradient Play更新函数,对∀ylYl也可证明如下:

1) yl(t)>0,显然Ul(yl(t), yl(t))>0,且yl(t+1)=yl(t)+fl·Ul(yl(t), yl(t))>0;

2) 若yl(t)>yl(t),可知支付函数一阶导Ul(yl(t), yl(t))>0,因此得yl(t)+fl·Ul(yl(t), yl(t))>yl(t)+fl·Ul(yl(t), yl(t)),满足单调性(ul采用对数效用函数);

3) 对所有a>1,由于yl+fl·Ul(yl, yl)为关于yl的严格递增函数,则有a(yl(t)+fl·Ul(yl(t), yl(t)))≥ayl(t)+fl·Ul(ayl(t), ayl(t))。

因此,等效超模博弈始终会向NE点收敛,定理得证,在仿真实验中选取0.001和0.01步长分别在2用户和30用户上进行了收敛性数值仿真验证。

4 仿真实验及性能对比

在仿真实验中,假设多个SU已经检测到了频谱空洞,基于Gradient Play的分布式容量优化资源分配算法分析SU网络的性能,并假设算法运行过程中PU不出现,基于此假设进行仿真实验并对结果进行分析。首先设置仿真场景,相关参数如下:

1) 模拟一个在50 m×50 m方形区域内随机生成的分布式网络,生成1~30对网络用户通信对,每个用户节点的相应收发端随机分布在15 m×15 m的方形区域内;

2) 所有网络用户共享相同频谱资源,信道带宽B=64;

3) 信道增益遵循的衰落公式为hjl=djl-4,其中d为用户j发射机到用户l接收机的欧式距离;

4) 每个用户功率范围pl=[0, 1]WPlmax/n0=40 dB;

5) 每个用户选择固定步长为fl = 0.01,且假设θ0 = 1和Pf虚警概率为0,将CRAHN近似为Ad hoc;

6) 产生1到30个用户传输对,同时对用户之间的距离单位和信号衰减因子等参数进行设置。

图 3所示显示了30个网络用户的链路分布情况,其中蓝色圆圈为发射机,红色方块为相应的接收机,针对不同用户数的每个场景,均通过均匀分布随机生成20组拓扑结构进行比较。

图 3 1~30个用户通信收发对的网络模型 Fig. 3 The CRAHN model with randomized 1~30 users

图 4~图 6显示了用户收发对分别为2和30个的时候,网络系统中各用户发射功率分配和对其他用户干扰代价值的典型收敛情况(每条线均代表一个用户的发射功率值或干扰代价值的变化情况),所有场景均基于随机的参数初始化。其中,用户数不多时(图 4的2用户网络)将发射功率和干扰代价在一张图上显示,当用户收发对增加到30个,即通过图 5图 6分别将发射功率值和干扰代价值的收敛情况进行分开显示。

图 4 2用户无线网络Gradient Play算法的收敛效果仿真 Fig. 4 The convergence effects of Gradient-play based algorithm for CRAHN with 2 users
图 5 30个用户无线网络中Gradient Play算法对用户功率分配的收敛效果 Fig. 5 The power allocation convergence of Gradient-play based algorithm for CRAHN with 30 users
图 6 30个用户无线网络Gradient Play算法对干扰代价值的收敛效果 Fig. 6 The interference price convergence of Gradient-play based algorithm for CRAHN with 30 users

图 4显示了2用户网络中各用户发射功率和系统容量变化的对应关系,由于网络节点的SNR较高(Plmax/n0=40 dB),因此用户效用函数可以用香农公式的近似对数形式表示,可以看到在迭代过程中,随着功率的变化,各用户所在的链路容量是呈明显的正比关系的。由于信道增益随着图 4的网络传输对之间的随机距离所得,因此算法从初始化到收敛的迭代次数不定;另一方面迭代次数与步长大小和收敛精度等参数的设置有关。但从图可见经过1 000次以内的迭代,算法均能收敛。说明增量式算法能保证收敛性。

图 5图 6分别显示了30用户的网络中各用户发射功率和干扰代价值变化的过程。各用户随着分布式算法迭代次数的增加,根据其他用户的策略状态导致的反馈结果,以增量方式对各自的发射功率进行调节。除了个别用户达到了发射功率最大值1以外,其他大多数用户都在pl= [0, 1]W范围内取得了发射功率值。该场景下,算法的收敛迭代次数在600次以内。

此外,图 6显示了各用户因发射功率更新所得到对其他用户相应的干扰代价值的变化趋势。从图中前40次左右的迭代中,几乎所有用户由于其自私性,都在尽力提高当前链路上的发射功率,因此相应地增大了各自的干扰代价。随着分布式算法迭代次数的增加,根据其他用户的策略状态导致的反馈结果,以增量方式对各自的发射功率进行调节,干扰代价又降低了下来,最终达到均衡点下的稳定状态。该场景下,算法的收敛迭代次数在600次以内。

最后,图 7展示了在CRAHN中的不同信噪比条件下,用户收发对从1个提高到30个所带来的网络容量性能变化趋势。从图上可以看出:1)用户数从1个到15个的增加过程中,3种信噪比场景下,网络的总容量都基本处于提高阶段,说明在分布式算法的发射功率控制优化是有效的,能使网络总容量得到提升。其中SNR=30 dB和SNR=40 dB的情况比较类似,而SNR=20 dB场景下的信噪比相比之下网络总容量差别较大,说明分布式算法在这个SNR条件下,针对基于香农容量对数近似公式的网络容量的优化效果并不明显;2)用户数从15个~25个左右时,3种SNR场景的网络总容量呈现一种保持中略有下降的趋势,直到用户数从25个到30个变化过程中,3个SNR条件场景中的网络总容量出现较明显的下降。这是因为随着网络中用户数的增多,网内干扰的比重大大增加,且随着用户数增多造成了用户策略的耦合性增强,用户依靠分布式算法进行的功率调整不容量对网络总容量有太多的贡献;3)在SNR=20 dB的场景中的网络总容量相比较强SNR条件下的网络性能来说,更容易收到用户数增加的影响,因为各用户的最大发射功率不变,而网络SNR偏低,则网内干扰更容易收到各用户发射功率的影响,用户数的增多使得网络内的资源优化共享更加难以协调。因此SNR越低的场景下,网络总容量更容易受到用户数的影响。

图 7 认知无线网络中用户数和信噪比变化对网络总容量的影响关系 Fig. 7 The influence of user number and SINR on the total capacity of CRAHN
5 结论

基于超模博弈理论针对CRAHN网络系统容量最大化问题进行了研究,解决了同频点无线Ad hoc网络容量和模型中用户间策略的偶合性问题。首先,根据相关约束条件对无线Ad hoc网络吞吐量之和模型进行了建立,转化为等效博弈模型,并利用KKT条件引入代表干扰代价的新变量,且写出代价关于策略的精确表达式;然后,针对不同SINR条件下的等效博弈模型进行了系统容量模型的超模性证明,后分别基于Best Response和Gradient方法得到分布式资源分配算法。仿真结果表明,在不同的功率、干扰和QoS需求条件下,该方法相比其他同类算法所需要的信息交换更少,相比Best Response算法具有更稳健的收敛性保证。主要贡献在于:首先,根据相关约束条件对无线Ad hoc网络容量和模型进行了建立,然后转化为等效博弈模型,利用KKT条件引入代表干扰代价的新变量;然后,针对不同SINR和用户数条件下的等效博弈模型进行了系统容量模型的超模性证明,后基于梯度法得到分布式资源分配算法。仿真结果表明,在不同的功率、干扰和QoS需求条件下,该方法相比其他同类算法所需要的信息交换更少,相比最优响应方法具有更稳健的收敛性保证。

参考文献
[1]
Xu C, Zheng M, Liang W, et al. End-to-end throughput maximization for underlay multi-hop cognitive radio networks with RF energy harvesting[J]. IEEE Transactions on Wireless Communications, 2017, 16(6): 3561-3572. DOI:10.1109/TWC.2017.2684125
[2]
Rakovic V, Denkovski D, Hadzi-Velkov Z, et al. Optimal time sharing in underlay cognitive radio systems with RF energy harvesting[EB/OL]. 2015: arXiv: 1507.00071[cs. IT]. https://arxiv.org/abs/1507.00071
[3]
Hoang D T, Niyato D, Wang P, et al. Opportunistic channel access and RF energy harvesting in cognitive radio networks[J]. IEEE Journal on Selected Areas in Communications, 2014, 32(11): 2039-2052. DOI:10.1109/JSAC.2014.141108
[4]
Wang Z H, Chen Z Y, Xia B, et al. Cognitive relay networks with energy harvesting and information transfer: design, analysis, and optimization[J]. IEEE Transactions on Wireless Communications, 2016, 15(4): 2562-2576. DOI:10.1109/TWC.2015.2504581
[5]
Shen K M, Yu W. Fractional programming for communication systems-part I: power control and beamforming[J]. IEEE Transactions on Signal Processing, 2018, 66(10): 2616-2630. DOI:10.1109/TSP.2018.2812733
[6]
Alpcan T, Nekouei E, Nair G N, et al. An information analysis of iterative algorithms for network utility maximization and strategic games[J]. IEEE Transactions on Control of Network Systems, 2019, 6(1): 151-162. DOI:10.1109/TCNS.2018.2802869
[7]
Shi Q J, Razaviyayn M, Luo Z Q, et al. An iteratively weighted MMSE approach to distributed sum-utility maximization for a MIMO interfering broadcast channel[J]. IEEE Transactions on Signal Processing, 2011, 59(9): 4331-4340. DOI:10.1109/TSP.2011.2147784
[8]
Chiang M, Hande P, Lan T, et al. Power control in wireless cellular networks[J]. Foundations and Trends© in Networking, 2007, 2(4): 381-533. DOI:10.1561/1300000009
[9]
Zhang H H, Venturino L, Prasad N, et al. Weighted sum-rate maximization in multi-cell networks via coordinated scheduling and discrete power control[J]. IEEE Journal on Selected Areas in Communications, 2011, 29(6): 1214-1224. DOI:10.1109/JSAC.2011.110609
[10]
El Tanab M, Hamouda W. Resource allocation for underlay cognitive radio networks: a survey[J]. IEEE Communications Surveys & Tutorials, 2017, 19(2): 1249-1276.
[11]
Lee H W, Chang W, Jung B C. Optimal power allocation and allowable interference shaping in cognitive radio networks[J]. Computers & Electrical Engineering, 2018, 71: 265-272.
[12]
Tang N K, Mao S W, Kompella S. Power control in full duplex underlay cognitive radio networks: a control theoretic approach[C]//2014 IEEE Military Communications Conference. October 6-8, 2014, Baltimore, MD, USA. IEEE, 2014: 949-954.
[13]
Wang H C, Chen J, Ding G R, et al. D2D communications underlaying UAV-assisted access networks[J]. IEEE Access, 2018, 6: 46244-46255. DOI:10.1109/ACCESS.2018.2865629
[14]
Luo L, Roy S. A two-stage sensing technique for dynamic spectrum access[J]. 2008 IEEE International Conference on Communications, 2008, 4181-4185.
[15]
Luo L, Ghosh C, Roy S. Joint optimization of spectrum sensing for cognitive radio networks[C]//2010 IEEE Global Telecommunications Conference GLOBECOM 2010. December 6-10, 2010, Miami, FL, USA: IEEE, 2010: 1-5.
[16]
Qian X M, Hao L. Spectrum sensing with energy detection in cognitive Vehicular Ad hoc Networks[C]//2014 IEEE 6th International Symposium on Wireless Vehicular Communications (WiVeC 2014). September 14-15, 2014, Vancouver, BC, Canada: IEEE, 2014: 1-5.
[17]
Verma G, Sahu O P. Throughput maximization of cognitive radio under the optimization of sensing duration[J]. Wireless Personal Communications, 2017, 97(1): 1251-1266. DOI:10.1007/s11277-017-4564-x
[18]
Kang X, Liang Y C, Garg H K, et al. Sensing-based spectrum sharing in cognitive radio networks[J]. IEEE Transactions on Vehicular Technology, 2009, 58(8): 4649-4654. DOI:10.1109/TVT.2009.2018258
[19]
Nguyen V D, Shin O S. Cooperative prediction-and-sensing-based spectrum sharing in cognitive radio networks[J]. IEEE Transactions on Cognitive Communications and Networking, 2018, 4(1): 108-120. DOI:10.1109/TCCN.2017.2776138
[20]
Choi S, Park H, Hwang T. Optimal beamforming and power allocation for sensing-based spectrum sharing in cognitive radio networks[J]. IEEE Transactions on Vehicular Technology, 2014, 63(1): 412-417. DOI:10.1109/TVT.2013.2270091
[21]
Wang R S, Liu G L, Zhang H J, et al. Resource allocation for energy-efficient NOMA network based on super-modular game[C]//2018 IEEE International Conference on Communications Workshops (ICC Workshops). May 20-24, 2018, Kansas City, MO, USA: IEEE, 2018: 1-6.
[22]
Liu G L, Wang R S, Zhang H J, et al. Super-modular game-based user scheduling and power allocation for energy-efficient NOMA network[J]. IEEE Transactions on Wireless Communications, 2018, 17(6): 3877-3888. DOI:10.1109/TWC.2018.2817194
[23]
Pei Y Y, Liang Y C, Teh K C, et al. Sensing-throughput tradeoff for cognitive radio networks: a multiple-channel scenario[C]//2009 IEEE 20th International Symposium on Personal, Indoor and Mobile Radio Communications. September 13-16, 2009, Tokyo, Japan: IEEE, 2009: 1257-1261.
[24]
Luo Z Q, Zhang S Z. Dynamic spectrum management: complexity and duality[J]. IEEE Journal of Selected Topics in Signal Processing, 2008, 2(1): 57-73. DOI:10.1109/JSTSP.2007.914876
[25]
Saraydar C U, Mandayam N B, Goodman D J. Efficient power control via pricing in wireless data networks[J]. IEEE Transactions on Communications, 2002, 50(2): 291-303. DOI:10.1109/26.983324
[26]
Huang J W, Berry R A, Honig M L. Distributed interference compensation for wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2006, 24(5): 1074-1084. DOI:10.1109/JSAC.2006.872889
[27]
Chiang M. Balancing transport and physical Layers in wireless multihop networks: jointly optimal congestion control and power control[J]. IEEE Journal on Selected Areas in Communications, 2005, 23(1): 104-116. DOI:10.1109/JSAC.2004.837347
[28]
Boyd S, Vandenberghe L. Convex optimization[M]. Cambridge: Cambridge University Press, 2004.
[29]
Glicksberg I L. A further generalization of the kakutani fixed point theorem, with application to Nash equilibrium points[J]. Proceedings of the American Mathematical Society, 1952, 3(1): 170.
[30]
Roberts A W, Varberg D E. Convex functions[M]. New York: Academic Press, 1973.
[31]
Topkis D M. Supermodularity and complementarity[EB/OL]. 1998
[32]
Altman E, Altman Z. S-modular games and power control in wireless networks[J]. IEEE Transactions on Automatic Control, 2003, 48(5): 839-842. DOI:10.1109/TAC.2003.811264
[33]
Milgrom P, Roberts J. Rationalizability, learning, and equilibrium in games with strategic complementarities[J]. Econometrica, 1990, 58(6): 1255. DOI:10.2307/2938316
[34]
Taylor P, Day T. Evolutionary stability under the replicator and the gradient dynamics[J]. Evolutionary Ecology, 1997, 11(5): 579-590. DOI:10.1007/s10682-997-1513-2
[35]
Zhou X Y, Dall'Anese E, Chen L J. Online stochastic optimization of networked distributed energy resources[J]. IEEE Transactions on Automatic Control, 2020, 65(6): 2387-2401. DOI:10.1109/TAC.2019.2927925
[36]
Zhou X. Distributed real-time voltage regulation in distribution networks[D]. US: University of Colorado at Boulder, 2018.
[37]
Zhou X Y, Liu Z Y, Dall'Anese E, et al. Stochastic dual algorithm for voltage regulation in distribution networks with discrete loads[C]//2017 IEEE International Conference on Smart Grid Communications (SmartGridComm). October 23-27, 2017, Dresden, Germany: IEEE, 2017: 405-410.
[38]
Scutari G, Palomar D P. MIMO cognitive radio: a game theoretical approach[J]. IEEE transactions on signal processing, 2010, 58(2): 761-780. DOI:10.1109/TSP.2009.2032039