77范文网 - 专业文章范例文档资料分享平台

基于分布式独立学习的多用户动态频谱接入新算法(2)

来源:网络收集 时间:2019-01-07 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

同(冲突)或者各认知用户所选用频点相同(冲突)时,系统的奖赏函数r为 “相同(没有冲突)时, r 为 “

1?a*(pi?b)?5?a*(pi?b)”; 不

” ,奖赏函数前面一部分的参数反映降低冲突概率的

要求,当认知用户与主用户或者其他认知用户发生冲突时,即两者占用同一频点,奖赏函数为-5;当认知用户与主用户或者其他认知用户没有发生冲突时,即两者占用不同的频点,奖赏函数为1。奖赏函数后一部分a*(pi?b)反映了认知用户占用该频点时信噪比对奖赏函数的影响,其中

pi?p(i)?p(i)1n为第i个频点的信噪比占系统总信噪比的百分比,p(i)为第i个频点的信噪比,n为系

统的频点数,a,b为常数。

4) 评价方式

本算法针对的是多认知用户动态频谱接入问题,目的是在没有人为干预的情况下,认知

用户可以智能的接入系统,降低冲突概率,提高系统平均容量。仿真采用分段统计的方法,仿真了系统的冲突概率和不同信噪比时系统的平均容量,比较了考虑信噪比与不考虑信噪比这两种情况下系统的冲突概率和平均容量情况,采用的是look-up表表达值函数。

实现的过程如下:

1)初始化参数

初始化Q 值,设定折扣因子?。 2)构建状态S

由状态感知模块感知到的授权用户占用系统频谱的情况和认知用户自身占用的情况来构

建状态空间S。

3)获取Q值

根据状态S和授权用户将要采取的动作A, 从Q 值表中获取Q 值。 4)选择和执行动作

动作选择模块根据每一个Qi(s,a1,a2)和式(4) , 采用贪婪算法从A中选择两个动作

a1(1),a1(2)并执行,其中a1(1)为认知用户一执行的动作,a1(2)为认知用户二执行的动作。本

文采用的贪婪算法并不是完全执行Q值最大所对应的动作,而是大部分时间选择能得到最高回报的动作,偶尔也以小概率随机选择与动作估计值无关的工作。但随着学习时间的推移,最终要选择所处状态的Q值最大所对应的动作,只有这样,最终才能完全收敛,这是探索和利用的平衡问题。

5)获取回报

本文设定当认知用户选择占用的频率与主用户或者其他认知用户冲突时, r=

?5?a*(pi?b); 不冲突时, r= 1?a*(pi?b)。

6)更新Q 值

动作执行后, 新的状态s′及其所有的Q 值Qi(s',a1',a2')就能够由步骤(2) (3)得到,

Qt(s,a1,a2)可由式(4)更新为Qt?1(s,a1,a2)。

7)更新参数

每轮迭代结束时, 折扣因子?都需要更新。本文设置它以负指数规律随着学习的过程逐渐

减小为0, 以满足收敛性要求。

5 仿真与分析

本文对基于分布式独立学习的多认知用户动态频谱接入新算法具体实现进行仿真,仿真时假设共有12个可选频段(即信道),主用户数位3个,认知用户数为2个,每个主用户和每个认知用户每次都只占用一个,假设带宽B为1HZ,同时分别令信道的平均信噪比SNR分别为6dB,8dB,10dB,12dB,14dB,16dB,18dB,每个信道的信噪比随机分布。我们分别对以下两种情况进行了仿真:(1)授权用户固定占用信道,(2)授权用户以一序列跳频的方式占用信道。认知用户共学习10000次,在迭代的基础上,分20 个相等的学习阶段统计冲突概率,同时仿真了不同的平均信噪比时的系统的平均容量。本算法中系统的容量仅考虑认知用户的容量,且是经过学习,系统稳定后的容量,本文中认知用户数为2。

图3和图4为授权用户固定占用频点时系统的冲突概率以及系统的平均容量。由图3可以看出,随着学习时间的增加, 冲突概率都能够明显降低, 直到完全避免冲突。由图4可以看出,认知用户接入时考虑了信道信噪比后,可以在降低冲突概率的同时,使得系统的平均容量增加。

未考虑信噪比认知用户一未考虑信噪比认知用户二考虑信噪比认知用户一考虑信噪比认知用户二0.30.25冲突概率0.20.150.10.050 024681012分段统计次数14161820

图3授权用户固定占用频点时的冲突概率

14未考虑信噪比认知用户一未考虑信噪比认知用户二考虑信噪比认知用户一考虑信噪比认知用户二 12平均容量(bit/s)108642 681012SNR(dB)141618

图4授权用户固定占用频点时的系统平均容量

图5和图6为授权用户以随机序列方式跳频时系统的冲突概率以及系统的平均容量。仿真表

明,授权用户以随机序列方式跳频时,随着学习时间的增加, 冲突概率也可以明显降低, 直到能完全避免冲突。同样,当考虑频点信噪比时,可以在实现降低冲突概率的同时,保证系统的平均容量增加,但是与授权用户固定占用信道相比,容量会略有下降。

未考虑信噪比认知用户一未考虑信噪比认知用户二考虑信噪比认知用户一考虑信噪比认知用户二0.30.25冲突概率0.20.150.10.050 024681012分段统计次数14161820

图5多种授权用户存在时的冲突概率

14未考虑信噪比认知用户一未考虑信噪比认知用户二考虑信噪比认知用户一考虑信噪比认知用户二 1210平均容量(bit/s)8642 681012SNR(dB)141618

图6多种授权用户存在时的系统平均容量曲线

6 结束语

单用户动态频谱接入问题,普通的Q学习算法和DAQL学习算法已经可以很好解决了,但是对于多用户动态频谱接入问题就无能为力了。在分布式环境下,则由于时间或空间的约束, 认知用户之间不能完全共享信息, 这种情况下的协作决策只能建立在认知用户的独立强化学习上。本文将基于分布式独立学习多智能体协作决策应用到多用户动态频谱接入问题中,理论和仿真实验都表明, 这种方法在信息有限的情况下仍可收敛到一个优化策略。同时本文将频点的信噪比考虑到基于分布式独立学习的多认知用户动态频谱接入新算法的奖赏函数中,提出了一种优化系统容量的新方案,有效地提高了系统的容量,获得了比较好的效果。

参考文献

[1] 杨曦,郭爱煌,张超,龚增,赵文晖. 认知无线电主动切换的延时优化[J]. 电子测量技术,2009,12(09):11-14. [2] ALLEN B.MACKENZIE,JEFFREY H.REED,PETER ATHANAS.Cognitive Radio and Networking Research at Virginia Tech[J].PROCEEDINGS OF THE IEEE,2009,97(4):660-688.

[3] 吴迎笑,杨震. 基于频谱感知的认知无线电机会功率控制算法[J]. 仪器仪表学报, 2010,09(06):1235-1240. [4] Peha, J.M. Sharing Spectrum Through Spectrum Policy Reform and Cognitive Radio[J]. Proceedings of the IEEE, 2009,97(4):708-719.

[5] HAYK INS . Cognitive radio: brain-empowered wireless communications[J ] . IEEE Journal on Selected Areas in Communications, 2005, 23 (2) : 201-220 .

[6] Yang, M., & Grace, D. (2009, June). Cognitive radio with reinforcement learning applied to multicast terrestrial communication systems. In CROWNCOM. Hannover, German.

[7]Mengfei Yang,David Grace.(2010,April). Cognitive radio with reinforcement learning applied to multicast Downlink Transmission with Power Adjustment.In Wireless Pers Commun.

[8] Huazhong Ning, Wei Xu,Yue Zhou, Yihong Gong,Huang, T. Temporal difference learning to detect unsafe system states[J]. Pattern Recognition, 2008. ICPR 2008. 19th International Conference on.2008,11(8):1-4. [9] 刘芳,毛志忠,李磊. 基于模糊自回归隐马尔可夫模型的控制过程异常数据检测[J]. 仪器仪表学报,2010,09(05):984-990.

[10] Xiaogang Zhang, Zhijing Liu. An Optimized Q-Learning Algorithm Based on the Thinking of Tabu Search[J]. Computational Intelligence and Design, 2008. ISCID '08. International Symposium on.2008,18(17):533-536. [11] 张永靖,冯志勇,张平. 基于Q 学习的自主联合无线资源管理算法[J ] . 电子与信息学报, 2008, 30(3): 676-680 .

[12] Ramachandran, Deepak, Gupta, Rakesh. Smoothed Sarsa: Reinforcement learning for robot delivery tasks[J]. Robotics and Automation, 2009. ICRA '09. IEEE International Conference on.2009,17(12):2125-2132.

[13] 吴启晖, 刘琼俐. 基于DAQL算法的动态频谱接入方案[J]. 解放军理工大学学报(自然科学版), 2008,9(6):607-611.

[14] 李晓萌,杨煜普, 许晓鸣.基于独立学习的多智能体协作决策[J].控制与策略, 2002, 17(1):29-32. [15] 谢先斌,李新山. 基于频谱感知的认知无线网络容量研究[J]. 电子测量与仪器学报,2010,09(01):61-65.

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库基于分布式独立学习的多用户动态频谱接入新算法(2)在线全文阅读。

基于分布式独立学习的多用户动态频谱接入新算法(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/409034.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: