77范文网 - 专业文章范例文档资料分享平台

基于分布式独立学习的多用户动态频谱接入新算法

来源:网络收集 时间:2019-01-07 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

基于分布式独立学习的多用户动态频谱接入新算法

摘要:随着无线通信的飞速发展,无线频谱资源日益紧张,然而某些频段资源的利用率却很低,认知无线电正好是能有效缓解频谱分配与利用这对矛盾的技术。本文在认知用户独立学习的基础上提出一种多用户动态频谱接入新算法。该算法中每个认知用户都是一个基于独立学习的智能体,它不知道在联合行动中其他认知用户的行动策略,仅维护自己的一个关于状态-行动对的Q值表,并且每个认知用户各自采取独立的迭代过程。同时本文将各个用户频点的信噪比引入到奖赏函数r中,在降低认知用户与主用户发生冲突的概率的同时,提高了系统的平均容量。仿真结果表明该算法可以降低冲突概率,在考虑频点信噪比的情况下,系统的平均容量可以得到提高。

关键词:认知无线电;频谱接入;多用户;强化学习;双Q学习算法

A new algorithm of dynamic spectrum access of multi-users

based on independent learning

Abstract:With the rapid growth of wireless communications ,cognitive radio has been recognized as an effective solution to the conflict brought by the distribution and utilization of spectrum resources. In this paper, we put forward a new algorithm of dynamic spectrum access of multi-users based on independent learning. In this algorithm, each cognitive user is an agent based on independent learning. It only protects their own Q-value table of state-action without knowing the actions of other cognitive users in joint operations.Each cognitive user takes their own independent iterative process. Meanwhile this paper takes SNR of each channel into account in the reward function r. Simulation results show that this new algorithm can reduce probability of conflict between the cognitive users and the main users. Furthermore when considering the SNR this new algorithm can enlarge the system’s average capacity.

Keywords: cognitive radio; spectrum accessing; multi-users; reinforcement learning;DAQL

1 引言

随着无线通信技术的飞速发展,频谱资源变得越来越紧张。为了解决频谱资源匮乏的问题,基本思路就是尽量提高现有频谱的利用率[1]。为此,人们提出了认知无线电的概念[2]。认知无线电的基本出发点就是:为了提高频谱利用率,具有认知功能的无线通信设备可以按照某种“伺机(Opportunistic Way)”的方式工作在已授权的频段内[3]。认知无线电的核心思想就是使无线通信设备具有发现“频谱空洞”并合理利用的能力[4]。

人工智能大师Simon Haykin在其认知无线电综述文章中明确提到学习是认知无线电系统的一个重要环节[5]。在机器学习领域现在研究比较热门的强化学习RL[6](Reinforcement Learning,又称加强学习、增强学习等)是一种以环境反馈作为输入、适应环境的特殊学习方法。强化学习是一种从动物学习、自适应策略等理论发展而来的机器学习方法,它的在线学习能力与自适应学习能力使其成为解决策略寻优问题的有力工具[7]。文献[8]提出了TD(Temporal Difference)方法,解决了强化学习中根据时间序列进行预测的问题,并证明了在系统满足马尔可夫属性[9]、α绝对递减条件下, TD 方法收敛于最优。文献[10,11]提出一种著名的强化学习方法:Q-learning,不同于TD学习的迭代仅考虑状态的值函数, Q学习利用状态-动作对的值函数Q ( s , a) 进行迭代,利用其奖赏并作为估计函数来选择下一动作,即直接优化Q函数。文献[12]提出了Sarsa算法,它是一种基于模型算法,最初被称为改进的Q学习算法。它仍然采用的是Q值迭代。Sarsa是一种在策略TD学习(on-policy TD)。

文献[13]研究了单认知用户情况下基于DAQL算法的动态频谱接入方案,但是却不能解决多认知用户情况下的动态频谱接入问题。本文在文献[14]的基础上,研究了多认知用户情况下基于

强化学习的频谱接入算法,针对信息不完备的情况,提出了一种基于独立学习的多用户动态频谱接入新算法。该算法在各认知用户独立学习的基础上建立协调策略, 以实现协作决策过程的收敛,对所有认知用户均采用相同的奖赏函数, 即一般和对策。同时本文将各个用户信道的信噪比引入到奖赏函数r中,在降低认知用户与主用户发生冲突的概率的同时,提高了系统的平均容量。

本文安排如下,第二部分介绍了认知用户动态频谱接入的系统模型,第三部分介绍了分布式独立强化学习的基本原理,第四部分介绍了基于分布式独立学习的多认知用户动态频谱接入新算法,第五部分对新算法进行了仿真。

2 系统模型

图1 为认知无线电网络结构图, 在授权用户覆盖的大区域中存在多个认知用户小区,假设其中某个小区中存在k个认知用户,n条可用信道,本文研究的系统模型其实就是某个小区的动态频谱接入问题,且小区中的认知用户数仅为2。认知无线电网络是具有接入点(AP)的集中式结构,且其覆盖范围远小于授权用户发射机的覆盖范围。

授权用户是按照既定的策略来占用系统频谱的,可以是固定占用频谱,也可以是以某一序列动态的占用频谱。本文研究的问题中,认知用户无法和系统交换信息,因此无法得知系统的频谱

授权用户认知用户接入点 认知用户授权用户基站 图1 认知无线电网络结构图

分配情况。本文设计的目标便是认知用户如何在不知道系统频谱分配情况下,智能地占用信噪比高的空闲频谱,即在降低冲突概率的同时,提高系统的平均容量。

3分布式独立强化学习

分布式独立强化学习中, 每个智能体都是一个独立的学习体, 它们可以独立地执行单Agent强化学习算法。 智能体不知道在联合行动中其它智能体的行动策略, 它只维护自己的一个关于状态-行动对的Q 值表Qi(s,a) , 并依据该评价函数Qi(s,a)确定修正后的行动策略,分布式

i } (1) )Qmstaax ( ' , ')独立强化学习中每个智能体Q值表更新公式如下:

uQti?1(s,a)?maxQ{ti(sa(r,ts),,ta(t??a'?A其中s

a,a'?A,A为智能体作用于环境的动作集合;?S,S为智能体感知到的环境状态;atuu为所有智能体的一个联合行动; rt(st,at)为环境对联合行动的奖赏函数; t表示状态-行动对

(s,a)的迭代次数。由式(1) 可知, 迭代过程是一个单调非减的过程。 采用该分布式学习算法的意义在于: 在保证问题求解精度的前提下减少复杂问题的计算量, 并由此构造可并行的计算方式。文献[14]论证了该算法的收敛性。

每个智能体都进行各自的Markov决策过程(MDP) , 状态的变迁决定于所有智能体的联合行动, 称这样的决策过程为多智能体协作决策过程(MACMDP) , 定义为(S , M,A , T , R ) , S为状态,M为各个智能体的集合,A为智能体作用于环境的动作集合,T是状态转移概率函数。

分布式独立强化学习算法中智能体优化策略的更新规则:

?ti?1(s)?arg{maxQti?1(s,a)} (2)

a?Aa?A式(2) 为贪婪策略,即智能体仅在能改进自己Q 值的情况下修改自己的行动策略, 否则维持

sa原行动策略。这里存在一个探索和利用的问题。Q强化学习算法中,在当前状态t选择动作t的

依据是每一个

Q(st,at)的值,即选择能获得最大Q(st,at)的at。但是刚开始时学习没有先验经验,即Q(st,at)值都是不成熟的,也就是说Q(st,at)值不能准确地表示at对st的适用程度。

Q(st,at)值的动作导致了系统总是沿着相同的方向进行搜索而不可能探索到更好

因此选择最高

值,即容易造成系统停滞在局部最小值上。因此认知用户要尽可能的选择不同的动作,来寻求没有尝试但可能带来丰厚奖赏的动作,以找到最优的策略,即探索。但是也不可以盲目去探索,过度的探索将导致以前的经验无法利用,学习没有进步,降低系统的性能,影响学习的速度。所以学习开始时应该采用随机动作选择策略,然后随着学习过程逐步转向按照动作。

分布式独立强化学习算法中智能体的奖赏函数:

ur(s,au)?ri(s,ai)?rj(s,aj) ?i,j??,a?(1a,...ia,ijQ(st,at)值大小选择

j,...a,m , (3)) a, ...其中a,a分别为任意智能体i和智能体j作用于环境的动作,ri(s,ai),rj(s,aj)分别

为环境对智能体i和智能体j的奖赏,式(3) 表明, 对智能体的联合行动采用一致的评价函数,可以确保所有智能体建立共同的目标,从而各个智能体可以在独立学习的基础上,通过共同的奖赏函数建立协调策略,来解决分布式系统的各种问题。

4基于分布式独立学习的多用户动态频谱接入新算法

Q学习算法和DAQL学习算法[13]可以解决单用户动态频谱接入的问题,但对于多用户动态频谱接入问题,我们应采用分布式强化学习算法来解决。本文将分布式独立强化学习算法应用到多认知用户动态频谱接入环境中,同时将各个用户频点的信噪比引入到奖赏函数r中,在降低认知用户与主用户发生冲突的概率的同时,提高了系统的平均容量。 4.1 算法描述

本文将分布式独立强化学习算法应用到多用户动态频谱接入环境中,在各认知用户不知道其他认知用户具体频谱分配情况下, 各认知用户采取独立学习的方式。它们只维护自己的一个关于

状态-行动对的Q 值表Q表更新公式如下:

i(s,a1,a2) , 并且每个认知用户 i 各自采取独立的迭代过程,其Q值

Qti?1(s,a1,a2)?max{(Qti(s,a1,a2),rt(st,atu,a2)??maxQti(s',a1',a2')}

a1'?A rt(st,atu,a2) = r (4)

?S,S为认知用户感知到的环境

u式(4)可见将分布式独立强化学习算法应用到认知无线电中多用户动态频谱接入问题时需考虑授权用户和认知用户的动作给系统环境带来的影响。其中s

状态;a1,a1'?A,A为认知用户作用于环境的动作集合;a2,a2'为系统中授权用户的动作;at为所有认知用户的一个联合行动; rt(st,atu,a2)为环境对联合行动的奖赏函数;t表示状态-行

动对(s,a)的迭代次数。Q值更新采用式(4)。动作选择策略采用以下的更新规则

i?0(s)?a1?A, a1任取

Qti(s,a1,a2)?maxQti?(1s,a,a??ti(s),st?s或者max1)2a1?Aa1?A?i ?t?1(s)?? (5)

arg{maxQti?1(s,a1,a2)},其他?a1?Aa1?A?基于分布式独立学习的多用户动态频谱接入新算法是为了获得一种从状态到动作的映射关系, 使每次经历这个状态时, 都能利用以前学习的经验和知识, 做出最优的动作决策。认知用户能为每个感知到的环境状态和自己的动作对建立一个Q 值函数, 并不断根据学习到的经验进行更新。通过一段时间的学习过程, 认知用户能够在没有人为干预的情况下自己选择合适的频率进行通信, 使得在通信时对已存在的主用户产生的干扰最小。

同时为了提高系统的平均容量,在奖赏函数r中引入了各信道的信噪比,即

??5?a*(pi?b),发生冲突rt?? (6)

1?a*(pi?b),没发生冲突?系统的容量C定义为C?Blog2(1?SNR) (7)

?c(i)系统的平均容量c定义为m为统计平均容量的次数。

具体的算法流程图如图2所示,这是某一个认知用户的算法流程图,可以看出其本质上就是单个智能体的算法流程图,两个认知用户通过共同的奖赏函数r建立协调策略,共同完成降低系统冲突概率这一目标。

mc?i?1m (8)

其中B为频点的带宽,SNR为频点的信噪比,c(i)为认知用户第i次占用频点时系统的容量,

初始化Q(s,a1,a2)和s,t否观察状态s,预测授权用户将采取的动作a2更新Q值S<=S’t=t-1判断认知用户占用的频点t是否为0是 结束通过动作选择策略选取并执行动作a1(1),a1(2)否判断系统是否有冲突发生未冲突冲突计算系统的容量计算冲突概率观察环境状态s’及奖赏值r感知环境采取的动作a2更新Q值S<=S’t=t-1t是否为0是 结束

图2 算法流程图

4.2算法实现

假设多用户动态频谱接入问题中状态为S,动作集合为A,奖赏回报函数为R,下面具体说明基于分布式独立学习的多用户动态频谱接入算法中的几个要素:

1)状态空间S

S = {s1, s2, ?, sk , sd,sd,?, sd},其中sk=0表示频谱k被占用;sk=1表示频

m12谱k未被占用。s1~sk表示主用户占用的频点,k为主用户数,sd~sd表示认知用户占用的频

m1点,d1~dm表示m个认知用户,本算法中m为2。

2) 可选动作集A

影响系统状态的动作有2种: 一种是认知用户选择频点时的动作a1,它占用频点b1; 还有一种就是授权用户占用频点时动作a2。本文中授权用户可能是以固定占用方式占用频谱,也可能以跳频等其他方式占用频谱,另外系统环境中有2个认知用户,因此此时系统是多Agent模型的。

3) 即时回报R

该算法在奖赏函数r中引入了各频点的信噪比。设定认知用户与授权用户所选用频点相

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库基于分布式独立学习的多用户动态频谱接入新算法在线全文阅读。

基于分布式独立学习的多用户动态频谱接入新算法.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/409034.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: