1.5本文的申明和组织
注意力很难正式定义成一个被广泛接受的方式。然而,从计算角度来看,很多注意力模型(至少那些在自由注视的眼球运动的前几秒上测试的模型)能被统一到以下的普遍的问题称述中。假设K个观察员看了N副图,令*是眼睛注视点以及他们对应的时间*。对于第i副图的k个观察员的注视点的个数用*表示。注意力模型的目的是找到一个函数(stimuli-saliency map)*,这个函数最小化眼睛注视点预测的误差,也就是*。这里一个重要的点是以上的定义更好的符合自下而上显式注意力模型,也许并不总是覆盖视觉注意力的其他方面。(比如显式注意力或者top-down因素),这些不能用眼球运动来解释。
这里我们对主要的应用于任意图像的注意力模型进行系统的综述。第二章将介绍分类这些模型的几个因素。在第三章,我们根据这些因素总结和分类视觉模型。第四章讨论这些模型的局限性和所遇到的问题。第五章对全文进行总结。 2 分类标准
我们从引入13个标准f1...f13开始,这些标准将用来对注意力模型进行分类。这些标准都源于注意力在行为和计算方面的研究。一些标准描述了模型(f1,f2,f3),其他的(f4...f7,f12,f13)并不直接相关,但是他们对于觉得这些模型的实用性非常重要。
2.1 Bottom-up VS Top-down模型
模型之间一个主要的差别是他们是否依赖bottom-up因素(f1),top-down因素(f2)或者是二者的组合。
Bottom-up因素主要基于视觉场景的特性(激励驱动)[75],而top-down因素(任务驱动)由认知现象如知识、期望、奖励和当前任务决定的。
由bottom-up方式吸引我们注意力的感兴趣区域必须充分地不同于与其周围特征。这种注意力机制同样叫做外在的,自动的,灵活的或者周边的因素[78]。
Bottom-up注意力是快速的,无意识的,并最可能是前馈的。 一个典型的bottom-up注意力的例子是看一副在有很多条垂直条纹中只有一条水平条纹的场景图中,注意力马上就会被吸引到水平条纹上[81]。尽管很多模型属于这一类型,他们仅仅解释了眼球运动的一小部分,因为大多数注视点是由任务驱动的[177]。
另一方面,top-down注意力比较慢,任务驱动,有意识的和闭合回路的[77]。top-down注意力最著名的例子是来源于1967年的Yarbus[79],他展示了依靠当前任务的眼球运动的如下实验:测试者要求在不同的条件(问题)下看同一场景(在有一家人的房屋中,一个不速之客进入房间),这些问题包括:“估计这个家庭的物质环境”,“人们的年龄是多少”,或者简单的仔细观察场景。对于以上不同的例子,眼球运动明显不同。
模型探索了三个主要的针对特定问题的top-down因素的来源,这个问题是:我们如何觉得看哪里?一些模型解决了视觉搜索中,注意力被吸引到我们要寻找的物体的特征上这样的问题。另外一些模型探讨了我们在场景中看到的位置的内容或者主旨(gist)的角色。在某种情况下,很难准确的说我们在场景中看哪或者看什么,因为由一个复杂的任务管理眼睛的注视点,比如在开车的过程中。虽然原则上,任务要求注意力包含其他两个因素,在实际中,模型往往分开关注他们。场景布局也被看作是top-down注意力的一个来源[80][93],并在这里与场景内容一起考虑。
1), 物体特征。有相当多的关于在现实世界搜索任务中存在目标驱动的注意力指引(attention guidance)的证据[84][85][23][83]。在经典的搜索任务中,目标特征在一个无处不在的注意力指引的来源[81][82][83]。考虑在简单的目标箭头是红色的箭头簇中搜索:注意力快速地指向那个红色的箭头。拿这个与更负责的目标物体做比较,比如说自然情景中的行人,这种情况下尽管很难定义目标,但是依然存在一些特征(比如直立形式,圆头,直直的身体)指引视觉注意力[87]。
引导搜索理论[82]提出注意力能够偏向于感兴趣的目标,通过调整贡献于注意力的不同特征的相对增益。回到我们以前提出的例子中,当看一个红色的物体,一个很高的增益赋给红色。Navalpakkam等人[51]提出优化特征组合(BU 显著模型[14]的通道)按照最大化目标与背景的信噪比来检测目标。在[50]中,将一个基于物体唯一性的准则的加权函数,在将每幅图加起来之气,作用到每幅图中来定位物体。Butko等人[161]基于由Najemnik等人[20]在一个特定中进行人脸检测和跟踪的观察框架中陈述的相同的视觉搜索原理,构建物体搜索模型,但是他们没有利用这么模型解释在搜索人脸中眼睛注视点。Borji等人[89]用进化算法在一个基本的显著模型参数空间中搜索来寻找目标。Elazary和Itti[90]提出了一个模型,该模型中top-down注意力能调整首选特征(比如一个特定的灰度)和调整特征检测器的宽度,从而给出相比调节固定特
征检测器的增益模型而言很灵活的top-down调整模型。最后但是并不是不重要的研究包括[147][215][141],他们都是从制定目标物体搜索的方法出发提出一个显著性度量方法。
前面提到的关于在视觉搜索中物体特征的角色的研究与计算机视觉中的物体检测非常相近。一些物体检测方法(比如Deformable Part Model by Felzenszwalb等人[206]和the Attentional Cascade of Viola and
Jones[220])对于一些物体,如小汽车,人以及人脸有很高的检测率。与认知模型相比,这类方法通常是纯计算方法。关于这两个领域如何相关的研究将可能对双方领域都带来好处。
2)场景内容。当简要的展示一副图时(小于或等于80毫秒),一个观察者通常能够描述场景的核心特征[176][71]。这是一个非常粗糙的场景表示,通常叫做“主旨gist”,不包含单个物体更多的细节信息,但是能够提供足够的粗糙场景区分信息(比如室内场景和室外场景)。意识到这点很重要:gist并不显示场景的语义类别。Chun and Jiang[91]证明了那些位于相对一些背景重复出现的结构中的物体能够很快的被检测到[71]。在特定场景中物体间的语义关联(比如电脑通常在桌子上)或者内容信息同样在指引眼球运动中起着重要的角色[199][84]。
已经存在一些关于利用不同类型的底层特征的gist模型。Olive and Torralba[93]在图像上计算非重叠窗函数傅里叶变换的幅频。他们接着利用主成分分析(PCA)和独立成分分析(ICA)来降低特征的维度。Renninger and Malik[94]对输入图像利用Gabor滤波器过滤,利用K-means聚类算法从训练库上提取100个普遍的taxtons。他们的gist特征是这些普遍taxtons上的直方图。Siagian and Itti[95]用生物学的中心-周围区域对比,在方向,颜色和灰度通道特征上对gist建模。Torralba[92]用小波分解调节6个方向和4个尺度。为了提取gist,通过在4*4方上的录波器响应求平均值形成向量。同样,他利用PCA,将384维向量降至80维gist向量。对于gist的比较,请参考[96][95]。
Gist的表达方式逐渐在计算机视觉领域内边的流行起来,因为他们提供了丰富的全局区分信息,对很多应用非常有帮助,比如当今大规模场景数据库上的搜索[116],将搜索缩小到包含感兴趣物体的区域[92][87],场景实现[205],和top-down模型建模[101][218]。因此可以看出这个方向的研究具有很大的潜力。
3)任务需求。任务对于注意力的部署具有很大的影响[79]。据说视觉场景可以解释为基于需求的方式执行需求的任务[97]。Hayhoe等人[99]指出当处理复杂任务时视觉感知和眼球运动之间存在着很强的联系。测试者执行视觉导向的任务时,通常发现他们将更多的注视点导向那些与任务有关的位置[99]。通常有可能推断出一个方法,测试员在内心中记住眼球运动的模式。比如说在
“block-copying”任务中,测试员需要重现每个积木的组装方式,测试者完成任务的方式就显示了眼球运动的模式【注:这段没太懂原文的意思】。测试员首先选择目标积木来在模型中确定其位置,然后关注工作区域的积木来在对应位置上放置新的积木[216]。其它研究探讨了在自然场景中gaze基于任务的行为,比如三明治制作,驾驶汽车,板球运动,和行走(见Henderson and Hollingworth[177],Rensink[178],Land and Hayhoe[135], and Bailensen and Yee[179])的高层因素。Sodhi等人[180]研究了在驾驶中的一些分心行为,比如调节音频音量或者接电话,对眼睛运动的影响。
流行的观点是bottom-up和top-down注意力组合影响着注意力行为。一个组合方法应该能够解释何时以及如何趋向一个top-down视觉物体,或者跳过它,由于底层显著因素。最近,[13]提出了一个Bayesian方法解释了对于top-down注意力因素和对比或者方向的bottom-up因素进行最优组合方式。Navalpakkam和Itti[80]提出了一个任务驱动认知模型,包含这样的假设:用于解决任务的方向以及存在了。Peters和Itti[101]在游戏视频中学习了一个从场景的gist投眼睛的注视点的top-down映射。组合方式就是简单的BU和TD模块的相乘。
2.2 空间VS时空模型
在实际世界中,我们面临的视觉信息会发生持续不断的变化,由于自我中心或者外边世界的动态变化。视觉选择这时同时依赖当前的场景显著性和以前时间的累积知识。因此,一个注意力模型应该能够捕捉到那些在时空方式中重要的场景区域。
在第三章中将有更详细的阐述,几乎所有的模型都包含了一个空域模块。我们能够从两种类型的对时域信息进行建模的saliency模型:1)一些bottom-up模型用运动通道来捕捉吸引到移动激励的视觉注意力点[119]。最近,一些研究者开始进行时域对bottom-up的影响进行建模[143][104][105]。2)另一方面,一些模型[109][218][26][25][102]试图捕捉任务的时空方面的信息,比如通过学习注意物体的序列或者任务过程中的行动序列。比如,注意力门模型Attention Gate Model(AGM)[183]重点强调了注意力的时间相应性质和量化描述了人类往往注意的序列激励目标。图像的先前信息,注视点,注视点的图像内容信息,物理行为,以及其他传感器的激励(比如音频)用来预测眼球的下一运动点。加入时间维度,以及自然交互行为的现实性带来了一系列的在利用计算模型预测注意点的应用。
用来建立视觉注意的时间方面的合适的环境是动态的,具有交互步骤的电影和游戏。Boiman and Irani[122]提出了用于从视频中进行不规则检测算法,在一个学习的不规则行为的数据库上通过比较小块的纹理实现。时间信息在激励层面上是非常有限的,并且不包含高级认知功能,比如展示给注意力焦点的物品
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库注意力模型的当前发展水平 - 图文(2)在线全文阅读。
相关推荐: