77范文网 - 专业文章范例文档资料分享平台

大数据与云计算(论文)(2)

来源:网络收集 时间:2020-04-17 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

2 大数据概述

云计算的蓬勃发展,客观上开起来大数据时代的大门。大数据是云计算的灵魂和升级方向。云计算为大数据提供的存储的空间和访问的渠道。

图 3 各地云计划项目是大数据诞生的前提[9]

微软公司全球资深副总裁、亚太研发集团主席张亚勤博士认为“云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用”[4]。随着物联网、移动互联网、社会化网络的快速发展,企业数据的增长迅速,半结构化及非结构化的数据呈几何倍数增长。数据来源的渠道也逐渐增多,这不光包括了本地的文档、音视频,还包括了网络内容和社交媒体。大数据的时代已然来临,并给各行各业带来了根本性变革。

2.1 何谓大数据

人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(BigData)时代。以数据为中心的传统学科(如基因组学、蛋白组学,天体物理学和脑科学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB。但近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。据著名咨询公司IDC的统计,2011年全球被创建和复制的数据总量为1.8ZB(10的21次方),其中75%来自于个人(主要是图片、视频

6

和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。Google 公司通过大规模集群和MapReduce 软件,每月处理的数据量超过400PB;百度每天大约要处理几十 PB 数据;Facebook 注册用户超过 10亿,每月上传的照片超过10亿张,每天生成300TB 以上的日志数据;淘宝网会员超过3.7 亿,在线商品超过 8.8 亿,每天交易数千万笔,产生约20TB数据。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城市的视频监控每时每刻都在采集巨量的流媒体数据。工业设备的监控也是大数据的重要来源。例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB数量级的数据[5]。

一般意义上,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据的特点可以总结为4个V,即Volume(体量浩大)、Vari-ety(模态繁多)、Velocity(生成快速)和 Value(价值巨大但密度很低)。首先,数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB 来计数。IDC 的研究报告称,未来 10 年全球大数据将增加50倍,管理数据仓库的服务器数量将增加10倍。其次,大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012 年末,非结构化数据占有比例将达到整个数据量的75%以上。同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。再次,大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。最后,虽然数据的价值巨大,但是基于传统思维与技术,人们在实际环境中往往面临信息泛滥而知识匮乏的窘态,大数据的价值利用密度低。

维克托·尔耶·舍恩伯格明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。

2.2 从数据库(database,DB)到大数据(bigdata,BD)

从数据库到大数据,看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现必将颠覆传统的数据管理方式。在数据来源)数据处理方式和数据思维等方面都会对其带来革命性的变化[6]。

如果要用简单的方式来比较传统的数据库和大数据的区别,我们认为“池塘捕鱼”和“大海捕鱼”是个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:

数据规模。“池塘”和“大海”最容易发现的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如CLDB(very large database),和“大海”XLDB(extremely

7

large database)相比仍旧偏小。“池塘”的处理对象通常以MB为基本单位,而“大海”则常常GB,甚至是TB,PB为基本处理单位。

数据类型。过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中数据的种类繁多“数以千计”而这些数据又包含着结构化、半结构化以及非结构化的数据”并且半结构化和非结构化数据所占份额越来越大。

模式(schema)和数据的关系。传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断地增长。鱼的变化会使大海的成分和环境处于不断的变化之中。

处理对象。在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。

处理工具。捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的One size fits all。但是在“大海”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说No size fits all。

从“池塘”到“大海”\不仅仅是规模的变大。传统的数据库代表着数据工程(data engineering)的处理方式,大数据时代的数据已不仅仅只是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家Jim Gray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算3种范式。当数据量不断增长和累积到今天,传统的3种范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的第4种范式来指导新形势下的科学研究。基于这种考虑,Jim Gray提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第4种范式”(The Fourth Paradigm)。

4种范式的比较如表 1所示。第4种范式的实质就是从以计算为中心转变到以数据处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的“捕鱼”,在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础资源,用数据这种资源来协同解决其他诸多领域的问题。计算社会科学(computational social science)基于特定社会需求,在特定的社会理论指导下,收集$整理和分析数据足迹(data print),以便进行社会解释$监控$预测与规划的过程和活动。计算社会科学是一种典型的需要采用第4种范式来作指导的科学研究领域。Watts在《Nature》杂志上的文章“A twenty-first century science”也指出,借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。

8

表 1 科学发现的4中范式

2.3 大数据与云计算的关系

近几年来,云计算受到学术界和工业界的热捧,随后,大数据横空出世,更是炙手可热。那么,大数据和云计算之间是什么关系呢?

从整体上看,大数据与云计算是相辅相成的

大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀,即数据存储能力。云计算着眼于“计算”,关注 IT 解决方案,提供 IT 基础架构,看重的是计算能力,即数据处理能力。

没有大数据的信息积淀,则云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。

从技术上看,大数据根植于云计算

云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础(如图 4所示)。

图 4 大数据的关键技术

大数据技术与云计算有相同,也有差异(如图 5所示)。

9

图 5 大数据与云计算的异同

云计算与大数据的不同之处在于应用的不同,主要在两个方面:

第一,在概念上两者有所不同,云计算改变了 IT,而大数据则改变了业务。然而大数据必须有云作为基础架构,才能得以顺畅运营。

第二,大数据和云计算的目标受众不同,云计算是卖给 CIO 的技术和产品,是一个进阶的 IT解决方案。而大数据是卖给 CEO、卖给业务层的产品,大数据的决策者是业务层。由于他们能直接感受到来自市场竞争的压力,必须在业务上以更有竞争力的方式战胜对手。

大数据技术与云计算相结合会带来什么?如图 6所示

10

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库大数据与云计算(论文)(2)在线全文阅读。

大数据与云计算(论文)(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/983476.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: