77范文网 - 专业文章范例文档资料分享平台

大数据对科学哲学的新挑战

来源:网络收集 时间:2019-03-16 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

大数据对科学哲学的新挑战

2016-05-11 09:30:44 作者:7天论文网 【大 中 小】 浏览:8次 评论:0条

所谓大数据(Big Data),从字面意思而言就是指规模特别巨大的数据集,以至于用常规手段难于处理,必须使用专门的数据挖掘技术。由此看来,大数据最基本的构成是数据,其本质的问题仍是数据的问题。所谓数据,从狭义来说就是有根据的数字,也就是表示计量的数字以及为数字提供的语境;而大数据时代所说的数据是广义的数据,它包括一切能被计算机处理的二进制编码信息。大数据是一场新的数据技术革命,它对工作、生活、学习以及思维方式等诸多方面都将产生全方位的影响[1]。就像历史上的每一次重大技术革命都会给科学研究范式带来重大变革甚至导致科学革命一样,大数据技术革命也可能给未来的科学研究带来革命性的技术手段,并对传统科学哲学诸多基本问题带来新挑战[2]。

一、大数据与科学研究的新对象大数据给科学研究带来的最大变化是科学研究对象的变化,从直接的自然世界或精神世界变成了间接的数据世界。在前科学时期,人们主要是在劳动、生活实践中直接观察星空、大地以及自然界的万事万物,因此其对象是直接的自然现象。古代科学和近代科学虽然已经有了科学观测与实验工具,而且由亚里士多德发展出演绎法以及培根发展出归纳法两种科学研究的方法工具,可以实现从现象到理论的经验提炼,以及从旧理论到新理论的逻辑推演。但是,从科学对象来说,无论是古代科学还是近现代科学,其研究对象都仍然是直接面对自然现象。从直接观察自然现象到实验室的受控实验,科学观测的手段虽有进步,人与自然对象的距离有所变化,但科学研究的对象没有变化,都是直接面对自然现象,都停留在波普尔所说的世界1 里。而我们的人文社会科学则采取对人类及其社会现象进行观察、分析,研究对象是波普尔所说的世界2,即精神世界[3]。

20 世纪中后期,随着计算机科学技术的发展,科学对象发生过一次重大变化,即虚拟世界的出现。以往的科学在面对复杂对象之时,往往都从结构的视角将复杂对象简化、还原为简单要素,但在此过程中容易造成信息失真,因此难以反映对象的真实与客观。于是,利用计算机的强大功能,我们从功能模拟的路径,用仿真模型来模拟现实的研究对象。由此,我们在现实世界之上,人为地建构了一个虚拟世界。通过虚拟世界的模拟、仿真以达到认识真实世界的目的。虚拟世界的出现是科学研究对象第一次从直接面对到间接模拟。

随着大数据的兴起,科学研究对象再一次发生变化,从现实世界走向了数据世界。天文学家开普勒是幸运儿,他基本上没有直接观测星空,而是继承了其前辈第谷·布拉赫数十年的大量天文观测数据,并通过对这些数据的挖掘,发现了天体运行规律,即开普勒三大定律。后来的科学家再也没有开普勒的幸运,不得不自己观测与实验,自己的数据自己采集、自己使用,属于作坊模式。智能技术、网络技术和云技术的迅速普及带来了一场数据的革命。第一,数据采集方法发生了质变:传统的数据都是人类使用测量手段人工采集而来的,例如土地测量数据、科学实验数据、抽样调查数据等,而现在的大数据是利用先进的智能技术自动生成

的数据,因此数据量急剧增加,带来了数据爆炸。第二,数据的存储方式发生了质变:以往的数据都被记录在纸草、竹简、纸张等可见媒体中,随着数据量的增加,大量的数据难以存储和保存,而在大数据时代,存储技术发生革命,特别是云存储技术让我们可以便捷地存储海量数据,存储成本特别低廉。第三,数据传输方式发生了质变:以往的数据传输不便,最快无非是通过纸质媒体在不同的地方传输。正因如此,许多数据往往被使用一次后就沉淀下来,成为“死”数据。随着网络技术特别是移动网络技术的发展,数据的传输基本上以光速传递,因此完全做到了即时、在线。第四,数据的处理方式发生了质变:

以往对数字的计算最快速的方式无非是中国的算盘,对非数字型信息只能人工阅读、浏览。随着计算机技术的发展,特别是最新的云计算等数据挖掘技术的兴起,无论是结构化数据还是非结构化数据,都可以通过云计算等技术进行快速处理,因此可以从海量数据中便捷地挖掘出有价值的信息[4]。

数据在科学研究中一直具有举足轻重的作用,但小数据时代与大数据时代的数据在数据性质上却有重大区别。以往,在数据采集之前就有了各种计划和安排,先有了理论预设再设法采集数据。根据观察渗透理论,人工观测或受控实验得来的数据不但数量少,而且最关键的是缺乏客观性,主、客体之间缺乏必要的观测距离。而大数据时代,由于人工不再参与其中,由智能系统自动生成的数据没有了理论预设的影响。也就是说,这些数据最初采集的时候并没有使用目的,仅仅作为“数据垃圾”或者叫作“数据尘埃”保留了下来,后来由于某种需要从数据垃圾中发现了其新用途,于是数据垃圾变废为宝。这样,大数据时代的数据与主体拉开了观测距离,因此更具有客观性。由各种数据汇聚而成的大数据构成了一个客观世界,这个世界是客观物质世界和主观精神世界之外的数据世界。按照波普尔“三个世界”的划分标准,这个客观数据世界应该属于世界3[3]。作为世界3 的数据世界是物自体的映射世界,它将物质世界和精神世界统一为一个客观的数据世界,全面反映了事物或精神的本质属性。 大数据时代的数据是自动生成的数据世界,科学研究者可以不再直接与自然或社会研究对象打交道,直接通过挖掘数据就可以从事科学研究活动。例如,高能物理研究者不一定需要自己从事粒子实验工作,只要挖掘由对撞机生成的大数据就可以开展高能物理研究工作,由此,传统的高能物理研究变成了数据挖掘工作。天文学研究也发生了类似的变革,射电望远镜被智能化之后能够自动采集、生成数据,天文学家只要挖掘数据就可以发现天文现象、寻找天文规律,天文学研究不再是与天打交道的辛苦工作了。“人们事实上并不用望远镜来看东西了,取而代之的是通过把数据传输到数据中心的大规模复杂仪器来?看?,直到那时他们才开始研究在他们电脑上的信息”[5]。社会学家不一定必须从事田野调查和社会观察,也可以从已有的社会大数据中挖掘出人类行为规律。心理学研究者不一定要自己做心理实验,可以通过已有社交数据的挖掘来掌握人的心理活动规律。经济学、管理学则不再需要做市场调查、抽样分析等就可以通过淘宝、京东、亚马逊等线上商业的交易数据挖掘来从事经济、管理研

究工作。在大数据时代,一切自然科学、社会科学甚至人文科学的研究工作都可以摆脱对自然、社会等直接对象的依赖,可以拉开人与自然、人与社会的距离,间接地挖掘早已自动生成出来的相关大数据,从数据中发现规律、预测未来。由此,我们可以看出,科学研究的对象最早是自然、社会、精神等自在世界,然后增加了虚拟世界,而随着大数据时代的到来,数据成为科学研究的新源泉,由此又增加了一个新对象:数据世界。大数据成了科学研究的新对象,这是大数据技术对当代科学哲学最根本的影响。

二、大数据与科学划界的新标准科学划界问题是科学哲学的核心问题,科学哲学的各个派别对该问题都有所涉及和回应。所谓科学划界,就是将科学与其他学科门类(特别是伪科学、形而上学等非科学)之间画出一条分界线,以此将科学与非科学区分开来,并且通过划界来凸显科学的形象与特征[6]。20 世纪初,逻辑实证主义第一次明确提出了科学划界问题,并用意义与证实来区分科学与伪科学、非科学。波普尔继承了逻辑实证主义的科学划界问题,但他认为划界的标准应该是能否被证伪。随后,拉卡托斯用科学研究纲领,库恩用科学范式来划分科学与非科学。虽然费耶阿本德彻底放弃划界问题,但大部分科学哲学家还是认为科学划界具有重要的意义。

虽然历史上的科学哲学家们大部分都承认科学与非科学之间有着明确的分界,但为什么经过许许多多的努力,仍然没有找到合适的科学划界标准呢?这主要可能是没有找准分界线和分界标准。随着大数据的兴起,数据越来越被人们重视。

我们认为,在大数据时代,仍然存在着科学划界问题,不过我们难免会猜想,能否用数据来作为科学与非科学的分界线呢?先来看看科学史的案例。古埃及、巴比伦的人们在丈量土地、记录财产的过程中,创造了数字这一抽象符号。在泰勒斯、阿那克西曼德等古希腊哲学家纷纷提出世界的本原是水、气、火、土之类的具体物质时,毕达哥拉斯提出了更加抽象、更加本质的命题,即“数是万物的本原”。他将万事万物的本质抽象为“数”,“数”作为万物的表征就与其描述的对象联系起来,通过认识、分析“数”来认识抽象的事物,并将哲学推向了形而上学的层次。因此数学成了最古老的科学门类。随着第谷·布拉赫使用望远镜观测天象,获得了大量的天文数据,在开普勒的数据处理下,天文学成为最早的科学门类之一。在伽利略、牛顿等大师的努力下,利用观察、实验方法获得事物运动的各种关键数据,因此力学成了物理学中最早进入科学大门的学科。通过观察和实验,物理学中的光学、热力学、电磁学和声学都获得了关键数据,并通过数据分析找到了变量之间的因果关系,由此纷纷取得科学的入场券。随后,化学、生物学、地质学、医学等以自然为对象的学科,均以牛顿力学为榜样,通过数据化、公式化而成为科学大家庭的重要成员。

20 世纪之后,由于测量技术与实验设备的发展,自然科学的所有分支都加快了数据化的脚步,科学的大家庭成员也越增越多。特别要强调的是,过去的数据化主要是针对自然界,因为自然界与人类拉开了主体、客体之间的观测距离,作为主体的人类可以利用技术手段来观

测自然界并取得相关的数据,并通过数据发现规律。虽然说观察渗透着理论,因此没有纯客观的观察和数据,但作为观察对象的客体毕竟具有被动性和客观性。但是,当我们观察、研究人与人类社会之时,由于人类既是主体,又是客体,而任何正常的人都具有主观能动性,其思想、行为随时都有可能改变,因此总体上社会科学还是不能与自然科学同日而语。不过,社会学、心理学、经济学、管理学通过借助自然科学的方法在数据化的道路上也取得了不俗的成绩,社会科学的不少学科陆续取得了进入科学大家庭的入场券。人文学科由于主要研究人类自身的思想、情感、意志和行为,主观性更强,一般的科学方法不再适用。使用传统的技术手段,我们无法取得人类自身知、情、意方面的数据,因此人文学科都停留在定性研究阶段,很难被数据化和科学化,当然也就被排斥在科学大门之外。由此可见,科学化的过程与数据化的步伐基本上是一致的,数据化的过程也就是科学化的过程。自然界由于可以全面数据化,其科学化的程度也就最高,因此基本上实现了定量研究。人类社会借助自然科学的手段也取得了巨大进步,但仍有些领域没有被数据化,导致其科学化的程度要更低,因此其研究方法主要是定性定量相结合的方法。人文学科则基本上没有被数据化,导致其科学化程度最低,因此它基本上只用定性研究方法。

通过自然科学、社会科学与人文科学的数据化程度分析,我们可以发现,用数据化来衡量学科的科学化程度是合适的。我们可以用数据化来划分科学与非科学,也就是说,我们可以用数据化作为科学划界的新标准。凡是能够用数据化表述的学科就有资格进入科学殿堂,反之,凡是不能够用数据化表述的学科就没有资格进入科学殿堂。能否被数据化是科学与非科学的分水岭。其实,早就有哲学家用数学化描述科学的特征,比如伽利略就认为,自然界这本大书是由数学语言写成的。马克思也认为,一门学科只有能够被数学化之时才能被称为科学。他们虽然说的是数学化,但数据化与数学化具有很强的关联性,数学化是数据化基础上的规律性总结和提升。

随着智能技术、网络技术(特别是移动互联网络)、物联网、云计算等技术的发展,数据的采集逐渐实现了自动化,因此数据量迅速进入爆炸性增长,随之是大数据时代的迅速来临。大数据认为,世界万物都可以被数据化,世界最终可以表述为一个数据化的世界。以往通过观察、实验得来的数据是十分有限的小数据,而大数据时代通过智能技术的自动采集而生成的大数据,各类大数据全面刻画了世界的数字特征。小数据时代,我们只能对自然界进行比较全面的数据化。而在大数据时代,人类精神世界和人类社会都可以被数据化,因此数据化的范围在不断地向以往未被数据化的领域推进。如果以能否被数据化来划分科学界限,那么随着数据化的脚步不断向前推进,科学的领域也在不断扩大,原来被排斥在科学大门之外的人文社会科学,甚至包括形而上学都有资格进入科学的殿堂。随着数据化脚步的加快,整个世界都可能被数据化,由此整个世界也就成了科学化的世界,到时候任何学科都可以纳入科学体系之中,科学的大门之外几乎找不到停留者。也许,完全被数据化的世界就是一个科学

的大同世界,也就不再需要区分科学与非科学,科学划界也就成了一个伪命题。

三、大数据与科学研究的新范式科学发现的模式问题一直是科学哲学研究的核心问题。从古至今,科学取得了重大进展,大量的科学门类从无到有,逐渐形成了系统化的科学知识体系。但是,这些科学知识从何而来?科学家们是如何发现这些规律、获取这些知识的?科学哲学必须对此作出回答。

由于人们所掌握的技术工具的不同,在不同的历史阶段,科学发现的模式或科学研究范式也不尽相同。计算机图灵奖得主、美国学者吉姆·格雷将从古至今的科学研究范式归纳总结为四类:经验科学范式、理论科学范式、计算科学范式和数据科学范式[5]。第一种范式,即经验范式,我们并不陌生,近代西方哲学的经验论和现代科学哲学中的逻辑实证主义对该范式都进行了详细的哲学论证。波普尔认为观察渗透理论,没有纯客观的科学观察,他强调理论在科学发现中的重要性,提出了“科学始于问题”的科学发现观,这其实就是对科学研究的第二种范式,即理论科学范式的哲学论证。第三种科学研究范式,即计算科学范式,目前来说,哲学对其论证得比较少,但复杂性科学与哲学对模拟、计算进行了充分的讨论和论证,并发展为计算主义学派。

计算主义认为,科学始于计算,即通过计算机的模拟仿真,能够发现新知识,找到新规律。随着数据采集、存储和处理的智能化与自动化,各类数据急剧爆发,人们利用数据挖掘工具从“数”里淘金,发现规律,提炼知识,这就是格雷所说的基于数据密集型的科学研究范式,也被称为数据科学范式或第四范式。“第四范式的出现依赖于人类能够获取到大量的数据,它的基本特征是以数据为中心和驱动,基于对海量数据的处理和分析去发现新的知识”[7]。 我们能够通过大数据来发现知识、提炼规律吗?也就是说数据密集型科学研究范式能够成立吗?我们先来看看各种科学研究范式的本质。最早的经验科学范式主要依赖于人类经验,这里的经验包括主观经验和客观实验,人们根据有限的观察或实验归纳出具有普遍性的结论。经验科学范式本质上来说是属于人类直觉或视觉、体验的主观表达。

理论科学范式通过理论的证明和推导将经验科学范式的经验推向了更加本质、更加深入的事物内在关系,因此从一定程度上反映了事物之间的因果性和规律性。计算科学范式主要是针对复杂系统,在无法深入分析内部结构的情况下,我们可以通过功能模拟、计算来认识复杂系统的运作规律。由此可见,上述三种科学研究范式各有千秋,都有自己的优势和弱点。数据科学范式则将上述的观察实验、理论、计算均转化为数据,通过数据来表征万事万物间的精确关系,也就是说,通过数量化、精细化、客观化,数据能够将现象刻画得更加精细。康德在《纯粹理性批判》中就充分肯定了数据在科学认识中的重要地位,例如,在先验感性论中,他主要通过时间、空间的先验性来论证感性认识的可靠性,而时空关系正是描述万物最重要的数据。在先验逻辑中,康德建构了四组范畴来描述人类的知性认识,而这四组范畴(量、质、关系、模态)正是刻画客观事实和人类行为的最基本的数据坐标。因此,数据是构成感

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库大数据对科学哲学的新挑战在线全文阅读。

大数据对科学哲学的新挑战.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/528567.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: