羽山数据-合规、权威、安全,数据科技赋能产业升级。羽山数据践行数据要素市场化合规流通,为金融、保险、人事、安防、互联网等行业提供企业数字化解决方案。

slider
New
  • 大数据推动认识论新发展

    发布时间: 2021-11-10

           新的数据收集、储存、分析工具的出现,共同构建起大数据科学这门新学科。现代社会生活中产生的呈爆炸性增长的数据,是大数据科学的主要研究对象。大数据科学的出现,又为科学研究与社会发展提供了新的推动力。目前,不少科学研究都在一定程度上依赖大数据科学。新数据处理方法可以提高科学发现的准确性和预测能力,并有助于确定未来的研究方向。学者们普遍认为,大数据给人类带来了新的数据分析技术与思维方式的变革。不过,有些学者认为大数据只是服务于科学研究的工具,不承认其具有独特的认识论地位。由数据集产生的知识在可靠性、可解释性等方面受到一定质疑,引发了对科学知识现有理解的挑战。探索大数据科学的认识论问题,可以对这一挑战进行回应,还可以推动认识论本身的发展。

    变革知识产生方式

           大数据科学,又被称为“数据密集型科学”,以显著增长的数据体积(容量)与累计速度为主要特征。人们对大数据的理解,虽然源于天文学、气象学等领域的研究人员处理大型复杂数据集,但我们并不能简单以数据容量的大小来定义“大数据”。格雷(James Nicholas Gray)认为,大数据科学是科学研究的第四范式。莱昂内利(Sabina Leonelli)认为,大数据具有认知力,能够在使用不同方法论工具与理论框架的研究群体间架起桥梁(这些群体往往因为概念分散、社会壁垒和技术难题等问题不能相互交流)。大数据科学要求数学、统计与计算机工程等技能的结合,发展出一种特定的认识论研究。这一认识论强调研究手段(建模、统计、模拟等)是研究目标和产出的重要推动力,也是影响研究结果的主要因素。不过,这种认识论又与只承认数据方法论意义的工具主义有着本质区别。

           正如伽利略与牛顿以后自然科学的数学化成为近代科学的研究趋势,基于数据的科学逐渐成为当代研究发展的新方向。这一方向与计算科学中“数据驱动”概念研究密切相关,并且可以为统计学概率上的可能性研究结果进行辩护。在数据驱动的研究中,研究人员将数据集作为归纳推理的起点,而不需要依赖理论上的一些“先见”。甚至有研究者认为,这样的方式是“理论的终结”。传统的理论驱动方法需要预设一些“不可动摇”的理论原则,数据仅起到假设检验的作用。选择数据驱动还是理论驱动范式,决定了对数据性知识的不同态度。数据驱动下产生的知识,大多只具有相关联系,要寻找其中更为根本的因果联系,往往是较为困难的——这是一种自下而上的知识产生方式,本质依赖归纳推理。归纳推理本身存在的问题,导致了一种更深层次的反思——从数据中推理出知识的方式是否有效?这样的知识是否具有普适性?

    面临可靠性问题

            随着社会生活逐步“数据化”,人类活动正受到越来越多的监控和记录,产生了巨大的数字足迹。“无孔不入”的监控设备似乎把人类所有的行为都记录在数据中,由此产生的海量数据成为研究的宝库。为从这类数据中提取知识,人们开发出越来越复杂的计算工具。大数据科学通过采用新颖、高效的方式来计划、实施、传播和评估研究,革新了知识的产生方式,但同时又引发了知识的可靠性问题。

           传统科学知识被逻辑经验主义解释为:得到部分诠释的逻辑公理系统——知识的可靠性被逻辑形式上的可靠性所支撑。科学理论语义观者将科学解释为:与世界同构的模型集——知识的可靠性被模型与表征的可靠性所支撑。在传统认识论中,认识主体对数据的认识是次要的,对数据本体与认识的讨论往往是“细枝末节”。但随着自动化工具越发应用对复杂数据的处理,是否应把机器当作新认识论的主体成为研究重点。萨普斯(Patrick Suppes)将统计方法引入哲学研究中,试图用概率与逻辑为数据推论的准确性进行辩护。随后,以统计为切入点(主要表现为相关性概念的引入),成了为大数据推理产生知识的合理性进行辩护的主要方式。范·弗拉森(Bas C. van Fraassen)也认同总结数据频率以建立数据模型的做法。基于此,可以得出一个结论:数据处理工具越好,从数据中提取的知识就越可靠。但这与对知识的一般性认识发生了冲突——知识不是以好坏而是用真假来评判的(如“知识是得到辩护的真信念”这一传统观点)。因此,将实践上的好坏作为大数据科学中知识可靠性的判断标准,往往是一种不明智的选择。

           有研究者认为,数据是一种具有本体实在支撑的客观存在,从数据中获得知识具有客观基础。大数据科学中知识的积累是通过如下方式进行的:通过可靠的方法收集数据,由此产生大量可供分析的“数据型”事实,这些事实与其他数据具有某种意义上的相关性,可以通过深入挖掘这种相关性以获得更多知识。不过,许多研究者意识到,数据具有多种解释方式,如何区分正确与不正确的解释,在一定程度上决定了由此产生知识的真假,而这种区分往往是规范意义与实用意义上的。因此,一种基于数据解释的认识论研究开始进入哲学的视野——将数据作为认识论研究的核心内容,对有关科学知识的传统哲学观点提出了重大挑战。

    应对可解释性问题

           计算技术、建模工具和统计方法的应用,给我们带来了巨大的便利。但与此同时,大数据成为一个巨大的“混杂奖池”,能得到什么“奖品”,往往需要凭借工具的优劣(比如,监督学习、模型拟合、深度神经网络和搜索技术的应用,使数据分析技术成为“抽奖”的重要工具)。弗丽嘉(Roman Frigg)与赖斯(Julian Reiss)认为,计算科学中的模拟方法没有产生新的形而上学、认识论、语义学和方法论,也没有提出任何新的哲学问题。与模拟有关的哲学问题并非特定于模拟领域,而是大多为之前在其他语境中讨论过的问题及其变体。因此,他们主张,计算机模拟没有带来认识论上的新问题。汉弗莱斯(Paul Humphreys)反对这一观点,他认为,计算科学“没有为科学引入任何实质性的新东西”的观点,实际上忽视了实践可能与原则可能的区别。

           纵观大数据科学研究的整个过程,有两个地方是较为模糊的。一方面,人类的认知能力存在局限性,对机器与数据的完全理解是无法实现的。另一方面,机器介入认识过程后,认识主客体不再具有明显界限。这引发了一个无法回避的知识产生过程的不透明性问题,即机器知识的可解释性问题。为分析大数据而开发的数学和计算工具,对于认识主体而言通常是不透明的。那么,由此产生结果的可信度应如何评估?看似牢固的科学大厦如何建立在“摇摇晃晃”的数据知识之上?因此,知识的可解释性问题亟待解决。尤其在人工智能领域看似一片繁荣的景象中,真正意义上的智能进步却尚未出现,而人工意识领域的前景也是模糊的。这意味着,对数据与智能的哲学认识,尤其是对数据的认识论研究,需要走在相关科学研究的前面。

           大数据科学的认识论研究,是对哲学视域下科学知识本质问题的推进。鉴于近现代科学的巨大成功,科学界与哲学界往往以较为乐观的态度看待科学发展,而较少反思科学的本质、知识等基础问题,容易对基于数据知识的认识界限问题缺乏足够的重视,这给以计算为特征的新科学研究埋下了隐患。哲学的视野不应仅局限对计算与数据的表面分析(如对软件与硬件迭代速度的关注、对某类算法优越性的分析等),而应去追问作为科学大厦地基的数据如何可信。大数据科学的认识论研究,需要将知识的可靠性与可解释性问题作为重点,推动认识论的新发展。这既是对传统认识论的延续,又是对当代科技发展给哲学提出新要求的回应,还是对相关科技伦理问题研究的奠基。


    本文转载自中国社会科学报:https://www.xuexi.cn

    原文链接:https://www.xuexi.cn//lgpage/detail/index.html?id=5481471323530813565&item_id=5481471323530813565

     

    作者: 北京师范大学哲学学院贾玮晗

  • 1 - 1
note

本专栏搜集引用互联网上公开发表的数据服务行业精选文章,博采众长,兼收並蓄。引用文章仅代表作者观点,不代表羽山数据官方立场。

如有侵权、违规及其他不当言论内容,请广大读者监督,一经证实,平台会立即下线。监督电话:400-110-8298