习近平在中央政治局第十八次集体学习时强调,要“加快区块链和人工智能、大数据、物联网等前沿信息技术的深度融合,推动集成创新和融合应用。”看似简单的一句话,实际上包含着巨大的信息量。很多人都在问,区块链与大数据到底什么关系?它们究竟如何融合?
我们都知道,在以上几种前沿技术中,物联网在获取海量数据,以及这些海量数据的存储、传输和处理中扮演着重要的角色。这些海量数据,无疑是大数据的重要内容来源。人工智能作用的发挥,更大程度上依靠数据的训练。没有足够的数据为基础,人工智能也不可能发挥作用。
大数据从其概念的诞生开始,就是以通过数据充分分享实现数据互联互通,发挥数据综合效用为宗旨的(参见维克托·迈尔-舍恩伯格《大数据时代》,以及涂子沛《数据之巅》)。但各种大数据系统的建设,却背离了这一目标。以至于目前数据孤岛到处存在,数据成为石油之后的又一世界性的垄断资源。
数据孤岛的存在,则主要是各种部门和机构利益作祟的结果。数据不能互联互通,不仅影响着数据作用的进一步发挥,而且由于各个部门和机构垄断着数据,还存在着利用数据优势进一步获取垄断性竞争地位的可能,甚至还时时发生着大的部门和机构利用数据占有优势侵犯用户隐私和用户利益的事情。
数据作为未来的生产资料,在社会的发展中起着非常重要的作用,打破数据垄断势在必行。究竟怎么破?区块链的出现,为打破数据垄断提供了技术架构上的可能。
一、区块链有利于通过数据确权打破数据孤岛,实现共赢
作为一种相对特殊的数据传输和数据存储架构,区块链这种特殊架构及其自身的发展,将从根本上改写大数据发展格局,校正大数据的发展方向,并丰富物联网的体系架构形式。
区块链的本质意义,在于通过对数据进行全网一致性分发和冗余存储,降低所有节点在数据占有方面的不对等,进而使所有节点在平等占有数据的基础上,有了业务自组织权力和业务自组织能力。
区块链系统中的所有节点在数据全网一致性基础上实现了业务流程的自组织,也就是实现了业务流程的去中心化和去中介化。去中心化和去中介化的系统,较之前建立在数据中心化基础上的业务流程中心化和他组织结构,带来了更高的业务生产效率和更大的容错空间,同时,又节省了原来中心环节和中介环节占有的利润。
但区块链系统建立的前提,一定是数据的对等分享,而不可能是数据的单方面分享。因此,在区块链系统和业务体系内,数据必须来自于所有节点,才有可能实现数据对等占有、效率对等提升、利益对等享有。
因此,区块链系统对数据的所有权进行确权就成为必需。大数据系统基本不考虑数据从哪里来,到哪里去,数据的所有权属于谁,数据产生的收益又应该由谁分享。区块链系统要求链上数据对所有人开放,因此就必须保证链上数据真实可信。由此,在区块链系统中,就需要所有人都负责各自数据的写入,同时所有人要负责对其他人写入数据的真实性进行确认。在这些真实数据的基础上,才能够实现业务流程的优化和重构,才能进一步实现效率的提升和利益的重新分配。
二、区块链技术架构有望提高数据质量
大数据是一种低价值数据。通过大量数据的聚合,寻找到数据之间的相关关系,发挥数据的作用,是大数据系统建设和开发的核心诉求。大数据系统中大部分数据的质量并不高,这种质量,包括数据本身的真实性,数据自身蕴含的内在价值,数据价值与其自身占用空间的比例等不同维度。
区块链数据是一种高价值数据,是稀缺数据。低价值数据或无价值数据没有在全网范围内进行一致性分发和冗余存储的必要,只有高价值数据和稀缺数据才有这种需要,并经过全网范围内的一致性分发和冗余存储,确保数据不可篡改不可伪造,且来源可追溯。因此,可以通过区块链系统,对大数据系统中的数据去伪存真,保留必要的数据上链,而不是一股脑将所有数据上链。将所有数据上链既没有必要,现有的区块链系统也无法承载,更无法承受。
因此,区块链系统的应用,就必须对大数据系统中的数据进行筛选,提高数据的可用性和数据质量。
三、区块链与大数据的未来融合创新之路
数据从古至今都是稀缺资源。让数据发挥更大作用,是建设美好社会的前提和基础。区块链更大意义上是一种体系架构和新的业务逻辑结构。相对于中心化架构,区块链更加强调节点在数据共享基础上的自治。大数据与区块链既有必须结合以提高效率和性能之处,也存在由于技术架构的局限而不能或不易结合之处。
麦肯锡全球研究所给出的大数据定义是,一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
而目前的区块链系统存储的数据,从体量上是小数据,从流转上是静态数据,从类型上是单一类型数据,从价值密度上是高价值数据。
按照麦肯锡全球研究所给出的定义所定义的大数据,是无法通过区块链系统在全网范围内进行分发和存储的。因此,必须对区块链系统的数据组织方式和数据存储方式重新进行结构,否则,区块链系统与大数据无法融合。
区块链系统与大数据的融合,可以针对不同的业务场景,实现不同层级的数据共享。针对小体量的数据,可以直接将数据上链,实现全部数据的共享。针对体量略大一些的数据,则可以抽取出数据处理结果上链,而将原始数据存在链下,并通过区块链中的时间戳和哈希函数,保证原始数据不被篡改不被伪造。如果是极大体量数据,则可以将数据所在存储区块的时间戳和哈希值上链,通过不同层次的云计算和边缘计算,实现不同层级的数据本地化或云化处理,从而发挥数据的作用。
同时,还必须将快速流转的数据静态化处理,或者直接静态化,或者将数据处理结果静态化。也必须将多样数据类型数据进行类型单一化处理,以便于区块链系统可以分发和存储。此外,还必须从大量的低价值密度数据中抽取出数据的内在价值,否则,低价值密度数据也没有必要用区块链进行处理。
区块链与大数据的融合,在具体应用中会遇到各种各样的问题。但随着各种设施设备在存储容量、运算速度和传输效率方面的进一步提升,随着各种技术的发展,尤其是紧密结合各种应用场景所能开展的优化,区块链与大数据相互融合并共同服务于人类生产生活效率提升,共同创造人类社会美好未来的前景,是值得期待,也值得努力付出,并一定会实现的。
首发链证经济公号。
0
推荐