2007年的全球的数据如果都存储在CD光盘上,堆起来的高度可以直抵月球。2011年的数据存储在1TB的磁盘上,磁盘叠加高度接近地球周长的一半(1.7万公里)。若存储到9GB的DVD上,所有DVD叠加起来的高度约是地球到月球距离的2/3(26万公里)。淘宝网每日新增的交易数据达10TB,eBay平台每日处理数据量100PB。Facebook:10亿活跃用户,每天生成的照片堆起来的高度相当80个埃菲尔铁塔。Youtube每分钟约有60小时的视频播放数据上传。Jim Gray在二十多年前就预测现在每18各月新增的数据量等于有史以来的数据量之和。
大数据涉及到了诸如通信、证券、交通、零售、教育等在内的多个领域,数据来源多样。不同领域不同行业在数据获取阶段所采用的设备,手段和方式都千差万别,取得的数据在数据形态,数据结构上也各不相同。数据资源包括视频、图片、文本等多种类型。这些海量数据呈现异构性,对并发访问处理的要求高,具有不确定性、时效性、空间性和高频度访问等特点。同时多源异构数据存在较普遍的数据实体重复问题,即与同一个实体相关的信息在多源数据集中存在多个不完全相同的描述,而这些相似重复的描述必然存在着信息冗余,有些可能互为补充,有些则可能相互矛盾、互不相容。这些冗余数据不仅浪费存储空间,而且会损害信息的一致性。
数据不再是社会生产的“副产物”,它是可被二次乃至多次加工的原料,从中可以探索更大价值,它已经变成了一种生产资料。但由于数据爆炸性的增涨,如何高效地对海量的大数据进行理已经成为当前计算机领域最具有挑战性的问题之一。
该研究方向主要研究如何利用计算机硬件和软件技术对海量、异构、多源的大数据进行有效的收集、存储、处理、分析,并进行应用,以便充分有效地发挥数据的作用。