据IBM公司估量,我们现在每天创立了2.50亿千兆字节的数据。
这种大规划的数据集被称为大数据。大数据是现已成为十分盛行的一个术语,以皮字节和艾字节表明和描绘数据集,并且其有时施加到数据集的技能,并处理它的运用设置。
关于这篇文章的意图,我们将约束界说一个描绘巨大的数据量。在2014年9月AIP会议议事程序中,安德列德•毛罗,马可•格雷科,米歇尔•格里马尔迪为我们供给了一个更详细的和强健的界说:“大数据代表着这种高容量的信息财物的特征,经过各种需求特定的技能和剖析方法,将其转变为价值”。
留意,这个界说是很重要的。它不只是数据的数量,或体积,并且还有速度,也就是效劳和耗费的速度。数据流现已改变了我们对存储和交付数据的观点,并放置在基础设施和运用程序引擎中,而曾经难以幻想要求能这样做。
一个更近的维基百科界说了“体积,速度和种类”短语,并添加到另外两个额定的“V”的概念,这两者都与大数据所面对的应战十分相关的:变异性和准确性。
数据搜集及其运用
跟着互联网的呈现和运用大数据的人数成倍增长,搜集许多数据的才能也与之一起生长。数据搜集发作简直一样的其他核算活动的副作用。在我们采纳的过程中,数据在创立帐户,上传文件,以及发作其他明显的举动。然而,数据也被无意提交搜集,由于一些其它活性的副产品。一个看似私家的行为,如点击一个链接,关于营销人员就能够供给一个有价值的信息。因而,数据正在被记载和存储。并且在某处进行处理。
而核算机关于工作人员处理信息是优异的,但没过多久,营销等职业实现保存供搜集数据的许多的潜力,由于它是在网络上传来传去,最引人留意图是互联网(虽然重要的是记住许多大数据,并将其存储在企业的内部网)。当该数据与其他数据,例如人口统计信息,一个人的YouTube的喜爱,地理位置,社会行为与Outlook配对,这个数据变得更加强壮。
其他职业也意识到,他们在搜集和处理信息方面从来没有见过这样大的规划。不只互联网,并且企业和其他实体的内部网络能够包容许多的信息。在美国、印度和其他地方的政府现已能够运转更精密的数据调整,以赢得选举。国际安排搜集和运用医疗保健、出产力,以及工作数据,以协助他们了解开展资金是最好的花费。私营部门在许多方面运用大数据,包含买卖数据和剖析。科学研究涉及到大数据剖析,例如,大型强子对撞机的科研活动,以及超大型望远镜(VLT)阵列的数据返回。此外,大数据改变了制造业,经过供给出产、需求、满意的数据,剖析师将了解是什么导致缺少和过剩,并对曾经难以确定行为和计划进行可用性剖析。
数据记载的泽字节是一回事,数据搜集便利又廉价。当你以为你正在做其他工作的时分,数据搜集正在发作。而我们怎么运用它是一个彻底不同的问题,也是任何安排所面对的最大应战之一,从企业营销到政府部门,将考虑怎么有效地运用这样许多的数据。
德毛罗等人所描绘的数据的种类是大数据的要害特征之一。数据源无处不在,并搜集一切类型的信息,其间一些应该被以为是灵敏的,需求安全处理。跟着各式各样的数据到来,这意味着来自不同来历的数据,格局和可拜访性,即使是相同的信息,也可能是不同的。最终,数据的可靠性和准确性,是数据剖析人员有必要重视的要点。“脏数据”一直是数据库办理的一个问题,但这个问题与今日的环境指数相乘,具有更高的容量,并供给数据多源。
当它被成功地剖析,大数据能够协助科学家解码DNA,它能够协助政府猜测恐怖活动,它能够调整企业的产品结构,以满意客户的需求。
但面对这样的数据搜集,持有人的问题是将怎么运用它?并且越来越多,我们怎么对此保证安全?
应战和安全
现在,人们所面对的安全漏洞一直是很严重的,但大数据的安全漏洞可能是灾难性的。数据搜集能够包含十分灵敏和极其隐秘的个人信息,这将成为身份偷盗和歹意操作的潜在数据。跟着企业开发他们的大数据存储和剖析体系,安全性有必要列于他们的优先级名单的首位。
数据剖析体系面对着大数据这个第一大应战是简单的现实,体系和流程都不能处理,我们现在期望定时处理这些数据。存储基础设施相对简单创立:由于存储设备现已成为廉价和可用的,并对其应战有着适当充沛的了解。具剖析和运用数据是现在正在开发的高需求,许多企业都现已建立了自己的内部数据剖析:谷歌公司在2014年每天处理的信息大约20PB。
注:文章内容和图片均来源于网络,只起到信息的传递,不是用于商业,如有侵权请联系删除!