字体大小

小字标准大字

背景色

白天夜间护眼


大数据的四个特征

大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”。业界通常用四个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。

1数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200 PB(1 PB=210TB),而历史上全人类说过的所有的话的数据量大约是5 EB(1 EB=210 PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

2数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

3价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

4处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据国际数据公司(IDC)的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2 ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

根据麦肯锡旗下研究部门麦肯锡全球学会2011年发布的一份报告显示,预计美国需要14万~19万名拥有“深度分析”专长的工作者,以及150万名更加精通数据的经理人,无论是已退休人士还是已受聘人士。

造成数据人才供不应求的一个显著的背景就是如今“大数据”的爆发正在得到从企业界到政府层面越来越多的重视。

2012年2月,《纽约时报》撰文称,“大数据”正在对每个领域都造成影响,在商业、经济和其他领域中,决策行为将日益基于数据分析做出,而不是像过去更多地凭借经验和直觉。而在公共卫生、经济预测等领域,“大数据”的预见能力已经开始崭露头角。

一个最新的例子就是Facebook在2012年5月18日的IPO。在5月18日之前,几乎没有人敢说自己有把握去预测Facebook上市当天股价的走势,但是Twiter却神奇般地做到了。

社交媒体监测平台DataSif监测了Facebook IPO当天Twiter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twiter上的情感逐渐转向负面,25分钟之后,Facebook的股价便开始下跌。而当Twiter上的情感转向正面时,Facebook的股价在8分钟之后也开始了回弹。最终,当股市接近收盘时,Twiter上的情感转向负面,10分钟后Facebook的股价又开始下跌。最终的结论是:Twiter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况只有几分钟到20多分钟。

这仅仅只是基于社交网络产生的大数据进行“预见未来”的众多案例之一,事实上“大数据”所能带来的巨大商业价值已经被人认为将引领一场足以匹敌20世纪计算机革命的巨大变革。

2012年2月,《华尔街日报》发表文章《科技变革即将引领新的经济繁荣》,文中罕见地做出大胆预见:“我们再次处于三场宏大技术变革的开端,他们可能足以匹敌20世纪的那场变革,这三场变革的震中都在美国,他们分别是大数据、智能制造和无线网络革命。”

《华尔街日报》的断言并非无的放矢。在2012年年初的瑞士达沃斯论坛上,一份题为《大数据,大影响》的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。

更加值得关注的则是,奥巴马政府已经把“大数据”上升到了国家战略的层面。根据美国白宫2012年3月29日新闻,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,希望增强收集海量数据、分析萃取信息的能力。

上一次白宫亲自参与推动信息技术产业的大手笔还是2010年希拉里提出的“国家宽带战略”,“大数据研究和发展计划”也被认为是1993年时任美国副总统戈尔宣布的“信息高速公路”计划后美国政府政策层面的一次“狂飙突进”,将“大数据”上升到国家意志将在下一个10年带来深远影响。

在互联网和通信技术飞速发展20年后,一个属于“大数据”的时代,真的来了。

上一章
离线
目录
下一章
点击中间区域
呼出菜单