这些年,大数据作为一种流行的概念,频繁出现在公众视野中,并且备受关注。
很多人初次接触“大数据”这个词时,往往从字面上理解,认为大数据就是海量的数据,而大数据技术则是处理大量数据的技术。然而,事实并非如此。
实际上,大数据远比我们想象的复杂。它不仅仅是一种数据存储技术,而是一系列与海量数据相关的处理技术,包括抽取、集成、管理和分析等,构成了一个庞大复杂的系统。
更为重要的是,大数据代表了一种全新的思维方式和商业模式。
接下来,我们将通过这篇文章,深入探讨大数据的定义、规模、来源及其特点和价值。
大数据的定义
关于大数据的定义,行业内有许多不同的解释,既有广义也有狭义的定义。
广义的定义更具有哲学意味,即大数据是指从物理世界到数字世界的映射和提炼,通过对数据特征的发现,从而做出提高效率的决策行为。
狭义的定义则侧重于技术层面,认为大数据是通过获取、存储和分析,从大容量数据中挖掘价值的一种全新技术架构。
相比之下,我更倾向于采用技术定义,因为它更贴近实际操作。
要实现大数据,需要完成三个关键步骤:获取数据、存储数据和分析数据。这些步骤主要针对大容量数据,并且其目标是挖掘出数据中的价值。
尽管获取、存储和分析数据的行为并不新鲜,但我们每天都在做这些事情。例如,每个月初,考勤管理员会收集员工的考勤记录,输入到Excel表格中,然后保存在电脑上,最后分析迟到和缺勤情况。
然而,在大数据背景下,同样的行为变得不可行。也就是说,传统个人电脑和软件无法处理如此巨大的数据量。
大数据的规模
我们日常使用的个人电脑处理的数据量通常在GB或TB级别,例如,常见的硬盘容量一般为1TB、2TB或4TB。
这些单位之间的关系是:
1 KB = 1024 B
1 MB = 1024 KB
1 GB = 1024 MB
1 TB = 1024 GB
而大数据的规模则要大得多,通常在PB或EB级别。大多数人可能不太熟悉这些单位,它们分别是:
1 PB = 1024 TB
1 EB = 1024 PB
为了更好地理解这些数据量,我们可以用一些具体的例子来说明:
1TB的数据量,只需一块硬盘就能存储。大约相当于20万张照片或20万首MP3歌曲,或者671本《红楼梦》。
1PB的数据量,则需要大约两台机柜的存储设备。相当于2亿张照片或2亿首MP3歌曲。如果一个人连续不断地听这些音乐,可以持续听1900年。
1EB的数据量,则需要大约2000台机柜的存储设备。如果将这些机柜并排放置,长度可达1.2公里。如果摆放在机房内,需要21个标准篮球场大小的机房才能容纳。
像阿里巴巴、百度、腾讯这样的互联网巨头,据称其数据量已经接近EB级别。
虽然EB不是最大的数据单位,目前全人类的数据量已达到ZB级别。
1 ZB = 1024 EB
2011年,全球创建和复制的数据总量为1.8ZB。而到2020年,全球电子设备存储的数据量预计将达到35ZB,如果建立一个机房来存储这些数据,该机房的面积将超过42个“鸟巢”体育场。
数据量不仅巨大,而且增长速度也非常快,每年增长率约为50%,这意味着每两年数据量就会翻一番。
当前大数据的应用主要集中在PB和EB级别,尚未达到ZB级别。
数据的来源
数据量为何如此迅速增长?这需要回顾人类社会数据产生的几个重要阶段。
大致可以分为三个阶段:
第一阶段,计算机被发明后,尤其是数据库被发明后,使得数据管理变得更加简便。各行各业开始产生并记录数据。
这一时期的大部分数据以结构化数据为主。数据的产生方式主要是被动的。
第二阶段,随着互联网2.0时代的到来,用户原创内容成为重要标志。互联网和移动通信设备的普及,促使人们通过博客、Facebook、YouTube等社交网络主动产生大量数据。
第三阶段,随着物联网的发展,各种感知层节点开始自动产生大量数据,如遍布各地的传感器和摄像头。
经过这三个阶段的发展,人类数据总量呈现出迅猛增长的趋势。
大数据的特点
业内对大数据的特点总结为四个V:Volume(海量化)、Variety(多样化)、Velocity(时效性)、Value(价值密度)。
我们逐一介绍这些特点。
多样化(Variety)
数据的形式多种多样,包括数字、文本、图像、音频、视频、位置信息等,这些都是数据的不同表现形式。数据又可分为结构化数据和非结构化数据。
结构化数据是指可以按照预先定义的数据模型进行表述,或可以存储在关系型数据库中的数据。例如,一个班级所有人的年龄、超市所有商品的价格等。
而非结构化数据则包括网页文章、邮件内容、图像、音频、视频等。
在互联网领域,非结构化数据占整个数据量的80%以上。
大数据的一个显著特点是数据形式的多样化,且非结构化数据占比较高。
时效性(Velocity)
大数据的另一个特点是时效性。从数据的生成到消耗,时间窗口非常短,数据的变化速率和处理过程也越来越快。例如,数据变化速率从原来的按天变为现在的按秒甚至毫秒。
我们可以通过一组数据来说明这一点:
就在刚刚过去的这一分钟,数据世界发生了什么?
电子邮件:发送了2.04亿封邮件
谷歌:提交了200万次搜索请求
YouTube:上传了2880分钟的视频
Facebook:更新了69.5万条状态
推特:发布了98000条推文
12306:售出了1840张车票
数据的瞬息万变由此可见一斑。
价值密度(Value)
最后一个特点是价值密度。大数据的数据量很大,但其中真正有价值的部分却很少。
例如,通过监控视频寻找犯罪分子,可能需要数TB的视频文件,但真正有价值的部分可能只有几秒钟。
2014年,美国波士顿爆炸案中,现场调取了10TB的监控数据,最终找到嫌疑人的照片。
大数据的价值
刚才提到的价值密度,实际上是大数据的核心本质,即挖掘数据中的价值。
早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中就明确指出:“数据就是财富”,并将大数据称为“第三次浪潮的华彩乐章”。
三次浪潮分别是:
进入21世纪后,随着移动互联网的崛起、存储能力和云计算能力的飞跃,大数据开始落地并受到越来越多的关注。
2012年世界经济论坛指出:“数据已成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推向了一个前所未有的高度。
如今,大数据的应用已经开始渗透到我们的生活中,影响着我们的衣食住行。
大数据之所以能快速发展,是因为越来越多的行业和企业开始认识到大数据的价值,并试图挖掘其价值。
归纳起来,大数据的价值主要体现在两个方面:
帮助企业了解用户 大数据通过相关性分析,将客户与产品和服务关联起来,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。例如,阿里巴巴这样的电商平台,通过积累的用户购买数据,能够分析用户行为,精准定位目标客户的消费特点、品牌偏好、地域分布,从而指导商家的运营管理、品牌定位、推广营销等。
帮助企业了解自己 除了帮助了解用户,大数据还能帮助企业了解自身。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。
总之,“知己知彼,百战百胜”。大数据,就是为决策服务的。
大数据和云计算
在这里,我们需要回答一个很多人关心的问题——大数据和云计算之间有何关系?
可以这样理解:数据本身是一种资产,而云计算则是为挖掘数据价值提供合适工具的技术。
从技术角度来看,大数据依赖于云计算。云计算中的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。
云计算就像是挖掘机,而大数据则是矿山。如果没有云计算,大数据的价值就无法充分发挥。
反过来,大数据的处理需求也推动了云计算相关技术的发展和应用。
换句话说,如果没有大数据这座矿山,云计算这个挖掘机,很多强大的功能都无法实现。
用一句话总结:云计算和大数据是相辅相成的。
大数据和物联网(5G)
第二个问题是,大数据和物联网有什么关系?
这个问题其实不难理解,前面也有所提及。
物联网指的是“物与物互相连接的互联网”。物联网的感知层产生了海量数据,极大地促进了大数据的发展。
同样,大数据的应用也发挥了物联网的价值,反向刺激了物联网的需求。越来越多的企业发现通过物联网大数据可以获得价值,因此愿意投资建设物联网。
这个问题还可以进一步延伸为“大数据和5G之间的关系”。
即将到来的5G将通过提升连接速率,增强“人联网”的感知,同时促进人类主动创造数据。
另一方面,5G更多的是为“物联网”服务的,包括低延时、海量终端连接等,都是物联网场景的需求。
5G刺激物联网的发展,而物联网又刺激大数据的发展。所有通信基础设施的强大,都是为大数据的崛起铺平道路。
大数据的产业链
接下来,我们谈谈大数据的产业链。
大数据的产业链与大数据的处理流程密切相关,主要包括生产数据、聚合数据、分析数据、消费数据等环节。
每个环节都有相应的参与者。
从现状来看,国外企业在大数据产业中占据较大份额,尤其是在上游领域,基本上都是国外企业。相比之下,国内企业在这一领域还存在较大差距。
大数据的挑战
虽然大数据有很多优点,但它也面临许多挑战。
除了数据管理技术难度外,大数据面临的最大挑战是安全问题。数据不仅是资产,也是隐私。没有人愿意自己的隐私被曝光,因此人们对隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了许多法律。
在这种情况下,企业获取用户数据时必须慎重考虑,是否符合伦理和法律。一旦违法,将面临极其严重的后果。
此外,即使企业合法获取数据,也需要担心数据是否会被恶意攻击和窃取。这种风险也不容忽视。
除了安全问题,大数据还要面对能耗等方面的挑战。
换句话说,如果不能很好地保护和利用手中的大数据,那么它反而会成为负担,有还不如没有。
希望这篇文章能帮助您更好地理解大数据。