300 秒带你吃透大数据

图灵汇官网

这些年,大数据作为一种流行的概念,频繁出现在公众视野中,并且备受关注。

很多人初次接触“大数据”这个词时,往往从字面上理解,认为大数据就是海量的数据,而大数据技术则是处理大量数据的技术。然而,事实并非如此。

实际上,大数据远比我们想象的复杂。它不仅仅是一种数据存储技术,而是一系列与海量数据相关的处理技术,包括抽取、集成、管理和分析等,构成了一个庞大复杂的系统。

更为重要的是,大数据代表了一种全新的思维方式和商业模式。

接下来,我们将通过这篇文章,深入探讨大数据的定义、规模、来源及其特点和价值。

大数据的定义

关于大数据的定义,行业内有许多不同的解释,既有广义也有狭义的定义。

广义的定义更具有哲学意味,即大数据是指从物理世界到数字世界的映射和提炼,通过对数据特征的发现,从而做出提高效率的决策行为。

狭义的定义则侧重于技术层面,认为大数据是通过获取、存储和分析,从大容量数据中挖掘价值的一种全新技术架构。

相比之下,我更倾向于采用技术定义,因为它更贴近实际操作。

要实现大数据,需要完成三个关键步骤:获取数据、存储数据和分析数据。这些步骤主要针对大容量数据,并且其目标是挖掘出数据中的价值。

尽管获取、存储和分析数据的行为并不新鲜,但我们每天都在做这些事情。例如,每个月初,考勤管理员会收集员工的考勤记录,输入到Excel表格中,然后保存在电脑上,最后分析迟到和缺勤情况。

然而,在大数据背景下,同样的行为变得不可行。也就是说,传统个人电脑和软件无法处理如此巨大的数据量。

大数据的规模

我们日常使用的个人电脑处理的数据量通常在GB或TB级别,例如,常见的硬盘容量一般为1TB、2TB或4TB。

这些单位之间的关系是:

1 KB = 1024 B

1 MB = 1024 KB

1 GB = 1024 MB

1 TB = 1024 GB

而大数据的规模则要大得多,通常在PB或EB级别。大多数人可能不太熟悉这些单位,它们分别是:

1 PB = 1024 TB

1 EB = 1024 PB

为了更好地理解这些数据量,我们可以用一些具体的例子来说明:

1TB的数据量,只需一块硬盘就能存储。大约相当于20万张照片或20万首MP3歌曲,或者671本《红楼梦》。

1PB的数据量,则需要大约两台机柜的存储设备。相当于2亿张照片或2亿首MP3歌曲。如果一个人连续不断地听这些音乐,可以持续听1900年。

1EB的数据量,则需要大约2000台机柜的存储设备。如果将这些机柜并排放置,长度可达1.2公里。如果摆放在机房内,需要21个标准篮球场大小的机房才能容纳。

像阿里巴巴、百度、腾讯这样的互联网巨头,据称其数据量已经接近EB级别。

虽然EB不是最大的数据单位,目前全人类的数据量已达到ZB级别。

1 ZB = 1024 EB

2011年,全球创建和复制的数据总量为1.8ZB。而到2020年,全球电子设备存储的数据量预计将达到35ZB,如果建立一个机房来存储这些数据,该机房的面积将超过42个“鸟巢”体育场。

数据量不仅巨大,而且增长速度也非常快,每年增长率约为50%,这意味着每两年数据量就会翻一番。

当前大数据的应用主要集中在PB和EB级别,尚未达到ZB级别。

数据的来源

数据量为何如此迅速增长?这需要回顾人类社会数据产生的几个重要阶段。

大致可以分为三个阶段:

第一阶段,计算机被发明后,尤其是数据库被发明后,使得数据管理变得更加简便。各行各业开始产生并记录数据。

这一时期的大部分数据以结构化数据为主。数据的产生方式主要是被动的。

第二阶段,随着互联网2.0时代的到来,用户原创内容成为重要标志。互联网和移动通信设备的普及,促使人们通过博客、Facebook、YouTube等社交网络主动产生大量数据。

第三阶段,随着物联网的发展,各种感知层节点开始自动产生大量数据,如遍布各地的传感器和摄像头。

经过这三个阶段的发展,人类数据总量呈现出迅猛增长的趋势。

大数据的特点

业内对大数据的特点总结为四个V:Volume(海量化)、Variety(多样化)、Velocity(时效性)、Value(价值密度)。

我们逐一介绍这些特点。

多样化(Variety)

数据的形式多种多样,包括数字、文本、图像、音频、视频、位置信息等,这些都是数据的不同表现形式。数据又可分为结构化数据和非结构化数据。

结构化数据是指可以按照预先定义的数据模型进行表述,或可以存储在关系型数据库中的数据。例如,一个班级所有人的年龄、超市所有商品的价格等。

而非结构化数据则包括网页文章、邮件内容、图像、音频、视频等。

在互联网领域,非结构化数据占整个数据量的80%以上。

大数据的一个显著特点是数据形式的多样化,且非结构化数据占比较高。

时效性(Velocity)

大数据的另一个特点是时效性。从数据的生成到消耗,时间窗口非常短,数据的变化速率和处理过程也越来越快。例如,数据变化速率从原来的按天变为现在的按秒甚至毫秒。

我们可以通过一组数据来说明这一点:

就在刚刚过去的这一分钟,数据世界发生了什么?

电子邮件:发送了2.04亿封邮件

谷歌:提交了200万次搜索请求

YouTube:上传了2880分钟的视频

Facebook:更新了69.5万条状态

推特:发布了98000条推文

12306:售出了1840张车票

数据的瞬息万变由此可见一斑。

价值密度(Value)

最后一个特点是价值密度。大数据的数据量很大,但其中真正有价值的部分却很少。

例如,通过监控视频寻找犯罪分子,可能需要数TB的视频文件,但真正有价值的部分可能只有几秒钟。

2014年,美国波士顿爆炸案中,现场调取了10TB的监控数据,最终找到嫌疑人的照片。

大数据的价值

刚才提到的价值密度,实际上是大数据的核心本质,即挖掘数据中的价值。

早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中就明确指出:“数据就是财富”,并将大数据称为“第三次浪潮的华彩乐章”。

三次浪潮分别是:

  • 第一次浪潮:农业阶段,始于约1万年前
  • 第二次浪潮:工业阶段,始于17世纪末
  • 第三次浪潮:信息化阶段,始于20世纪50年代后期

进入21世纪后,随着移动互联网的崛起、存储能力和云计算能力的飞跃,大数据开始落地并受到越来越多的关注。

2012年世界经济论坛指出:“数据已成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推向了一个前所未有的高度。

如今,大数据的应用已经开始渗透到我们的生活中,影响着我们的衣食住行。

大数据之所以能快速发展,是因为越来越多的行业和企业开始认识到大数据的价值,并试图挖掘其价值。

归纳起来,大数据的价值主要体现在两个方面:

  1. 帮助企业了解用户 大数据通过相关性分析,将客户与产品和服务关联起来,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。例如,阿里巴巴这样的电商平台,通过积累的用户购买数据,能够分析用户行为,精准定位目标客户的消费特点、品牌偏好、地域分布,从而指导商家的运营管理、品牌定位、推广营销等。

  2. 帮助企业了解自己 除了帮助了解用户,大数据还能帮助企业了解自身。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。

总之,“知己知彼,百战百胜”。大数据,就是为决策服务的。

大数据和云计算

在这里,我们需要回答一个很多人关心的问题——大数据和云计算之间有何关系?

可以这样理解:数据本身是一种资产,而云计算则是为挖掘数据价值提供合适工具的技术。

从技术角度来看,大数据依赖于云计算。云计算中的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。

云计算就像是挖掘机,而大数据则是矿山。如果没有云计算,大数据的价值就无法充分发挥。

反过来,大数据的处理需求也推动了云计算相关技术的发展和应用。

换句话说,如果没有大数据这座矿山,云计算这个挖掘机,很多强大的功能都无法实现。

用一句话总结:云计算和大数据是相辅相成的。

大数据和物联网(5G)

第二个问题是,大数据和物联网有什么关系?

这个问题其实不难理解,前面也有所提及。

物联网指的是“物与物互相连接的互联网”。物联网的感知层产生了海量数据,极大地促进了大数据的发展。

同样,大数据的应用也发挥了物联网的价值,反向刺激了物联网的需求。越来越多的企业发现通过物联网大数据可以获得价值,因此愿意投资建设物联网。

这个问题还可以进一步延伸为“大数据和5G之间的关系”。

即将到来的5G将通过提升连接速率,增强“人联网”的感知,同时促进人类主动创造数据。

另一方面,5G更多的是为“物联网”服务的,包括低延时、海量终端连接等,都是物联网场景的需求。

5G刺激物联网的发展,而物联网又刺激大数据的发展。所有通信基础设施的强大,都是为大数据的崛起铺平道路。

大数据的产业链

接下来,我们谈谈大数据的产业链。

大数据的产业链与大数据的处理流程密切相关,主要包括生产数据、聚合数据、分析数据、消费数据等环节。

每个环节都有相应的参与者。

从现状来看,国外企业在大数据产业中占据较大份额,尤其是在上游领域,基本上都是国外企业。相比之下,国内企业在这一领域还存在较大差距。

大数据的挑战

虽然大数据有很多优点,但它也面临许多挑战。

除了数据管理技术难度外,大数据面临的最大挑战是安全问题。数据不仅是资产,也是隐私。没有人愿意自己的隐私被曝光,因此人们对隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了许多法律。

在这种情况下,企业获取用户数据时必须慎重考虑,是否符合伦理和法律。一旦违法,将面临极其严重的后果。

此外,即使企业合法获取数据,也需要担心数据是否会被恶意攻击和窃取。这种风险也不容忽视。

除了安全问题,大数据还要面对能耗等方面的挑战。

换句话说,如果不能很好地保护和利用手中的大数据,那么它反而会成为负担,有还不如没有。

希望这篇文章能帮助您更好地理解大数据。

本文来源: 图灵汇 文章作者: 李天悦
    下一篇