「每日分享」什么是大数据

图灵汇官网

点击上方"Java全栈技术"关注,每天学习一个Java知识点。

大数据是一种包含海量、高速度增长和多样化信息的资产,它需要全新的处理模式来提升决策力、洞察力和流程优化能力。

大数据通常拥有巨大的数据存储量。根据2013年的统计,百度已积累了接近EB级别的数据量,而阿里巴巴和腾讯声称各自的数据总量也达到了数百PB。此外,电信、医疗、金融、公共安全、交通和气象等领域保存的数据量也都达到了数十甚至数百PB。

面对如此庞大的数据存储量,单台数据库服务器显然无法应对,因此需要使用分布式文件系统(如HDFS)作为基础架构。

传统的关系型数据库主要存储结构化数据,例如:

但在实际应用中,信息往往缺乏明确的结构。例如,一家电商网站需要记录用户的行为数据,如用户张三在某一时间搜索了“苹果手机”,然后进入某店铺浏览,经过与店家沟通后,最终以6000元的价格购买了一部iPhone 7“钢琴黑”款手机。这类数据属于非结构化数据,难以用关系型数据库存储。因此,许多No-SQL数据库(如HBase)成为了存储大数据的更好选择。

如果没有更快更有效的海量数据解决方案,如此大规模且多样的数据不仅不会创造更多价值,反而会成为系统的负担。在这方面,谷歌公司提出的MapReduce模型提供了一种新途径。

MapReduce可以被看作一种分治法:将大任务分解成多个小任务,分配给多个节点并行处理,最后将各个节点的结果汇总起来,从而显著提高数据处理效率。(MapReduce的具体流程将在后续文章中详细介绍。)

人工智能:

通过大数据作为机器学习的训练集,可以训练出具备一定决策能力的人工智能。例如,谷歌的AlphaGo通过大量围棋棋局的学习,最终获得了战胜围棋世界冠军的能力。

商业分析:

从大量用户行为数据中挖掘有价值的商业信息。例如,知名社交公司LinkedIn利用用户间的关联关系构建了一个复杂的信息网络,涵盖了学校、公司和人才之间的联系。此外,LinkedIn还通过分析求职者和招聘方的信息,帮助客户公司了解哪些公司正在快速扩展,哪些公司正在流失人才,以及哪些公司在争夺人才市场。这些信息对于客户公司而言非常宝贵。

犯罪预测:

洛杉矶警察局曾利用原本用于预测地震余震的大数据模型,将过去80年内130万条犯罪记录输入其中,结果发现预测的犯罪高发地区与实际情况高度一致。后来,经过改进的预测算法已成为当地警方的重要参考工具,有效降低了犯罪率。

本文仅是对大数据领域的一个初步介绍。希望通过这篇文章,没有IT背景或对大数据不太了解的朋友能够对大数据有所认识。

(本文内容来源于“程序员小灰”。)

本文来源: 图灵汇 文章作者: 张晓