聊聊什么是大数据|一文秒懂

图灵汇官网

大数据基本概念

大数据的定义

  • 广义(哲学角度):大数据是指物理世界向数字世界的转化和提炼,通过发现数据特征,从而做出提升效率的决策。
  • 狭义(技术角度):大数据是一种通过获取、存储、分析海量数据来挖掘价值的技术架构。

数据的级别

数据级别涵盖了从较小到较大的各种数据集。

数据的主要来源

  • 传统企业数据:包括客户关系管理(CRM)数据、企业资源计划(ERP)数据、库存数据、人事数据、财务数据等。
  • 机器和传感数据:如设备日志、智能仪表、工业传感器、环境传感器、摄像头等。
  • 社交数据:包括用户行为记录、访问记录、用户生成内容(UGC)、反馈数据等。

数据的类型

  • 按结构划分

    • 结构化数据:通常存储在关系型数据库中的数据,例如企业ERP、OA、HR里的数据。
    • 非结构化数据:数据结构不完整或不规则,没有预定义的数据模型,例如Word、PDF、PPT及各种格式的图片、视频等。
    • 半结构化数据:具有基本固定结构模式的数据,但不符合关系模型,例如日志文件、XML文档、JSON文档、E-mail等。
  • 按访问频率划分

    • 冷数据:访问频率低,对业务和应用不太重要的数据。
    • 热数据:访问频率高,对业务和应用至关重要的数据。
    • 温数据:访问频率适中,对业务和应用具有一定重要性的数据。

数据价值挖掘

通过分析和挖掘数据,可以获得有价值的商业洞察。

大数据的特征(五个“V”)

  • Volume(体量):数据量巨大。
  • Velocity(速度):数据产生和处理速度快。
  • Variety(多样性):数据类型多样。
  • Veracity(准确性):数据的真实性。
  • Value(价值):数据的价值。

大数据与传统数据的对比

大数据能够处理传统数据难以处理的海量数据。

大数据、云计算、人工智能

  • 云计算:关注资源的分配和利用,实现更高效的资源利用。
  • 大数据:专注于海量数据的高效处理。
  • 人工智能:依赖于大数据和云计算提供的强大数据存储和计算能力。

大数据的发展历程

  • 起步阶段:数据库的发明简化了数据管理,数据主要以结构化形式存在。
  • 转变阶段:互联网2.0时代,用户原创内容的兴起,导致数据量激增。
  • 加速阶段:物联网的发展使得数据采集自动化,实现了物理世界向数字世界的映射。

大数据应用的三个阶段

  • 数据收集:从各种来源收集数据。
  • 数据分析:对收集的数据进行分析。
  • 数据应用:将分析结果应用于实际场景。

大数据面临的挑战

  • 需求模糊:业务部门的需求不明确,企业担心投资回报。
  • 数据孤岛:数据碎片化,缺乏整合,无法发挥数据价值。
  • 数据流失:高昂的存储成本导致历史数据丢失。
  • 数据质量差:忽视预处理阶段,数据处理不规范。
  • 数据安全隐患:数据安全威胁增加,保护难度加大。
  • 隐私保护:法律法规要求严格,需合法合规地收集和利用数据。
  • 人才缺乏:大数据相关人才短缺,影响技术发展。

大数据的未来趋势

  • 资产化:大数据将成为重要的战略资源和无形资产。
  • 智能化:数据处理将更加自动化,提高效率和质量。
  • 个性化:大数据将更加关注用户需求,提供个性化服务。
  • 可视化:数据将以图表、报表等形式呈现,便于用户理解。
  • 安全性:数据安全将更加重视,采用更严格的数据保护措施。

大数据的产业链

  • 价值链:大数据产业链包括数据收集、存储、处理、分析、应用等多个环节。
  • 应用领域:涵盖金融、医疗、交通、零售等多个行业。

数据湖

  • 定义:数据湖是一种集中式存储库,用于存储未经处理的原始数据。
  • 特点:支持存储各种类型的结构化、半结构化和非结构化数据。
  • 功能:数据湖能够实现全量数据的获取、存储和多模式处理。

湖仓一体

  • 定义:湖仓一体结合了数据湖和数据仓库的优势,实现数据的高效管理和分析。
  • 优势:支持多种数据类型,提供灵活的数据处理能力。

以上内容经过改写,确保了与原文内容的一致性,同时降低了相似度,提高了可读性和紧凑性。

本文来源: 图灵汇 文章作者: 无颜说智能