数据采集技术和存储技术的快速发展,加上数据生成和传播的便捷性,导致数据呈爆炸性增长,从而催生了当前的大数据时代。对这些数据集进行有效的深入分析,对于几乎所有社会领域的决策变得日益重要,包括商业与工业、科学与工程、医药与生物技术以及政府和个人决策。
然而,由于数据的数量、复杂性和收集与处理的速度,这些数据对人类来说难以独立分析。因此,虽然大数据的规模性和多样性给数据分析带来了挑战,但仍需要自动化工具来从中提取有用的信息。
数据挖掘将传统的数据分析方法与用于处理大量数据的复杂算法相结合。本文将介绍数据挖掘的基本概念。
通过POS(销售点)数据收集技术(如条码扫描器、RFID和智能卡技术),零售商可以在商店的收银台收集顾客购物的最新数据。这些信息加上电子商务网站的日志、客户服务记录等其他重要商务数据,可以帮助零售商更好地了解顾客需求,从而做出更明智的商业决策。
数据挖掘技术可以支持广泛的商务智能应用,如客户分析、定向营销、工作流管理、店铺布局、欺诈检测和自动化采购销售。例如,在金融交易领域,数据挖掘技术可以在不到一秒的时间内做出买卖决策。
数据挖掘还可以帮助零售商解答关键商业问题,如“哪些是最重要的客户?”、“哪些产品可以交叉销售或提升销售额?”、“公司明年业绩如何?”这些问题推动了数据挖掘技术的发展,尤其是关联分析。
随着互联网的普及,大量的在线体验数据,如网页浏览、信息传递和社交媒体互动,为商务应用提供了新机会。例如,电子商务平台可以利用用户的在线行为数据来推荐个性化产品。数据挖掘技术还支持其他互联网服务,如垃圾邮件过滤、搜索查询优化和社交网络更新建议。
互联网上的大量文本、图像和视频促进了数据挖掘技术的发展,如深度学习。这些技术推动了目标识别、自然语言翻译和自动驾驶等领域的发展。
另一个数据快速发展的领域是移动传感器和设备,如智能手机和可穿戴设备。这些设备通过内置的低成本传感器收集大量数据,可用于设计智能家居系统和智能城市。
医学、科学与工程领域的研究人员正在快速收集大量数据,这些数据对新发现至关重要。例如,NASA通过一系列地球轨道卫星收集全球的地表、海洋和大气数据,帮助科学家更好地理解气候变化。
然而,由于这些数据的规模和时空特性,传统方法往往不适合分析这些数据集。数据挖掘技术可以帮助科学家解答关键问题,如“生态系统扰动与全球变暖的关系?”、“海洋温度对降雨量和气温的影响?”、“如何准确预测生长季节的开始和结束?”
在分子生物学领域,研究人员利用大量基因组数据更好地理解基因结构和功能。微阵列技术的进步使科学家能够在多种情况下比较数千个基因特性,从而确定每个基因的作用。然而,由于数据噪声和高维性,需要新的数据分析方法。数据挖掘不仅用于基因序列分析,还可用于蛋白质结构预测、多序列比对、生物化学路径建模和系统发育学。
另一个例子是利用数据挖掘技术分析电子健康记录(EHR)。EHR允许研究人员更高效地探索数据,但挑战在于数据采集的限制。尽管如此,EHR分析可以整合传统数据和基因组数据,推动精准医学的发展,提供个性化治疗方案。
数据挖掘是在大型数据库中自动发现有用信息的过程。数据挖掘技术用于探查大型数据库,发现未知的有用模式。数据挖掘还可以预测未来的观测结果,如顾客消费金额。
并非所有信息发现任务都属于数据挖掘。例如,查询任务:在数据库中查找特定记录或网页。这是因为这些任务可以通过简单的数据库管理系统或信息检索系统完成,这些系统依赖于传统的计算机技术,如高效的索引结构和查询处理算法。
数据挖掘技术可以提高搜索结果的质量,因此被用于提升这些系统的性能。数据挖掘是数据库知识发现(KDD)不可或缺的一部分,KDD是将未加工数据转化为有用信息的全过程。KDD包括一系列转换步骤,从数据预处理到结果后处理。
数据预处理涉及将原始数据转换为适当的格式,以便进行后续分析。这包括融合来自多个数据源的数据、清洗数据以消除噪声和重复记录、选择与当前数据挖掘任务相关的数据。
“闭环”通常指将数据挖掘结果集成到决策支持系统的过程。例如,在商业应用中,数据挖掘的结果可以与商业活动管理工具结合,开展有效的商品促销活动。
后处理步骤确保只将有效和有用的结果集成到决策支持系统中。后处理还包括可视化,帮助数据分析者从不同角度探索数据和结果。后处理阶段还可以使用统计度量或假设检验,以删除虚假结果。
在面对大数据应用带来的挑战时,传统数据分析技术经常遇到实际困难。以下是引发数据挖掘研究的具体问题:
可扩展性:随着数据采集技术的进步,TB、PB甚至EB级别的数据集变得普遍。数据挖掘算法必须具备可扩展性,以处理这些大规模数据集。为此,算法可能需要采用特殊的搜索策略,或开发新的数据结构和抽样技术。
高维性:如今,常遇到成百上千属性的数据集,而几十年前的数据集通常只有少量属性。例如,微阵列技术产生的基因表达数据就涉及数千个特征。高维数据集需要专门的数据分析技术,以应对“维灾难”问题。
异构和复杂数据:传统的数据分析方法通常只处理单一类型的数据,但数据挖掘在商业、科学、医学等领域的重要性日益增加,需要处理异构属性的数据。此外,近年来出现了更复杂的数据对象,如包含文本、图像、音频和视频的Web和社交媒体数据,以及具有时间或空间分量的数据。
数据所有权和分布:有时需要分析的数据分布在多个机构的数据源中。分布式数据挖掘技术需要解决通信量、数据统一和数据安全等问题。
非传统分析:传统统计方法基于假设检验模式,但现代数据分析任务需要处理数千个假设。数据挖掘技术需要自动产生和评估假设,并处理非传统样本数据。
数据挖掘与其他领域密切相关,特别是数据库系统、高性能计算和分布式技术。数据库系统提供高效的存储、索引和查询处理,高性能计算技术在处理海量数据集时非常重要,分布式技术则在数据不能集中处理时尤为关键。这些领域共同推动了数据挖掘的发展。