秒懂数据挖掘,玩转数据分析的高级应用不在话下

图灵汇官网

随着时代的进步,人类产生的数据量呈指数级增长,数据的开放性应用和潜在价值也日益凸显。在大数据精准营销、大数据洞察等热门话题背后,数据挖掘、分析技术扮演着至关重要的角色。数据挖掘不仅成为政府提升管理效能的有效工具,也是各行各业增强核心竞争力的关键手段。

什么是数据挖掘

数据挖掘是从大量、不完整、含有噪声、模糊及随机的数据中,提取出之前未知但具有潜在价值的信息和知识的过程。

数据挖掘是一个多学科交叉的领域,涵盖了数据库系统、统计学、机器学习、可视化及信息科学等多个学科。

数据挖掘与商业智能的关系

商业智能侧重于创建明确的统计分析报表,根据统计结果提供商业决策支持,输入数据,输出信息。而数据挖掘则通过分析数据表象,发现隐藏的规律和看似无关事物之间的联系,从而洞察或预测未知事项,输入数据,输出知识。

数据挖掘是商业智能的高级应用,通过对大量业务数据进行探索和分析,揭示隐藏的未知规律。

数据挖掘能解决哪些问题

分类与回归

分类是根据样本数据中标记的类别对原数据进行分类总结,进而预测未来数据的归类。回归是确定一种或多种变量间相互依赖关系的统计分析方法。

分类和回归主要用于预测问题。分类适用于离散型目标变量的预测,而回归适用于连续型目标变量的预测。以下是分类和回归技术可以解决的一些问题:

  • 如何将信用卡申请人分为低、中、高风险群体?
  • 如何预测银行可以安全地贷给贷款人的贷款量?
  • 如何有效预测房地产开发中存在的风险?
  • 如何预测哪些顾客在未来半年内会取消公司服务,哪些电话用户会申请增值服务?
  • 如何预测具有某些特征的顾客是否会购买一台新的计算机?
  • 使用3G通信网络的手机用户中,哪些可能转换到4G通信网络?
  • 如何预测一位顾客在一次销售期间将花多少钱?
  • 如何预测病人应当接受三种具体治疗方案中的哪一种?

下图展示了一个基于决策树预测银行客户是否存在贷款风险的示例。

聚类

聚类是在预先不知道欲划分类的情况下,根据数据相似度原则进行数据归类的方法。

聚类能够解决的问题包括:

  • 哪些是银行信用卡的优质客户?
  • 哪些用户喜欢拨打国际长途电话,拨打时间及目的地是哪里?
  • 如何对用户WAP上网行为进行分析,通过客户分群进行精准营销?
  • 如何对住宅区进行聚类,确定自动提款机ATM的安装位置?
  • 如何通过特定症状归纳某种特定疾病?

下图展示了通过聚类分析找到共性数据的过程。

关联规则

关联规则是在一个数据集中找出各个物品或商品之间的关系,也被称为购物篮分析。

关联规则可以应用于许多实际业务场景,例如:

  • 已经购买商品A的人最有可能购买哪些商品?
  • 商业销售中如何通过交叉销售获得更大收益?
  • 保险领域如何分析索赔要求,发现潜在的欺诈行为?
  • 银行如何分析客户消费习惯,有针对性地推荐感兴趣的金融服务?
  • 制造零件和设备设置与故障事件之间的关联是什么?
  • 哪些病人和药物属性与结果有关?

下图展示了某商场购物篮推荐结果的示例。

时间序列预测

时间序列预测是通过已有的时间序列数据进行类推,以预测下一段时间的趋势。

时间序列预测可以解决以下问题:

  • 下个月的商品销量、销售额或库存量是多少?
  • 明天广州市的最高用电负荷是多少?

下图展示了某公司红酒销量的预测图。

关系网络分析

关系网络分析用于探索社会行动者及其间的关系,例如社会关系、亲属关系、角色关系、行为关系、流动关系、地理空间关系等。

关系网络分析也称为社会网络分析,通过分析可以发现行动者之间隐藏的关系。常见的关系类型包括:

  • 亲属关系:父母、子女、夫妻关系等。
  • 正式关系(权威关系):如老板/职员、教师/学生、医生/病人关系等。
  • 个人之间的评价关系:喜欢、信任、尊重等。
  • 行为上的互动关系:如谈话、参加会议、拜访、提建议等。
  • 隶属关系:如参加某协会、加入某些俱乐部等。
  • 物质资本的传递:如商业往来、物资交流等。
  • 非物质资源的转换关系:如信息交换等。
  • 空间关联:如城市之间的关系、迁入和迁出等。
  • 职位的升迁和地位的流动等。

下图展示了《悲惨世界》一书中人物的关系网络分析示例。

数据挖掘是一个循环迭代的过程,通过不断调整模型以提高精度。若想更好地掌握数据挖掘,[b]亿信华辰数据挖掘软件豌豆DM[/b]是一个不错的选择。

豌豆DM内置了分类分析、回归分析、聚类分析、关联规则分析以及时间序列应用等五大类十几个小类的数据挖掘算法,并支持R语言算法扩展。用户可以通过半自动化或自动化的方式分析业务数据,从中挖掘出潜在的模式,解决客户流失分析、客户细分、银行客户贷款风险分析、客户信用评价、关联推荐(购物篮分析)等各类数据分析应用问题。

本文来源: 图灵汇 文章作者: 袁翠苓