数据挖掘是指人们从事先不知道的大量不完整、杂乱、模糊和随机数据中提取潜在隐藏的有用信息和知识的过程。根据信息存储格式,用于挖掘的对象是关系数据库,面向对象的数据库,数据仓库,文本数据源,多媒体数据库,空间数据库,时间数据库,异构数据库和Internet。
大数据挖掘方法
方法1.Analytic Visualizations(可视化分析)
无论是日志数据分析专家还是普通用户,数据可视化都是数据分析工具的最基本要求。可视化可以直观地显示数据,让数据自己说话,让听众看到结果。
方法2.Data Mining Algorithms(数据挖掘算法)
如果说可视化用于人们观看,那么数据挖掘就是给机器看的。集群、分割、孤立点分析和其他算法使我们能够深入挖掘数据并挖掘价值。这些算法不仅要处理大量数据,还必须尽量缩减处理大数据的速度。
方法3.Predictive Analytic Capabilities(预测分析能力)
数据挖掘使分析师可以更好地理解数据,而预测分析则使分析师可以根据可视化分析和数据挖掘的结果做出一些预测性判断。
方法4.semantic engine(语义引擎)
由于非结构化数据的多样性给数据分析带来了新挑战,因此需要一系列工具来解析,提取和分析数据。需要将语义引擎设计成从“文档”中智能地提取信息。
方法5.Data Quality and Master Data Management(数据质量和主数据管理)
数据质量和数据管理是一些管理方面的最佳实践。通过标准化流程和工具处理数据可确保获得预定义的高质量分析结果。
大数据挖掘应用
大数据应用1:大数据挖掘可以使混乱且无规则的数据变得清晰且具有高可用性
大数据具有两个典型特征,一个是大量数据,另一个是复杂的计算。与传统数据库相比,大数据的结构化程度,可用性,数据提取和数据清理都是一项繁重的工作。
典型的典型生产和销售企业的业务系统数据是隔离,拆分,销售,生产,财务,客户等的,不同方面实际上是为自己的业务目标和输出构建自己的IT系统甚至被外包给不同的IT集成商或软件开发人员,因此系统相对独立。这种独立的结果不仅是隔离,而且在数据结构,数据记录和存储,软件系统负载方面,其他产品的技术水平也有所不同。数据挖掘需要根据您的目标构建挖掘模型,并建立多个数据系统的关联。
大数据应用2:让数据与数据之间的关系,这种关系可能产生化学反应
啤酒和尿布,口香糖和避孕套的著名例子可以发现典型数据之间的隐含关系。通过对消费者行为的数据进行建模和分析,可以发现理论上这两个原本不相关的事物,当用户购买某商品时产生了关联,针对此发现优化货架商品可以增加销售额。
用过亚马逊的朋友可能已经看到,购买手机时,建议将手机壳和存储卡包装在一起以享受折扣。当然,也有一些愚蠢的推荐策略,例如淘宝,您买了一个移动电源,他立即推了一堆其他的移动电源,告诉您还有便宜的哦,这个东西不是包子,短期内购买一次基本就不会马上购买第二次。当然,如果将这种策略放在阿里巴巴上,那是一个很好的策略。对于批量购买行为,此建议可以节省用户的成本。
大数据应用3:监视数据生成过程以发现异常,并作出预警和错误纠正
通过时间对系统生成的数据进行建模,可以记录平均值以及每个时间点和时间段的上下间隔。如果某个节点发生异常情况,则系统可以快速找到问题并进行预警和故障排除。当然,这只是技术系统的价值。
在业务系统中,这种数据异常会给您业务状况的警告,帮助您比较历史时间维度,确定事物发生变化的原因,并为您提供必要的时间,数据和相关信息参考用于决策分析。
大数据应用4:通过数据挖掘建立知识模型以提供决策支持信息
IT系统正在发挥更大的价值,因为它可以帮助您通过信息集成来提供决策参考信息。过去,有一个术语称为KDD(知识发现)。随着互联网信息内容的丰富和以及各大例如亿信华辰BI软件等公司的发展,网络信息的价值和有效性也在增加。通过信息的存在和信息特征的提取,建立不同信息之间的关系,通过语义分析和情感分析,可以提取信息本身的价值趋势,态度和消费效用,从而提供更多的信息。而这些信息在决策参考上将提供更系统、数据化的分析和参考。
大数据应用5:强大的数据处理和分析功能可以建立数据驱动的垂直业务生态系统
数据挖掘技术系统将负责根据目标重组所有数据,并建立与模型相对应的数据索引。重建数据的顺序将大大提高数据的可用性。从垂直行业开始,为该行业的信息服务需求建立模型,并不断优化各种细节和子节点的输出,以便该行业中的每个颜色参与者都可以在生态上获得自己的利益和价值,然后这将建立该细分行业的垂直业务生态。