大数据挖掘,需要大数据技术框架的支持,早期的Hadoop MapReduce框架,是解决大数据挖掘问题的第一代框架,而随着数据处理需求的变化,紧随其后又出现了很多的解决方案,比如说twitter提出的Storm,Yahoo的S4,UC Berkeley的Spark,斯坦福大学的Phoenix等。
大数据挖掘,需要根据实际的需求,来选择对应的解决方案,为后续的数据处理提供稳定的支持。
大数据挖掘,根据数据类型的不同,有不同的处理方式。
大数据挖掘应用中最常见的数据类型称为结构化数据,定义为存储在数据库里,能用二维表结构来逻辑表达实现的数据。结构化数据因为格式规整,所以处理起来也非常快速。
而在互联网行业企业,日常所产生的数据,比如说网站的流量、移动APP的日活跃用户数(DAU,Daily Active Users)、登录用户数、停留时间等数据,这些数据则多是半结构化数据。半结构化数据具有可被理解的逻辑流程和格式,但这些格式并不是用户友好的,有价值的信息参杂在大量的噪声和无用的数据中,处理起来比结构化数据复杂。
比半结构化数据更复杂的是非结构化数据。文本信息是目前已记录的数量最为庞大的数据形式,例如网页中的文字内容、聊天记录、电子邮件,企业的各类文档等,它们包含了大量有价值的信息,对它们的分析处理催生出了自然语言处理(NLP,Natural Language Processing)这样专门的计算机学科。
大数据处理难度最高的是多媒体类的非结构化数据,包括图像、语音、视频等,对这些数据的深入挖掘和理解,能产生非常多新颖实用的功能,如自动监控、人脸识别、自动驾驶等,这些领域也是大数据挖掘应用的未来潜力领域。
© 版权声明
免责声明
本站提供的一切软件、教程和内容信息仅限用于学习和研究,不得用于商业或者非法用途,否则,一切后果请用户自负;本站信息来自网络收集整理,版权争议与本站无关,您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除相应的内容;如果您喜欢该内容,请支持正版,得到更好的服务;我们非常重视版权问题,如有侵权请与我们联系,敬请谅解!
邮箱:sanshi@sanshi.link
相关文章
暂无评论...