什么是数据挖掘，数据挖掘，机器学习与深度学习中聚类、关联、决策跟分类是什么？

潜江龙资讯网

大数据的挖掘常用的方法有分类什么是数据挖掘、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。

所以总体可以认为深度学习跟机器学习都属于数据挖掘的方法。

(1)分类

分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类。

比如我们在电商商平台上的各类产品，肯定要按照产品属性进行分类，对应的数据挖掘的分类，就是利用属性去寻找有共同特点的数据对象，归到一个大集合。

(2)回归分析

回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。

比如，我们有了过去三年的销售数据，我们就可以抽象出影响销售的因素，对未来的销售数据做出预测。

(3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。

（4）关联规则

关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。

我们最喜欢举得例子，就是爸爸去超市购物的例子，爸爸去超市买奶粉，如果在旁边放上爸爸喜欢的啤酒起子、酒精饮料，肯定能引导消费。

(5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、

分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。

目前的大数据处理，已经不是结构数据为天下，而是有大量文本、音频、视频、图像等非线性数据，所以基于神经网络的深度学习算法，目前已经蓬勃发展，不可阻挡的改变着一切。

(6)Web数据挖掘。Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

这个我个人的理解，更像是用户行为画像，目前基于HTML5的前端页面，已经有了充足的信息获取能力，比起之前的HTML静态页面，实在太强了。以前困惑我们的用户的分类问题、网站内容时效性问题，用户在页面停留时间问题，页面的链入与链出数问题等已经慢慢得到了解决。

数据挖掘

数据挖掘是一项使用数据探索技术发现一些有趣(而不明显)的模式的技术。

什么模式？例如：根据某些特征对数据进行分组的方式、异常检测(罕见值)、某些观察值与其他值之间的相关性、某些事件的连续性、行为的识别等。

数据挖掘使用机器学习等方法。

机器学习

机器学习是人工智能最重要的分支。它的任务是：研究和开发技术，使机器能够在没有人类明确指令的情况下自学，从而执行特定的任务。

机器将从输入数据集(称为样本或训练数据)中学习，根据算法检测到的模式建立数学模型。该模型的最终目标是对之后来自相同数据源的数据进行(准确的)预测或决策。

传统的机器学习主要有两种类型：

· 监督学习：当训练数据被“标记”时。这意味着，对于每个样本，我们都有与观察到的变量(输入)和我们想要学习预测或分类的变量(输出、目标或因变量)相对应的值。在这种类型中，我们找到了回归算法(预测数值的算法)和分类算法(输出仅限于某些分类值时)。

· 无监督学习：当训练数据没有标记时(我们没有目标变量)。这里的目标是找到某种结构或模式，例如对训练样本进行分组，这样我们就可以对未来的样本进行分类。

传统的机器学习已经让位于更复杂或更现代的学习类型：

· 集成方法：基本上是几种算法联合使用，将它们的结果结合起来以获取更好的结果。尽管XGBoost凭借在Kaggle的胜利而得名，但最常见的例子还是随机森林。

· 强化学习：机器通过反复试误来学习，这得益于它对周围环境的迭代做出的反馈。你可能听说过AlphaGo或AlphaStar（在《星际争霸2》中实力碾压人类）。

· 深度学习：皇冠上的宝石……

留言点赞关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

最新文章