用户工具


目的

机器学习能让我们从数据集中受到启发,我们利用计算机来彰显数据背后隐含的规律

基本概念

  • 分类 :对数据集合以类别区分
  • 回归 :主要用于预测数值型数据
  • 类聚 :将数据集分成有类似对象组成的多个类的过程称“类聚”

分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。与之对应的是无监督学习,此时数据没有类别信息,也不会给定目标值

常用算法

监督学习

  • k邻近算法
  • 贝叶斯算法
  • 支持向量机
  • 决策树

无监督学习

  • K-均值
  • DBSCAN

开发机器学习程序步骤

  1. 收集数据
  2. 输入数据格式化
  3. 分析输入数据(确保没有垃圾数据)
  4. 训练算法
  5. 测试算法(算法训练完成之后,用一个测试数据集测试算法准确性)
  6. 使用算法(测试目标达成后即可使用该算法)