==== 目的 ==== 机器学习能让我们从数据集中受到启发,我们利用计算机来彰显数据背后隐含的规律 ==== 基本概念 ==== * 分类 :对数据集合以类别区分 * 回归 :主要用于预测数值型数据 * 类聚 :将数据集分成有类似对象组成的多个类的过程称“类聚” 分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。与之对应的是无监督学习,此时数据没有类别信息,也不会给定目标值 ==== 常用算法 ==== === 监督学习 === * k邻近算法 * 贝叶斯算法 * 支持向量机 * 决策树 === 无监督学习 === * K-均值 * DBSCAN ==== 开发机器学习程序步骤 ==== - 收集数据 - 输入数据格式化 - 分析输入数据(确保没有垃圾数据) - 训练算法 - 测试算法(算法训练完成之后,用一个测试数据集测试算法准确性) - 使用算法(测试目标达成后即可使用该算法)