jhljx Blog

Looking at the stars with your feet on the ground

Fisher线性判别与线性判别分析

"Fisher线性判别"

目录 1. PCA模型 2. FLD模型 2.1. 二分类问题 2.2. 多分类问题 2.3. Fisher与贝叶斯决策的关系 2.4. Fisher与最小二乘法的关系 3. 瑞利商与广义瑞利商 4. LDA算法小结 5. PCA模型与FLD模型的对比 6. FLD模型的应用实例 PCA模型 未完待续 FLD模型 FLD模型,即Fisher’s Linear ...

SVD算法

"Python机器学习实战笔记"

目录 1. 矩阵分解 2. 基于协同过滤的推荐系统 2.1. 相似度计算 2.2. 推荐未评分的物品 2.3. 利用SVD提高推荐效果 3. 基于SVD的图像压缩 矩阵分解 import numpy as np U, Sigma, VT = np.linalg.svd([[1, 1], [7, 7]]) U array([[-0.14142136, -0.98...

PCA算法

"Python机器学习实战笔记"

目录 1. 降维技术 2. PCA 降维技术 对数据进行简化降维的原因: 使得数据更易使用 使得数据更易可视化 降低很多算法的开销 去除噪声 使得结果易懂 数据降维方法主要有三种: 主成分分析(Principal Component Analysis, PCA) 在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择由原始数据...

FP-Growth算法

"Python机器学习实战笔记"

目录 1. FP树:用于编码数据集的有效方式 2. 构建FP树 2.1. 创建FP树的数据结构 2.2. 构建FP树 3. 从FP中挖掘频繁项集 3.1. 抽取条件模式基 3.2. 创建条件FP树 FP树:用于编码数据集的有效方式 FP-growth算法比Apriori算法更快,它基于Apriori构建,但在完成相同任务时采用了不同的技术。这里的任务是将数据集存储在一个特...

Apriori算法

"Python机器学习实战笔记"

目录 1. 关联分析 2. Apriori原理 3. 使用Apriori算法来发现频繁项集 3.1. 生成候选项集 3.2. 组织完整的Apriori算法 4. 从频繁项集中挖掘关联规则 关联分析 Apriori算法 优点:易编码实现 缺点:在大数据集上可能较慢 适用数据类型:数值型或者标称型数据 关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形...

k-Means算法

"Python机器学习实战笔记"

目录 1. K-Means聚类算法 2. 使用后处理提高聚类性能 3. 二分K-Means算法 K-Means聚类算法 K-Means算法的伪代码如下所示: 创建k个点作为起始质心(经常是随机选择) 当任意一个点的簇分配结果发生改变时 对数据集中的每个数据点 对每个质心 计算质心与数据点之间的距离 将数据点...

树回归算法

"Python机器学习实战笔记"

目录 1. 树回归方法 2. CART算法应用于回归 3. 树的剪枝 3.1. 预剪枝 3.2. 后剪枝 4. 模型树 5. 树回归与标准回归的比较 6. 使用Python的Tkinter库创建GUI 树回归方法 第三章使用决策树来做分类,决策树是一种贪心算法,它要在给定时间内做出最佳选择。第三章使用的树构建算法是ID3,该算法是每次选取当前最佳的特征来分割数据,并按照该...

线性回归算法

"Python机器学习实战笔记"

目录 1. 标准回归函数拟合 2. 局部线性回归法 3. 预测鲍鱼年龄 4. 解决特征维数比样本数大的问题 4.1. 岭回归 4.2. lasso方法 4.3. 前向逐步回归法 5. balance bias and variance 6. 预测乐高玩具价格 标准回归函数拟合 import regression import numpy as np xArr, y...

AdaBoost算法

"Python机器学习实战笔记"

目录 1. 基于数据集多重抽样的分类器 1.1. bagging:基于数据随机重抽样的分类器构建算法 1.2. boosting 2. 训练算法:基于错误提升分类器的性能 3. 基于单层决策树构建弱分类器 4. 测试算法:基于AdaBoost的分类 5. 非均衡分类问题 基于数据集多重抽样的分类器 元算法(meta-algorithm) 是对其他算法进行组合的一种方式。A...

支持向量机算法

"Python机器学习实战笔记"

目录 1. 基于最大间隔分隔数据 2. SVM应用的一般框架 3. SMO高效优化算法 3.1. 应用简化版SMO算法处理小规模数据集 4. 利用完整的Platt SMO算法加速优化 5. 在复杂数据上使用核函数 5.1. 利用核函数将数据映射到高维空间 5.2. 径向基函数 5.3. 在测试中使用核函数 基于最大间隔分隔数据 支持向量机的优缺点: 优点:泛化错误...