几份机器学习入门材料的知识点索引

  |  

摘要: CS229、小蓝书、西瓜书三份学习资料

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


CS229

线性回归

  • 平方损失 + 最小二乘
  • 梯度下降
  • 更新方式: 批梯度下降 vs. 增量梯度下降
  • 设计矩阵: 不可逆 vs. 伪逆
  • 平方损失的概率解释
  • 局部加权线性回归 LWR (类似 kNN)

Logistic 回归

  • MLE + 梯度下降

感知机

  • MLE + 牛顿法
  • Hessian 矩阵

GLM

  • 指数分布族
  • 贝努力、高斯、泊松
  • GLM
  • 多项分布与 Softmax 回归

GDA

  • 多维正态
  • GDA vs. Logistic

朴素贝叶斯

  • 朴素贝叶斯假设
  • GDA vs. 朴素贝叶斯
  • Laplace 平滑
  • multinomial 时间模型

非线性分类器

  • Logistic vs. SVM
  • 最优间隔分类器(含非凸约束)
    • 加约束, 改写 -> 二次规划
  • Lagrange 对偶
  • KKT 条件
  • 新样本预测: 新样本与支持向量内积
    • 线性不可分,特征映射
    • 核函数
    • Mercer 定理
  • 软间隔
  • 坐标下降法
  • SMO

学习理论

  • 训练误差 & ERM & 计数
  • 假设类
  • 一般误差及其上界
  • 方差 vs. 偏差
  • VC
  • ERM vs. Logistic vs. SVM
  • 模型选择
    • 多项式的次数
    • LWR 的带宽
    • 软间隔 SVM 的 C
    • 交叉验证
  • 特征选择
    • n >> m,启发式搜索
    • 前向搜索,后向搜索
    • 过滤特征选择
  • 正则化
    • 频率派 vs. 贝叶斯派
    • MLE vs. MAP

应用

  • 高测试误差应对
  • 训练/测试误差示意图, 方差(过拟合), 偏差(特征少)
  • 加权准确率
  • 误差分析 & 销蚀分析

无监督 & 降维

  • Kmeans: 硬指定, EM 思想, 坐标下降
  • 密度估计, GMM: 软指定, EM 思想
    GMM vs. GDA
  • EM 推导, Jensen 不等式,构造下界
  • EM 收敛的坐标上升解释
  • GEM
  • 文本聚类: 混合朴素贝叶斯 + EM
  • 因子分析
    • 高维样本 = 低维高斯样本 + 线性变换 + 误差
  • PCA:
    • 最大方差 vs. 最小平方误差
    • 前 k 大特征值,特征子空间
    • SCD 实现 PCA
    • FA vs. PCA vs. GMM vs. Kmeans
  • ICA(PCA 仅对高斯样本有效)
    • 投影追踪解释
  • LDA(PCA, ICA 均无类标签)
  • CCA(特征线性组合)
    • CCA vs. 线性回归
    • CCA vs. LDA
  • KCCA(特征线性组合不好,用核)
  • PLSR(偏最小二成线性回归)
    • 线性回归、PCA、CCA 有各自缺点,pLSR 兼顾。




小蓝书(第一版)

基本概念

  • 模型 vs. 策略 vs. 算法
  • 输入空间 vs. 输出空间 vs. 特征空间
  • 分类 vs. 回归 vs. 标注
  • 概率模型 vs. 非概率模型
  • 损失函数 vs. 期望风险
  • 经验风险与 MLE
  • 结构风险与 MAP
  • 正则化的贝叶斯角度理解
  • 生成法 vs. 判别法

感知机

  • NN 和 SVM 的基础
  • 线性可分
  • loass
  • SGD

kNN

  • 对特征空间的划分
  • 距离度量 & K & 分类决策规则
  • kd 树

朴素贝叶斯

  • 特征条件独立
  • MLE vs. 贝叶斯估计
  • Laplace 平滑

决策树

  • if-then 规则集
  • 特征空间划分 vs. 条件分布
  • 树生成(局部) vs. 树剪枝(全局)
  • ID3 生成
  • C4.5 生成
  • 损失函数
  • 剪枝(自叶到根,类似于 DP)
  • CART
    • 回归树生成
    • 分类树生成
    • CART 剪枝

logistic 回归

  • 事件几率 vs. 对数几率
  • logit(p) = wx
  • 对数似然
  • 梯度下降
  • 牛顿法
  • 拟牛顿法, DFP vs. BFGS

最大熵模型

  • 特征函数
  • 经验分布
  • P(Y|X) 的条件熵
  • 对偶 -> 无约束优化
  • 广义 Lagrange 函数
  • KKT 条件
  • IIS 算法

SVM

  • 线性可分
  • 函数间隔 vs. 几何间隔
  • 最大间隔, 支持向量
  • 软间隔
  • Lagrange 函数与对偶
  • 合页损失
  • 核技巧(非线性SVM)
  • SMO

提升方法

  • PAC 下强可学习与弱可学习
  • AdaBoost
    • 弱学习器: 错分类样本加权, 正确分类样本降权
    • 加权多数表决
    • 加法模型 + 指数 Loss + 前向分步
    • 前向分步算法
  • 提升树
    • 决策树做基 + 加法模型 + 前向分步
    • 回归和分类的主要区别: Loss
    • 分类: 基用分类树
    • 回归: 拟合残差
    • GBDT 与残差近似

EM

  • 三硬币模型
  • Q 函数与 EM 算法
  • EM 推导
  • GMM
  • F 函数与 GEM

HMM

  • 盒子和球模型
  • HMM 的概率计算: 前向-后向法
  • HMM 学习:
    • 有监督: MLE, 计数
    • 无监督: Baum-Welch 算法
  • HMM 预测
    • 近似法
    • Viterbi 算法

CRF

  • Markov 性, MRF
  • 最大团分解
  • 线性链 CRF(对数线性模型): 参数式、简化式、矩阵式
  • 线性链 CRF 概率计算: 前向-后向算法
  • 线性链 CRF 学习: MLE + IIS/梯度下降/拟牛顿法
  • 线性链 CRF 预测: Viterbi





西瓜书

模型评估与选择

  • 经验误差 vs. 泛化误差
  • 留出法 vs. 交叉验证 vs. 自助
  • 均方误差 vs. 错误率
  • 查准率 vs. 查全率 vs. PR曲线 vs. BEP
  • ROC vs. AUC
  • 指标 -> 代价敏感版本 vs. ROC -> 代价曲线
  • 性能比较, 假设检验

线性模型

  • 线性回归
    • 最小二乘法
    • MSE 的概率解释
  • GLM
    • 加权最小二乘 vs. MLE
  • Logistic 回归
    • MLE: 梯度下降 vs. 牛顿法
  • LDA
    • 贝叶斯决策论角度理解
    • 类内散度 vs. 类间散度
    • 多分类推广
  • 类别不平衡
    • 欠采样
    • 过采样
    • 阈值移动

决策树

  • 建树时,当前节点的三种返回情况
    • 均为同类
    • 属性集为空集
    • 样本集为空集
  • 节点属性选择
    • 信息增益(ID3)
    • 增益率(C4.5)
    • 基尼系数(CART)
  • 预剪枝 vs. 后剪枝 vs. CART 剪枝
  • 连续值处理
  • 缺失值处理

神经网络

  • M-P 模型
  • 感知机 vs. XOR vs. DNN/MLP
  • BP
    • 标准 BP vs. 累积 BP
    • 梯度下降 vs. SGD
    • 过拟合应对
    • 跳出局部极小
  • RBF 网络: 单隐层前馈
  • ART 网络: 胜者通吃竞争型
  • SOM 网络: 无监督竞争型
  • 级联相关网络: 学结构
  • Elman 网络: 递归 NN
  • Boltzmann 机: 能量最小化

SVM

  • SVM 基本型 vs. 对偶
  • KKT 条件
  • SMO
  • 核函数
    • 线性 vs. RBF vs. 多项式 vs. Laplace
  • 软间隔
  • 损失函数
  • SVR
  • 核方法

贝叶斯分类器

  • 后验概率, 条件风险, 贝叶斯风险
  • 贝叶斯最优分类器, MAP
  • 生成式 vs. 判别式 -> 得到后验概率
  • 频率派 vs. 贝叶斯派
  • NB(属性独立假设 & 属性离散 & 计数 & Laplace 平滑)
  • 半朴素贝叶斯
    • 独依赖估计(ODE)
    • SPODE vs. TAN vs. AODE
    • kDE
  • 贝叶斯网(信念网)
    • PGM, DAG
    • 条件独立性, 边际独立性
    • 三变量关系: 同父、V 型、顺序
    • 有向分离 & 道德图
    • 评分搜索(学习)
    • Gibbs 采样(推断)
  • EM & 坐标下降

集成

  • 同质集成 vs. 异质集成
  • Boosting
  • AdaBoost 与加性模型
  • Bagging
  • RF
    • bagging + 随机属性选择
    • 多样性来源: 样本扰动 & 属性扰动
  • 组合策略: 平均 vs. 投票 vs. 学习法
  • stacking(学习法的代表)
    • 初级学习器 vs. 次级学习器
  • 多样性度量(成对型)
    • 预测结果列联表
    • 不合度 vs. 相关系数 vs. Q 统计量 vs. k 统计量
  • 分歧误差分解
  • 多样性增强(4 种扰动)
    • 样本扰动: DT, NN 可行; LR, SVM, NB, kNN 对数据扰动不敏感
    • 输入属性扰动: 随机子空间算法
    • 输出表示扰动: 翻转法、输出调制法
    • 算法参数扰动: 隐层神经元数、初始连接权

聚类

  • 性能度量
    • 簇内相似度、簇间相似度
    • 外部指标、内部指标
    • DB 指数
  • dist(x, y): 非负、同一、对称、三角不等式
  • minkowski、欧式、曼哈顿
  • VDM(无序属性的距离)
  • minkowski + VDM 处理混合属性
  • 非度量距离
  • 原型聚类
    • kmeans
    • LVQ
    • GMM
  • 密度聚类
    • epsilon-邻域、核心对象
    • 密度直达、密度可达、密度相连
    • DBSCAN
  • 层次聚类(分拆 vs. 聚合)
    • AGNES
    • 集合间距离

降维 & 度量学习

  • kNN
    • 懒惰学习
    • 维数灾难: 样本稀疏 & 距离计算
  • MDS
  • 线性降维: PCA
  • 核线性降维: kPCA
  • 流形学习
    • 测地线
    • Isomap
    • LLE
  • 度量学习
    • 平方加权欧氏距离 -> 马氏距离

特征选择 & 稀疏学习

  • 相关特征、无关特征、冗余特征
  • 子集的搜索与评价
    • 子集搜索: 前向、后向
    • 子集评价: Gain(A)、熵
    • 决策树是前向 + 熵
  • 过滤式: Relief
  • 包裹式: LVW
  • 嵌入式: LASSO & PGD
  • 字典学习 -> 稀疏编码
    • 变量交替优化, kSVD
  • 压缩感知: k-RIP -> L0最小化
  • 矩阵补全: 核范数, SDP

PGM

  • 贝叶斯网(DAG) vs. 马尔科夫网(无向图)
  • HMM: 3 个基本问题
  • MRF: 势函数、最大团分解
  • CRF: p(y|x),链式 CRF
  • 学习与推断
    • P(X2 | X1) = P(X1, X2) / P(X1)
    • P(X1, X2) 由 PGM 得 -> 如何高效求 P(X1) = sum(P(X1, Xi))
    • 精确法(实质: DP + 条件独立性)
      • 变量消去法 vs. 信念传播法
    • 近似法
      • 采样近似
        • MCMC
        • Metropolis-hastings & gibbs
      • 确定性近似
        • 盘式记法
        • 变分推断 + EM
  • 话题模型
    • LDA: 词、文档(词袋)、话题
    • pLSA: 不采用贝叶斯学习








Share