《精通特征工程》

  |  

摘要: 《精通特征工程》书籍信息

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


本书信息:《精通特征工程》
微信读书:《精通特征工程》
代码:https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

机器学习流程

  • 数据
  • 任务
  • 模型
  • 特征
  • 模型评价

简单而又奇妙的数值

  • 标量、向量和空间
  • 处理计数
    • 二值化
    • 区间量化(分箱)
  • 对数变换
    • 对数变换实战
    • 指数变换:对数变换的推广
  • 特征缩放/ 归一化
    • min-max 缩放
    • 特征标准化/ 方差缩放
    • L2 归一化
  • 交互特征
  • 特征选择

文本数据:扁平化、过滤和分块

  • 元素袋:将自然文本转换为扁平向量
    • 词袋
    • n 元词袋
  • 使用过滤获取清洁特征
    • 停用词
    • 基于频率的过滤
    • 词干提取
  • 意义的单位:从单词、n 元词到短语
    • 解析与分词
    • 通过搭配提取进行短语检测

特征缩放的效果:从词袋到tf-idf

  • tf-idf:词袋的一种简单扩展
  • tf-idf 方法测试
    • 创建分类数据集
    • 使用tf-idf 变换来缩放词袋
    • 使用逻辑回归进行分类
    • 使用正则化对逻辑回归进行调优

分类变量:自动化时代的数据计数

  • 分类变量的编码
    • one-hot 编码
    • 虚拟编码
    • 效果编码
    • 各种分类变量编码的优缺点
  • 处理大型分类变量
    • 特征散列化
    • 分箱计数

数据降维:使用PCA 挤压数据

  • 直观理解
  • 数学推导
    • 线性投影
    • 方差和经验方差
    • 主成分:第一种表示形式
    • 主成分:矩阵- 向量表示形式
    • 主成分的通用解
    • 特征转换
    • PCA 实现
  • PCA 实战
  • 白化与ZCA
  • PCA 的局限性与注意事项

非线性特征化与k-均值模型堆叠

  • k-均值聚类
  • 使用聚类进行曲面拼接
  • 用于分类问题的k-均值特征化
  • 优点、缺点以及陷阱

自动特征生成:图像特征提取和深度学习

  • 最简单的图像特征(以及它们因何失效)
  • 人工特征提取:SIFT 和HOG
    • 图像梯度
    • 梯度方向直方图
    • SIFT 体系
  • 通过深度神经网络学习图像特征
    • 全连接层
    • 卷积层
    • ReLU 变换
    • 响应归一化层
    • 池化层
    • AlexNet 的结构

回到特征:建立学术论文推荐器

  • 基于项目的协同过滤
  • 第一关:数据导入、清理和特征解析
  • 第二关:更多特征工程和更智能的模型
  • 第三关:更多特征= 更多信息

线性建模与线性代数基础

  • 线性分类概述
  • 矩阵的解析
    • 从向量到子空间
    • 奇异值分解(SVD)
    • 数据矩阵的四个基本子空间
  • 线性系统求解
  • 参考文献

Share