利用python进行数据分析-思维导图

  |  

摘要: 《利用 Python 进行数据分析》总览

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


作者

原作者是美国的数据科学家Wes McKinney,毕业于麻省理工学院,是pandas的创始人,在多家投资银行从事过数据科学类的工作。

译者是徐敬一,中国工商银行的数据分析师,他在工作中大量使用各类Python数据技术。

在线阅读: 利用 Python 进行数据分析·第2版


流程


Step1: Python读写数据

  • 文件读写
  • 数据库读写
  • 网络读写

Step2: 处理和计算数据

  • NumPy主要用于矢量化的科学计算
  • pandas主要用于表型数据处理

Step3: 分析建模

  • Statsmodels 允许用户浏览数据,估计统计模型和执行统计测试。可以为不同类型的数据和每个估算器提供广泛的描述性统计,统计测试,绘图函数和结果统计列表。
  • Scikit-leran 是机器学习库,可以迅速使用各类机器学习算法。

Step4: 可视化

  • matplotlib
  • seaborn
  • bokeh

章节总览

  • 准备工作
  • Python语言基础、Ipython和Jupyter Notebook
  • 内建数据结构、函数及文件
  • Numpy基础:数组与向量化计算
  • Pandas入门
  • 数据载入、存储及文件格式
  • 数据清洗与准备
  • 数据规整:连接、联合与重塑
  • 绘图与可视化
  • 数据聚合与分组操作
  • 时间序列
  • 高阶Pandas
  • Python建模库

思维导图


重要的库

  • Numpy
    • ndarray: 多维数组对象
    • 基于元素的数组计算
    • 读写硬盘中基于数组的数据集
    • 线性代数操作、傅里叶变换、随机数
    • C语言API
  • Pandas
    • Series: 一维标签数组
    • DataFrame: 表格化,面向列,用行列标签
    • 表格和SQL的方便操作数据与 Numpy 的高性能结合
  • scipy
    • 标准的连续和离散概率分布
    • 统计测试和描述性统计
    • 信号处理
    • 函数优化器、求根
    • 线性代数和矩阵分解
    • 数值积分和微分
    • 稀疏矩阵
  • sklearn
    • 分类
    • 回归
    • 聚类
    • 降维
    • 预处理
    • 模型选择
  • statsmodels
    • 统计模型结果和可视化
    • 非参数化方法:核密度估计、核回归
    • 时间序列分析:AR、ARMA、ARIMA、VAR
    • 方差分析: ANOVA
    • 回归模型:线性回归、线性混合效应模型、鲁棒线性模型

Share