统计思维(第二版)

  |  

摘要: 《统计思维》

【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:算法题刷刷
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


作者:Allen B. Downey
时间:2015.9

本书探索性数据分析的实用工具。章节安排是按照作者自己工作中处理数据集时遵循的步骤进行组织的。参考本书的内容,再结合自己的工作实践,可以逐渐形成自己的一套数据分析的方法论。作者的大致流程

  • 导入和清洗: 无论数据格式如何,通常都需要花费一些时间和精力进行数据的读取、清洗和变换,并进行检查。
  • 单变量探索: 通常情况下,首先逐个检查变量,弄清变量的意义,分析变量值的分布,选择合适的汇总统计量
  • 成对探索: 发现变量之间的关系,分析表格和散点图,计算相关性并进行线性拟合
  • 多变量分析: 如果变量之间存在明显关系,使用多元回归以增加控制变量,从而研究更复杂的关联关系
  • 估计和假设检验: 汇报统计结果时,有三个重要问题需要回答
  1. 规模效应如何
  2. 再次运行统一测量时,预期的变化性有多大
  3. 这个明显的效应是否可能是偶然产生的
  • 可视化: 如果一个明显的效应是统计显著的,可视化可以有效展示


Share