Tag: 数据分析

数据直觉:至少一条数据偏离均值至少一倍标准差

摘要: 对任意数据集,至少有一条数据偏离均值至少一倍标准差 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在上一篇文章 数据直觉:任意数据集都很难有偏离均值多倍标准差的数据 中,我们简要介绍了数据集

数据直觉:任意数据集都很难有偏离均值多倍标准差的数据

摘要: 对任意数据集,很难有偏离均值多倍标准差的数据 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 新拿到一份业务数据,在分析这份数据的时候,我们往往从均值和标准差入手。本文我们推导均值和标准差的两

Pandas-API速查表

摘要: 本文记录 Pandas 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 书:微信读书《深入浅出Pandas》 与上面的书同作者的博文:Panda

参数估计与假设检验基础

摘要: 参数估计与假设检验基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 用假设检验解决决策问题收集数据 -> 数据分析 -> 建立一个统计模型 -> 验证模型的拟合

概率论最基础的内容

摘要: 概率率最基础的内容,常见的分布 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 现实世界的不确定性是普遍存在的,要描述不确定现象的规律,需要用到概率论所提供的理论和方法。 当不能获得总

皮尔逊相关系数

摘要: 皮尔逊相关系数 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 皮尔逊相关系数是一种反映两个变量之间线性相关程度强弱的统计量,绝对值越大,相关性越强。 关于两个变量间相关性的度量的评价

Numpy-API速查表

摘要: 本文记录 Numpy 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 文档: Numpy API Reference 本文的 pdf 版本:Nu

两列数据的相关性和独立性的度量

摘要: 两列数据的相关性和独立性 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings $1 关联度量给定两个随机变量 X, Y,如何判断这两个随机变量是否相互独立。 首先我们看一下 X 与 Y 的

分层抽样

摘要: 分层抽样 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 分层抽样的概念抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为

数据分布特征的统计描述

摘要: 数据分布特征的统计描述 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本文简要梳理一下数据分布特征的统计描述,以及相应的 Python 代码。 主要涉及以下内容 集中趋势 众数

利用Python进行数据分析-聚合与分组

摘要: 《利用Python进行数据分析》数据的聚合与分组的笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 对数据集分类形成若干组,并在每一组上应用一个聚合函数或转换函数。是数据分析 workfl

利用Python进行数据分析-可视化

摘要: 《利用Python进行数据分析》可视化部分笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 帮助识别异常值,为建模提供想法 国建网络交互式可视化可能是最终目标 Python 有很多第三方

Numpy操作集锦

摘要: 本文记录一下日常的项目中遇到的 numpy 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Numpy 中文手册 Numpy API Reference

pdf基本操作

摘要: pdf 常见操作,例如采集和处理 pdf 数据。主要工具是 PyPDF4、qpdf 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings PyPDF4PyPDF4 是一个纯 Python 的 PDF

pandas操作集锦

摘要: 本文记录一下日常的项目中遇到的 pandas 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Pandas 中文手册 Pandas Cookbook gith