Tag: Pandas

Pandas-API速查表

摘要: 本文记录 Pandas 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 书:微信读书《深入浅出Pandas》 与上面的书同作者的博文:Panda

Pandas可视化

摘要: 总结一下 Pandas 自带的可视化方法 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings Pandas 是数据分析工具,我们一般都会处理好处理数据然后使用 searbon 或

散点图与散点图矩阵

摘要: 本文是散点图与散点图矩阵的代码模板。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 散点图散点图一般用于描述两个数量型变量之间的相关关系。 有了 x 和 y 两个变量的数据

利用Python进行数据分析-时间序列2

在 利用Python进行数据分析-时间序列1 中,我们研究了日期和时间数据的类型,datetime与字符串的互相转换,时间序列的定义、索引、选择、子集,日期范围,频率,移位等话题。 本文中继续研究Pandas时间序列相关内容。主要包括时区处理,时间区间,重采样,频率变换,移动窗口函数。 4. 时区处理时区通常表示成 UTC 的偏置,例如在夏令时期间,纽约比 UTC 时间晚 4 个小时,其余时间晚

利用Python进行数据分析-时间序列1

时间序列可能有固定的时间单位,例如每 5 秒 1 次;也可能没有固定的时间单位。 如何标记和引用时间序列取决于应用场景,关于时间标记,我们可能会有以下中的一项 时间戳 固定的时间区间,例如 2007年1月,2020年 时间间隔,由开始时间戳和结束时间戳表示(固定的时间区间是时间间隔的特殊情况) 实验时间: 每个时间戳是相对于特定开始时间的时间的量度 1. 日期和时间数据的类型以及工具Pyth

利用Python进行数据分析-聚合与分组

摘要: 《利用Python进行数据分析》数据的聚合与分组的笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 对数据集分类形成若干组,并在每一组上应用一个聚合函数或转换函数。是数据分析 workfl

利用Python进行数据分析-连接、联合与重塑

数据可能分布在多个文件或数据库中,处理这种情况需要用到数据联合、连接以及重排列的相关工具。 分层索引分层索引:允许在一个轴向上拥有多个索引层级。提供了一种在低维中处理更高维度数据的方式。 123data = pd.Series(np.random.randn(9) ,index=[["a", "a", "a", "b", "b", "c", "c", "d", "d"

利用Python进行数据分析-数据清洗与准备

加载、清理、转换、重排 缺失值、重复值、字符串操作、数据转换 1. 缺失值数值型数据,Pandas 用浮点值 NaN(Not a Number) 表示缺失值,可以用 np.nan 得到。 Pandas 将缺失值称为 NA,这是采用了 R 原因的惯例,意思是 Not Avaliable。R 语言中,NA 是不存在的数据或存在但不可观察的数据(例如数据收集过程出问题)。 Python 內建 None

利用Python进行数据分析-Pandas的IO

数据载入、存储以及文件格式 输入输出类型:文本文件、硬盘上其它更高效的格式文件、数据库、网络资源。 1. 文本格式数据将表格型数据读取为 DataFrame 对象。解析函数如下 函数 描述 read_csv 从文件, URL或文件型对象读取分隔好的数据,逗号是默认分隔符 read_table 从文件, URL或文件型对象读取分隔好的数据,制表符(\t是默认分隔符) rea

利用Python进行数据分析-Pandas基础

Pandas: 处理表格型、异质型数据Numpy: 处理同质型数据 Pandas 数据结构(1) Series 对象Series 是一维数组对象,包含一个值序列和数据标签(称为索引 index) 默认索引是 0 ~ N-1 构造时可指定索引列表,不指定则使用默认索引。使用索引列表可以手动指定顺序。 12series = pd.Series([4, 7, -5, 3])series = pd

read_csv的mixed types问题

问题用 Pandas 读取人工上报的 csv 数据,并通过一些条件,做一些数据清洗、数据抽取的工作。 在 pd.read_csv 的时候,可能会出现关于 dtype 的警告: 1DtypeWarning: Columns (880,912,941,......) have mixed types. Specify dtype option on import or set low_memory&#

pandas操作集锦

摘要: 本文记录一下日常的项目中遇到的 pandas 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Pandas 中文手册 Pandas Cookbook gith