Category: 数据分析

Pandas-API速查表

摘要: 本文记录 Pandas 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 书:微信读书《深入浅出Pandas》 与上面的书同作者的博文:Panda

Numpy-API速查表

摘要: 本文记录 Numpy 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 文档: Numpy API Reference 本文的 pdf 版本:Nu

利用Python进行数据分析-时间序列2

在 利用Python进行数据分析-时间序列1 中,我们研究了日期和时间数据的类型,datetime与字符串的互相转换,时间序列的定义、索引、选择、子集,日期范围,频率,移位等话题。 本文中继续研究Pandas时间序列相关内容。主要包括时区处理,时间区间,重采样,频率变换,移动窗口函数。 4. 时区处理时区通常表示成 UTC 的偏置,例如在夏令时期间,纽约比 UTC 时间晚 4 个小时,其余时间晚

利用Python进行数据分析-时间序列1

时间序列可能有固定的时间单位,例如每 5 秒 1 次;也可能没有固定的时间单位。 如何标记和引用时间序列取决于应用场景,关于时间标记,我们可能会有以下中的一项 时间戳 固定的时间区间,例如 2007年1月,2020年 时间间隔,由开始时间戳和结束时间戳表示(固定的时间区间是时间间隔的特殊情况) 实验时间: 每个时间戳是相对于特定开始时间的时间的量度 1. 日期和时间数据的类型以及工具Pyth

利用Python进行数据分析-聚合与分组

摘要: 《利用Python进行数据分析》数据的聚合与分组的笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 对数据集分类形成若干组,并在每一组上应用一个聚合函数或转换函数。是数据分析 workfl

利用Python进行数据分析-连接、联合与重塑

数据可能分布在多个文件或数据库中,处理这种情况需要用到数据联合、连接以及重排列的相关工具。 分层索引分层索引:允许在一个轴向上拥有多个索引层级。提供了一种在低维中处理更高维度数据的方式。 123data = pd.Series(np.random.randn(9) ,index=[["a", "a", "a", "b", "b", "c", "c", "d", "d"

利用Python进行数据分析-数据清洗与准备

加载、清理、转换、重排 缺失值、重复值、字符串操作、数据转换 1. 缺失值数值型数据,Pandas 用浮点值 NaN(Not a Number) 表示缺失值,可以用 np.nan 得到。 Pandas 将缺失值称为 NA,这是采用了 R 原因的惯例,意思是 Not Avaliable。R 语言中,NA 是不存在的数据或存在但不可观察的数据(例如数据收集过程出问题)。 Python 內建 None

利用Python进行数据分析-Pandas的IO

数据载入、存储以及文件格式 输入输出类型:文本文件、硬盘上其它更高效的格式文件、数据库、网络资源。 1. 文本格式数据将表格型数据读取为 DataFrame 对象。解析函数如下 函数 描述 read_csv 从文件, URL或文件型对象读取分隔好的数据,逗号是默认分隔符 read_table 从文件, URL或文件型对象读取分隔好的数据,制表符(\t是默认分隔符) rea

利用Python进行数据分析-Pandas基础

Pandas: 处理表格型、异质型数据Numpy: 处理同质型数据 Pandas 数据结构(1) Series 对象Series 是一维数组对象,包含一个值序列和数据标签(称为索引 index) 默认索引是 0 ~ N-1 构造时可指定索引列表,不指定则使用默认索引。使用索引列表可以手动指定顺序。 12series = pd.Series([4, 7, -5, 3])series = pd

利用Python进行数据分析-高阶Numpy

ndarray 对象内幕 高阶数组操作 广播 高阶 ufunc 结构化和记录数组 排序 用 Numba 编写快速 Numpy 函数 高阶输入输出 性能技巧 ndarray 对象内幕Numpy 的 ndarray 提供一种方法将一组同构数据(连续的或跨步的)解释为多维数组对象。 dtype 决定数据如何被解释 每个数组对象都是一个数据块的分步视图。 ndarray 不仅仅是一块内存和一个 dt

利用Python进行数据分析-Numpy基础

Numpy 本身并不提供建模和科学函数。理解 Numpy 的数组以及基于数组的计算可以帮助我们更高效地使用基于数组的工具,例如 Pandas。 对于大多数的数据分析应用,主要关注的内容为 在数据处理,清洗,构造子集,过滤,变换以及其它计算中进行快速的向量化计算 常见的数组算法,例如 sort, unique, set 等 高效的描述性统计和聚合/概述数据 数据排列和相关数据操作,例如对异构数据进

read_csv的mixed types问题

问题用 Pandas 读取人工上报的 csv 数据,并通过一些条件,做一些数据清洗、数据抽取的工作。 在 pd.read_csv 的时候,可能会出现关于 dtype 的警告: 1DtypeWarning: Columns (880,912,941,......) have mixed types. Specify dtype option on import or set low_memory&#

Numpy操作集锦

摘要: 本文记录一下日常的项目中遇到的 numpy 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Numpy 中文手册 Numpy API Reference

利用python进行数据分析-思维导图

摘要: 《利用 Python 进行数据分析》总览 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 作者原作者是美国的数据科学家Wes McKinney,毕业于麻省理工学院,是pandas的创始人,在

数据清洗-格式,类型与编码

摘要: 数据清洗中挂怒格式、类型、编码的处理 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 文件格式,归档和压缩 数据类型 用于表示缺失数据的类型 字符编码 文件格式文本文件与二进制文件网上收

字符编码转换

Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8。因此在 Linux 下操作 Windows 生产的文件可能会遇到文件编码转换的问题。 在工程中也会出现文件的中文注释乱码的情况。这是因为该文件的编码格式与IDE当前设置的显示编码格式不一致引起的。 于是就需要对编码不一致的文件进行编码转换。 关于 Unicode国际通用标准:文字通过网络传输、或硬盘存储等不能

csv与json转换

MySQL -> CSVSQL 方案123456SELECT concat(firstName, " ", lastName) AS fullName, email_idINTO OUTFILE "employees.csv" FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' LINES TERMINATED BY '\n'FRO

pdf基本操作

摘要: pdf 常见操作,例如采集和处理 pdf 数据。主要工具是 PyPDF4、qpdf 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings PyPDF4PyPDF4 是一个纯 Python 的 PDF

Python处理csv数据

运营侧人工上报 Excel/csv 是 AI 系统的数据闭环中很重要的一个数据源。金融风控领域中,银行等机构对接人提供的数据,一般是行内科技部按照需求取数后存为 Excel/csv 后交付的。里面的字段,数据类型以及嵌套关系非常杂乱,需要首先做数据抽取工作,即按照需求抽取出所需的字段。 在 python 中处理 csv 数据主要有两种方案: pd.read_csv 和 csv.reader 1.

pandas操作集锦

摘要: 本文记录一下日常的项目中遇到的 pandas 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Pandas 中文手册 Pandas Cookbook gith