Tag: 数据分析

Pandas-API速查表

摘要: 本文记录 Pandas 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 书:微信读书《深入浅出Pandas》 与上面的书同作者的博文:Panda

【天池】练习赛-贷款违约预测-数据分析

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 任务解析赛题以预测用户贷款是否违约为任务,数据集如下: sample_submit.csv(2MB) testA.csv(41MB) train.csv(166MB) 下载链接如下 12链接: https://pan.baidu.com/

参数估计与假设检验基础

摘要: 参数估计与假设检验基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 用假设检验解决决策问题收集数据 -> 数据分析 -> 建立一个统计模型 -> 验证模型的拟合

概率论最基础的内容

摘要: 概率率最基础的内容,常见的分布 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 现实世界的不确定性是普遍存在的,要描述不确定现象的规律,需要用到概率论所提供的理论和方法。 当不能获得总

皮尔逊相关系数

摘要: 皮尔逊相关系数 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 皮尔逊相关系数是一种反映两个变量之间线性相关程度强弱的统计量,绝对值越大,相关性越强。 关于两个变量间相关性的度量的评价

Numpy-API速查表

摘要: 本文记录 Numpy 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 文档: Numpy API Reference 本文的 pdf 版本:Nu

两列数据的相关性和独立性的度量

摘要: 两列数据的相关性和独立性 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings $1 关联度量给定两个随机变量 X, Y,如何判断这两个随机变量是否相互独立。 首先我们看一下 X 与 Y 的

分层抽样

摘要: 分层抽样 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 分层抽样的概念抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为

数据分布特征的统计描述

摘要: 数据分布特征的统计描述 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本文简要梳理一下数据分布特征的统计描述,以及相应的 Python 代码。 主要涉及以下内容 集中趋势 众数

利用Python进行数据分析-时间序列2

在 利用Python进行数据分析-时间序列1 中,我们研究了日期和时间数据的类型,datetime与字符串的互相转换,时间序列的定义、索引、选择、子集,日期范围,频率,移位等话题。 本文中继续研究Pandas时间序列相关内容。主要包括时区处理,时间区间,重采样,频率变换,移动窗口函数。 4. 时区处理时区通常表示成 UTC 的偏置,例如在夏令时期间,纽约比 UTC 时间晚 4 个小时,其余时间晚

利用Python进行数据分析-时间序列1

时间序列可能有固定的时间单位,例如每 5 秒 1 次;也可能没有固定的时间单位。 如何标记和引用时间序列取决于应用场景,关于时间标记,我们可能会有以下中的一项 时间戳 固定的时间区间,例如 2007年1月,2020年 时间间隔,由开始时间戳和结束时间戳表示(固定的时间区间是时间间隔的特殊情况) 实验时间: 每个时间戳是相对于特定开始时间的时间的量度 1. 日期和时间数据的类型以及工具Pyth

利用Python进行数据分析-聚合与分组

摘要: 《利用Python进行数据分析》数据的聚合与分组的笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 对数据集分类形成若干组,并在每一组上应用一个聚合函数或转换函数。是数据分析 workfl

利用Python进行数据分析-可视化

摘要: 《利用Python进行数据分析》可视化部分笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 帮助识别异常值,为建模提供想法 国建网络交互式可视化可能是最终目标 Python 有很多第三方

利用Python进行数据分析-连接、联合与重塑

数据可能分布在多个文件或数据库中,处理这种情况需要用到数据联合、连接以及重排列的相关工具。 分层索引分层索引:允许在一个轴向上拥有多个索引层级。提供了一种在低维中处理更高维度数据的方式。 123data = pd.Series(np.random.randn(9) ,index=[["a", "a", "a", "b", "b", "c", "c", "d", "d"

利用Python进行数据分析-数据清洗与准备

加载、清理、转换、重排 缺失值、重复值、字符串操作、数据转换 1. 缺失值数值型数据,Pandas 用浮点值 NaN(Not a Number) 表示缺失值,可以用 np.nan 得到。 Pandas 将缺失值称为 NA,这是采用了 R 原因的惯例,意思是 Not Avaliable。R 语言中,NA 是不存在的数据或存在但不可观察的数据(例如数据收集过程出问题)。 Python 內建 None

利用Python进行数据分析-Pandas的IO

数据载入、存储以及文件格式 输入输出类型:文本文件、硬盘上其它更高效的格式文件、数据库、网络资源。 1. 文本格式数据将表格型数据读取为 DataFrame 对象。解析函数如下 函数 描述 read_csv 从文件, URL或文件型对象读取分隔好的数据,逗号是默认分隔符 read_table 从文件, URL或文件型对象读取分隔好的数据,制表符(\t是默认分隔符) rea

利用Python进行数据分析-Pandas基础

Pandas: 处理表格型、异质型数据Numpy: 处理同质型数据 Pandas 数据结构(1) Series 对象Series 是一维数组对象,包含一个值序列和数据标签(称为索引 index) 默认索引是 0 ~ N-1 构造时可指定索引列表,不指定则使用默认索引。使用索引列表可以手动指定顺序。 12series = pd.Series([4, 7, -5, 3])series = pd

利用Python进行数据分析-高阶Numpy

ndarray 对象内幕 高阶数组操作 广播 高阶 ufunc 结构化和记录数组 排序 用 Numba 编写快速 Numpy 函数 高阶输入输出 性能技巧 ndarray 对象内幕Numpy 的 ndarray 提供一种方法将一组同构数据(连续的或跨步的)解释为多维数组对象。 dtype 决定数据如何被解释 每个数组对象都是一个数据块的分步视图。 ndarray 不仅仅是一块内存和一个 dt

利用Python进行数据分析-Numpy基础

Numpy 本身并不提供建模和科学函数。理解 Numpy 的数组以及基于数组的计算可以帮助我们更高效地使用基于数组的工具,例如 Pandas。 对于大多数的数据分析应用,主要关注的内容为 在数据处理,清洗,构造子集,过滤,变换以及其它计算中进行快速的向量化计算 常见的数组算法,例如 sort, unique, set 等 高效的描述性统计和聚合/概述数据 数据排列和相关数据操作,例如对异构数据进

read_csv的mixed types问题

问题用 Pandas 读取人工上报的 csv 数据,并通过一些条件,做一些数据清洗、数据抽取的工作。 在 pd.read_csv 的时候,可能会出现关于 dtype 的警告: 1DtypeWarning: Columns (880,912,941,......) have mixed types. Specify dtype option on import or set low_memory&#

Numpy操作集锦

摘要: 本文记录一下日常的项目中遇到的 numpy 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Numpy 中文手册 Numpy API Reference

利用python进行数据分析-思维导图

摘要: 《利用 Python 进行数据分析》总览 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 作者原作者是美国的数据科学家Wes McKinney,毕业于麻省理工学院,是pandas的创始人,在

pdf基本操作

摘要: pdf 常见操作,例如采集和处理 pdf 数据。主要工具是 PyPDF4、qpdf 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings PyPDF4PyPDF4 是一个纯 Python 的 PDF

Python处理csv数据

运营侧人工上报 Excel/csv 是 AI 系统的数据闭环中很重要的一个数据源。金融风控领域中,银行等机构对接人提供的数据,一般是行内科技部按照需求取数后存为 Excel/csv 后交付的。里面的字段,数据类型以及嵌套关系非常杂乱,需要首先做数据抽取工作,即按照需求抽取出所需的字段。 在 python 中处理 csv 数据主要有两种方案: pd.read_csv 和 csv.reader 1.

pandas操作集锦

摘要: 本文记录一下日常的项目中遇到的 pandas 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Pandas 中文手册 Pandas Cookbook gith

sklearn-特征工程-特征选择

特征工程是机器学习pipeline中的重要环节,一般位于预处理和模型之间,有降低计算成本和提升模型上限的作用。特征选择是特征工程的关注点之一,这一步要做的是当前业务的pipeline中应该留下哪些特征,未被选中的特征直接弃掉。如果有 n 个特征,特征选择的目的就是从中选出 k 个特征(k<n),这种操作可以提升 pipeline 整体的性能,因为这一步如果做的好,可以去掉很多噪声。 特征选择

sklearn-数据预处理

在机器学习 pipeline 中,数据源是多种多样的,例如业务方在数据库中存储的各种数据,人工上报的 Excel/csv。为了提高业务性能,还需要额外地向不同部门申请其它的数据。在论证可用性和把控数据源质量的前提下,收集的数据一定是对模型训练有帮助的。但是因为数据格式问题,缺失问题,量纲问题等等,不能直接训练,需要先做一些预处理。在预处理后的数据上可以继续做特征工程方面的工作,最终使得数据适应模型