Tag: 数据清洗

read_csv的mixed types问题

问题用 Pandas 读取人工上报的 csv 数据,并通过一些条件,做一些数据清洗、数据抽取的工作。 在 pd.read_csv 的时候,可能会出现关于 dtype 的警告: 1DtypeWarning: Columns (880,912,941,......) have mixed types. Specify dtype option on import or set low_memory&#

格式化Json和XML

摘要: 本文介绍格式化 Json 和 XML 的实用工具 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 格式化 XML把 XML 文件格式化后显示在屏幕: 1xmllint --f

数据清洗-格式,类型与编码

摘要: 数据清洗中挂怒格式、类型、编码的处理 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 文件格式,归档和压缩 数据类型 用于表示缺失数据的类型 字符编码 文件格式文本文件与二进制文件网上收

字符编码转换

Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8。因此在 Linux 下操作 Windows 生产的文件可能会遇到文件编码转换的问题。 在工程中也会出现文件的中文注释乱码的情况。这是因为该文件的编码格式与IDE当前设置的显示编码格式不一致引起的。 于是就需要对编码不一致的文件进行编码转换。 关于 Unicode国际通用标准:文字通过网络传输、或硬盘存储等不能

csv与json转换

MySQL -> CSVSQL 方案123456SELECT concat(firstName, " ", lastName) AS fullName, email_idINTO OUTFILE "employees.csv" FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' LINES TERMINATED BY '\n'FRO

pdf基本操作

摘要: pdf 常见操作,例如采集和处理 pdf 数据。主要工具是 PyPDF4、qpdf 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings PyPDF4PyPDF4 是一个纯 Python 的 PDF

Python处理csv数据

运营侧人工上报 Excel/csv 是 AI 系统的数据闭环中很重要的一个数据源。金融风控领域中,银行等机构对接人提供的数据,一般是行内科技部按照需求取数后存为 Excel/csv 后交付的。里面的字段,数据类型以及嵌套关系非常杂乱,需要首先做数据抽取工作,即按照需求抽取出所需的字段。 在 python 中处理 csv 数据主要有两种方案: pd.read_csv 和 csv.reader 1.

pandas操作集锦

摘要: 本文记录一下日常的项目中遇到的 pandas 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: Pandas 中文手册 Pandas Cookbook gith