Category: AI业务

动态网页入门

摘要: 爬虫获取异步加载网页的方法,ajax请求、Selenium、ChromeDriver 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 动态网页是相对于静态网页而言的,有时网站

爬虫的基础知识

摘要: 爬虫开发的基础知识 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 爬虫基础很多时候我们都想要在网上获取数据,进行后续的分析,或者作为训练数据训练模型。获取数据的关键技术就是

关联图-研究多变量间的关系

摘要: 研究多变量之间关系的可视化图表 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本文我们来看一下研究多变量之间关系时,有哪些可视化图表可以选择。 散点图 plt.scatte

Pandas-API速查表

摘要: 本文记录 Pandas 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 书:微信读书《深入浅出Pandas》 与上面的书同作者的博文:Panda

Pandas可视化

摘要: 总结一下 Pandas 自带的可视化方法 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings Pandas 是数据分析工具,我们一般都会处理好处理数据然后使用 searbon 或

在Mac上使用VSCode开发Unity3D

摘要: 本文记录在 Mac 上配置 Unity3D 开发环境的过程。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings $1 安装 Unity3D下载页面:https://unity.

ffmpeg-python的基本用法

摘要: 本文介绍了 ffmpeg-python 的基本用法以及常见操作 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings ffmpeg-python 的背景资料在文章 ffmpeg操作集锦 中,我们有总

【天池】练习赛-贷款违约预测-特征工程

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 数据分析部分在文章 【天池】练习赛-贷款违约预测-数据分析 中,本文是特征工程部分。 当有了宽表之后,在模型离线开发中,特征工程阶段输入原始数据,输出入模数据。 过程中要注意哪些中间数据需要保存(注意 df_test 的处理),提供给模型上线后线上特征工程中使用。 特征工程 数据预处理 缺失值的填充

【天池】练习赛-贷款违约预测-数据分析

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 任务解析赛题以预测用户贷款是否违约为任务,数据集如下: sample_submit.csv(2MB) testA.csv(41MB) train.csv(166MB) 下载链接如下 12链接: https://pan.baidu.com/

imageio操作集锦

摘要: 本文介绍 imageio 中常见的操作和小功能,持续更新 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 改变 gif 的速度12345678import imageioorigin = ".

异常检测最经典的资料

摘要: 本文介绍异常检测方面的一份经典书 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 更多的异常检测的资料可以参考这个 github 仓库。 本文介绍一下做异常检测必读的经典书,

智能风控近期书单

摘要: 2022年1月份左右智能风控书单 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 1. 智能风控与反欺诈:体系、算法与实践 作者: 蔡主希 时间: 2021 互联网金融与

Plotly可视化绘图

摘要: 一本 Plotly 可视化绘图的书 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 微信读书: Python数据分析: 基于Plotly的动态可视化绘图 基础 Plot

Python数据可视化-各种图表类型总览

摘要: 数据可视化常见图表,基于 Matplotlib、Seaborn、plotnine 三开个库 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 数据可视化基础 Matplo

Matplotlib-Cookbook

摘要: 《Python数据可视化编程实战》 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书是一些基础,常用的Matplotlib知识,留着备查。 豆瓣链接: Python数据可

Matplotlib精进

摘要: 一本高级 Matplotlib 的书 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书是一些更高级,也就是更不常用的Matplotlib知识:比如绘制几何图形、更细节的文

因子投资

摘要: 《因子投资》这本书。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书是关于因子投资的,内容非常全面。比较偏理论,有A股的实证研究,值得学习。本书没有代码,不过由于书里都

供应链算法与业务

摘要: 供应链算法和业务思维导图,2021.12 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings

散点图与散点图矩阵

摘要: 本文是散点图与散点图矩阵的代码模板。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 散点图散点图一般用于描述两个数量型变量之间的相关关系。 有了 x 和 y 两个变量的数据

Numpy-API速查表

摘要: 本文记录 Numpy 的 API,使用时关键词搜索即可 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: 文档: Numpy API Reference 本文的 pdf 版本:Nu

相关系数矩阵热力图

摘要: 相关系数矩阵热力图的代码模板 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本文是相关系数热力图的代码模板。 pearson 相关系数衡量的是线性相关关系。若 r = 0,

评分模型上线前策略分析与策略测算

在 信用评分开发报告-模型迭代-通用写法 中,我们知道评分模型开发的通用流程,但是模型上线后,还需要把分数转换为策略。这就需要做策略分析和策略测算。 策略分析之前需要先把各个分数段的的样本量占比,坏样本率统计出来 假设抽样样本还原权重之后,整体的坏样本率为 r,各个分数段的样本量占比,坏样本率已有。 假设我们的策略是以某分段内坏样本率为整体坏样本率的 2 倍为分界,大于 2 倍的分段作拒绝决策。

信用评分开发报告-模型迭代-通用写法

$1 开发背景与目标上一版模型的上线细节 上线时间 应用于哪个渠道 应用于哪种评分 上一版模型的建模细节 建模样本来自哪个渠道 入模样本申请时间范围 入模样本贷后数据的时间点 逾期定义 入模变量来源 上一版模型的监控细节 监控反馈是针对哪一时间范围的 稳定性 区分度 本次迭代目标 $2 样本情况说明$2-1 数据准备本次建模样本 时间范围 进件渠道 数据条数(作为总体) 贷后数据

用matplotlib的Animation画动图

摘要: 用 matplotlib 的 Animation 画动画的方法和例子 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 我们在使用 matplotlib 时,常用的是 pypl

matplotlib操作集锦

摘要: 本文记录一下日常的项目中遇到的 matplotlib 的问题以及解决方案 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: tutorials gallery 图例放到图外面下

AI量化交易入门资料

摘要: 介绍一些AI量化交易入门资料,不全,仅供参考 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings BigQuant-知识库JoinQuant-Study 量化特征工程,策略构

征信规则的衍生-1

在文章 二代征信解读 中,我们学习了顶象对二代征信的解读。二代征信数据的一个重要用处就是进行变量衍生。 以下为账户类和查询类的变量衍生思路

lendingclub

写在前面这是网易云课堂的一个付费课,作者好像在知乎见过: python风控建模。 此前并不知道这个课,但是对 lendingclub 是知道的,它是一个国外的 P2P 公司,开放过很多数据举办风控建模竞赛。由于风控行业的保密特性,开放这么多数据还是很难得的,所以基本上做金融风控建模的人都会想搞到这份数据玩一玩。 我看这个课的缘由主要是我领导,他的账号里之前购买了这个课。然后工作的关系我可以用他的号

互联网金融场景下的信用风险模型经验

定义好坏用户 好 坏 不确定 剔除: 模型不需要预测的用户, 例如命中欺诈策略的用户 定义好坏时考虑两个方面:表现窗口(观察用户多长时间的账单),逾期天数 (表现期内的)逾期阶段:1234M0 无逾期M1 1~29...M7+ >180 滚动率: 表现期内处于某一逾期阶段的人在未来一段时间内处于各个逾期阶段的概率 准备数据可靠性:尽可能用上游数据相关性:优先使用预测环节最相关,价值最贵的数

利用Python进行数据分析-时间序列2

在 利用Python进行数据分析-时间序列1 中,我们研究了日期和时间数据的类型,datetime与字符串的互相转换,时间序列的定义、索引、选择、子集,日期范围,频率,移位等话题。 本文中继续研究Pandas时间序列相关内容。主要包括时区处理,时间区间,重采样,频率变换,移动窗口函数。 4. 时区处理时区通常表示成 UTC 的偏置,例如在夏令时期间,纽约比 UTC 时间晚 4 个小时,其余时间晚

利用Python进行数据分析-时间序列1

时间序列可能有固定的时间单位,例如每 5 秒 1 次;也可能没有固定的时间单位。 如何标记和引用时间序列取决于应用场景,关于时间标记,我们可能会有以下中的一项 时间戳 固定的时间区间,例如 2007年1月,2020年 时间间隔,由开始时间戳和结束时间戳表示(固定的时间区间是时间间隔的特殊情况) 实验时间: 每个时间戳是相对于特定开始时间的时间的量度 1. 日期和时间数据的类型以及工具Pyth

评分卡建模2-统计评分卡

本书信息 智能风控:Python金融风险管理与评分卡建模作者: 梅子行时间: 2020 传统的风险建模是基于广义线性模型建立的,其理论主要围绕统计学展开,使用的工具包括SAS、R、Python等。本书中的实践内容使用Python编写,主要围绕基于广义线性模型建立的评分卡(Score Card)模型展开。部分涉及机器学习。 统计评分卡起源于 20 世纪的银行与信用卡中心。 一开始用户的信用等级由

评分卡建模1--信用管理基础

本书信息 智能风控:Python金融风险管理与评分卡建模作者: 梅子行时间: 2020 传统的风险建模是基于广义线性模型建立的,其理论主要围绕统计学展开,使用的工具包括SAS、R、Python等。本书中的实践内容使用Python编写,主要围绕基于广义线性模型建立的评分卡(Score Card)模型展开。部分涉及机器学习。 风控术语信贷基础指标 年度百分率(Annual Percentage R

Pillow操作集锦

摘要: 本文记录实践中用到的 Pillow 中的操作和功能,持续更新 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考文档Pillow 文档Pillow 代码 透明背景文字图片

Mining-of-Massive-Datasets

摘要: 本文介绍一本书《斯坦福数据挖掘教程》 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书资料 主页: Mining of Massive Datasets Stanford

欺诈检测论文集合

摘要: 分享一个欺诈检测论文集合的仓库,有时间可以看一看 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 仓库地址 Awesome-Fraud-Detection-Research-

金融反欺诈综述论文

摘要: 几篇金融反欺诈的综述论文 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 数据挖掘 West J, Bhattacharya M. 2016. Intelligent fin

LR评分卡--开发流程

LR 模型开发参考流程 导入数据 数据洞察 数据预处理 重复值 缺失值 缺失值比例 $\leq 2%$ : 删数据/用均值填 缺失值比例 $\gt 20%$: 算法填充 异常值 业务理解: 年龄为 0/ 收入为负数等 箱线图 $3\sigma$ 法则 删除或与业务方联系 量纲, 数据分布 统一量纲,标准化后,数据的范围、大小会改变 为例业务方便,尽量保持数据原貌 先尝试不做统一量纲 样

利用Python进行数据分析-聚合与分组

摘要: 《利用Python进行数据分析》数据的聚合与分组的笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 对数据集分类形成若干组,并在每一组上应用一个聚合函数或转换函数。是数据分析 workfl

利用Python进行数据分析-可视化

摘要: 《利用Python进行数据分析》可视化部分笔记 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 帮助识别异常值,为建模提供想法 国建网络交互式可视化可能是最终目标 Python 有很多第三方

利用Python进行数据分析-连接、联合与重塑

数据可能分布在多个文件或数据库中,处理这种情况需要用到数据联合、连接以及重排列的相关工具。 分层索引分层索引:允许在一个轴向上拥有多个索引层级。提供了一种在低维中处理更高维度数据的方式。 123data = pd.Series(np.random.randn(9) ,index=[["a", "a", "a", "b", "b", "c", "c", "d", "d"

利用Python进行数据分析-数据清洗与准备

加载、清理、转换、重排 缺失值、重复值、字符串操作、数据转换 1. 缺失值数值型数据,Pandas 用浮点值 NaN(Not a Number) 表示缺失值,可以用 np.nan 得到。 Pandas 将缺失值称为 NA,这是采用了 R 原因的惯例,意思是 Not Avaliable。R 语言中,NA 是不存在的数据或存在但不可观察的数据(例如数据收集过程出问题)。 Python 內建 None

利用Python进行数据分析-Pandas的IO

数据载入、存储以及文件格式 输入输出类型:文本文件、硬盘上其它更高效的格式文件、数据库、网络资源。 1. 文本格式数据将表格型数据读取为 DataFrame 对象。解析函数如下 函数 描述 read_csv 从文件, URL或文件型对象读取分隔好的数据,逗号是默认分隔符 read_table 从文件, URL或文件型对象读取分隔好的数据,制表符(\t是默认分隔符) rea

KNN填充缺失值

填充缺失值最方便的做法就是填充统计量,比如均值,众数,中位数。 KNN填充缺失值也是一个可以考虑的方案,先利用KNN计算临近的k个数据,然后填充他们的均值。在实践中可以用 fancyimpute 包(fancyimpute还提供了其他填充方法) 12345from fancyimpute import KNNx_missing_knn = np.array(x_missing.copy()) #

利用Python进行数据分析-Pandas基础

Pandas: 处理表格型、异质型数据Numpy: 处理同质型数据 Pandas 数据结构(1) Series 对象Series 是一维数组对象,包含一个值序列和数据标签(称为索引 index) 默认索引是 0 ~ N-1 构造时可指定索引列表,不指定则使用默认索引。使用索引列表可以手动指定顺序。 12series = pd.Series([4, 7, -5, 3])series = pd

风控画像

用户画像的价值客户在哪里 精准定位客户 洞察客户需求 客户长什么样 立体刻画客户特征 深度挖掘客户行为 客户如何运营 客群分层 千人千面 用户画像的定义围绕业务目标,利用数据技术挖掘的一系列表征用户基本属性、行为特点、观点倾向的标签。 画像不仅仅是标签,是业务的数据化理解。 风控画像关注用户风险: 强监管准确性要求高: 误判损失高可解释性要求高: 对强变量天然偏好 风控画像的核心目的:

随机森林填充缺失值

回归就是从特征矩阵 $\boldsymbol{X}$ 学习,求解连续性标签 $\boldsymbol{y}$ 回归算法认为特征矩阵和标签之间存在联系,可以从特征预测标签,反过来,也可以从标签预测特征 对于 N 个特征的数据,特征 T 有缺失值,就把 T 当做标签与其他的 N - 1 个特征和原本的标签组成新的特征矩阵 对于 T 来说 没有缺失的部分就是 YTest,这部分既有特征又有标签

ffmpeg操作集锦

摘要: 本文介绍 ffmpeg 中常见的操作和小功能,持续更新 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: ffmpeg filter 文档 ffmpeg 翻译文档 $0 疑难