Category: 智能风控

【天池】练习赛-贷款违约预测-特征工程

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 数据分析部分在文章 【天池】练习赛-贷款违约预测-数据分析 中,本文是特征工程部分。 当有了宽表之后,在模型离线开发中,特征工程阶段输入原始数据,输出入模数据。 过程中要注意哪些中间数据需要保存(注意 df_test 的处理),提供给模型上线后线上特征工程中使用。 特征工程 数据预处理 缺失值的填充

【天池】练习赛-贷款违约预测-数据分析

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 任务解析赛题以预测用户贷款是否违约为任务,数据集如下: sample_submit.csv(2MB) testA.csv(41MB) train.csv(166MB) 下载链接如下 12链接: https://pan.baidu.com/

评分模型上线前策略分析与策略测算

在 信用评分开发报告-模型迭代-通用写法 中,我们知道评分模型开发的通用流程,但是模型上线后,还需要把分数转换为策略。这就需要做策略分析和策略测算。 策略分析之前需要先把各个分数段的的样本量占比,坏样本率统计出来 假设抽样样本还原权重之后,整体的坏样本率为 r,各个分数段的样本量占比,坏样本率已有。 假设我们的策略是以某分段内坏样本率为整体坏样本率的 2 倍为分界,大于 2 倍的分段作拒绝决策。

信用评分开发报告-模型迭代-通用写法

$1 开发背景与目标上一版模型的上线细节 上线时间 应用于哪个渠道 应用于哪种评分 上一版模型的建模细节 建模样本来自哪个渠道 入模样本申请时间范围 入模样本贷后数据的时间点 逾期定义 入模变量来源 上一版模型的监控细节 监控反馈是针对哪一时间范围的 稳定性 区分度 本次迭代目标 $2 样本情况说明$2-1 数据准备本次建模样本 时间范围 进件渠道 数据条数(作为总体) 贷后数据

征信规则的衍生-1

在文章 二代征信解读 中,我们学习了顶象对二代征信的解读。二代征信数据的一个重要用处就是进行变量衍生。 以下为账户类和查询类的变量衍生思路

lendingclub

写在前面这是网易云课堂的一个付费课,作者好像在知乎见过: python风控建模。 此前并不知道这个课,但是对 lendingclub 是知道的,它是一个国外的 P2P 公司,开放过很多数据举办风控建模竞赛。由于风控行业的保密特性,开放这么多数据还是很难得的,所以基本上做金融风控建模的人都会想搞到这份数据玩一玩。 我看这个课的缘由主要是我领导,他的账号里之前购买了这个课。然后工作的关系我可以用他的号

互联网金融场景下的信用风险模型经验

定义好坏用户 好 坏 不确定 剔除: 模型不需要预测的用户, 例如命中欺诈策略的用户 定义好坏时考虑两个方面:表现窗口(观察用户多长时间的账单),逾期天数 (表现期内的)逾期阶段:1234M0 无逾期M1 1~29...M7+ >180 滚动率: 表现期内处于某一逾期阶段的人在未来一段时间内处于各个逾期阶段的概率 准备数据可靠性:尽可能用上游数据相关性:优先使用预测环节最相关,价值最贵的数

评分卡建模2-统计评分卡

本书信息 智能风控:Python金融风险管理与评分卡建模作者: 梅子行时间: 2020 传统的风险建模是基于广义线性模型建立的,其理论主要围绕统计学展开,使用的工具包括SAS、R、Python等。本书中的实践内容使用Python编写,主要围绕基于广义线性模型建立的评分卡(Score Card)模型展开。部分涉及机器学习。 统计评分卡起源于 20 世纪的银行与信用卡中心。 一开始用户的信用等级由

评分卡建模1--信用管理基础

本书信息 智能风控:Python金融风险管理与评分卡建模作者: 梅子行时间: 2020 传统的风险建模是基于广义线性模型建立的,其理论主要围绕统计学展开,使用的工具包括SAS、R、Python等。本书中的实践内容使用Python编写,主要围绕基于广义线性模型建立的评分卡(Score Card)模型展开。部分涉及机器学习。 风控术语信贷基础指标 年度百分率(Annual Percentage R

LR评分卡--开发流程

LR 模型开发参考流程 导入数据 数据洞察 数据预处理 重复值 缺失值 缺失值比例 $\leq 2%$ : 删数据/用均值填 缺失值比例 $\gt 20%$: 算法填充 异常值 业务理解: 年龄为 0/ 收入为负数等 箱线图 $3\sigma$ 法则 删除或与业务方联系 量纲, 数据分布 统一量纲,标准化后,数据的范围、大小会改变 为例业务方便,尽量保持数据原貌 先尝试不做统一量纲 样

风控画像

用户画像的价值客户在哪里 精准定位客户 洞察客户需求 客户长什么样 立体刻画客户特征 深度挖掘客户行为 客户如何运营 客群分层 千人千面 用户画像的定义围绕业务目标,利用数据技术挖掘的一系列表征用户基本属性、行为特点、观点倾向的标签。 画像不仅仅是标签,是业务的数据化理解。 风控画像关注用户风险: 强监管准确性要求高: 误判损失高可解释性要求高: 对强变量天然偏好 风控画像的核心目的:

中国的个人消费信用评分

传统个人征信数据源比较单一,但都是与目标非常相关的核心数据,比如信贷,保险,税收等。常见维度: 1) 个人基本数据,如年龄、性别、职业、收入、婚姻状况、工作年限、 工作状况等; 2)信贷情况,主要是信贷和信用卡相关数据; 3)公共数据,包括税务、工商、法院、电信、水电煤气等部门的数据; 4)个人信用报告查询记录。 互联网公司掌握更多的个人数据,但是单独看每个数据字段与个人信用的关联都很弱,如何用这

数据化风控-信用评分建模教程1

豆瓣链接:https://book.douban.com/subject/30282558/ 最近的工作交流中,一位大佬(翼支付风控部总监)推荐了这本书。 本书主要是关于传统评分卡的内容,一般银行的风控部门出来的人熟悉的都是这一套。不过风控算法工程师关心的基于大数据和AI计数的信用评分以及反欺诈的内容本手并没有涉及。 很多金融科技公司会从银行风控部挖一些工作多年的金融风控行业专家,如果通过本书可以