Tag: 工作脚本

【天池】练习赛-贷款违约预测-特征工程

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 数据分析部分在文章 【天池】练习赛-贷款违约预测-数据分析 中,本文是特征工程部分。 当有了宽表之后,在模型离线开发中,特征工程阶段输入原始数据,输出入模数据。 过程中要注意哪些中间数据需要保存(注意 df_test 的处理),提供给模型上线后线上特征工程中使用。 特征工程 数据预处理 缺失值的填充

【天池】练习赛-贷款违约预测-数据分析

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 任务解析赛题以预测用户贷款是否违约为任务,数据集如下: sample_submit.csv(2MB) testA.csv(41MB) train.csv(166MB) 下载链接如下 12链接: https://pan.baidu.com/

机器学习离线任务中的配置管理

摘要: 机器学习离线任务中常见的配置管理 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 机器学习离线系统中常用的工具代码 中,我们总结了机器学习离线系统中的常见工具代码。

机器学习离线系统中常用的工具代码

摘要: 机器学习离线 Pipeline 中的常用工具 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在互联网产品中,一个完整的机器学习的业务闭环中,一般涉及两个系统,一个在线系统,

信用评分开发报告-模型迭代-通用写法

$1 开发背景与目标上一版模型的上线细节 上线时间 应用于哪个渠道 应用于哪种评分 上一版模型的建模细节 建模样本来自哪个渠道 入模样本申请时间范围 入模样本贷后数据的时间点 逾期定义 入模变量来源 上一版模型的监控细节 监控反馈是针对哪一时间范围的 稳定性 区分度 本次迭代目标 $2 样本情况说明$2-1 数据准备本次建模样本 时间范围 进件渠道 数据条数(作为总体) 贷后数据