Tag: 特征工程

【天池】练习赛-贷款违约预测-特征工程

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 数据分析部分在文章 【天池】练习赛-贷款违约预测-数据分析 中,本文是特征工程部分。 当有了宽表之后,在模型离线开发中,特征工程阶段输入原始数据,输出入模数据。 过程中要注意哪些中间数据需要保存(注意 df_test 的处理),提供给模型上线后线上特征工程中使用。 特征工程 数据预处理 缺失值的填充

征信规则的衍生-1

在文章 二代征信解读 中,我们学习了顶象对二代征信的解读。二代征信数据的一个重要用处就是进行变量衍生。 以下为账户类和查询类的变量衍生思路

KNN填充缺失值

填充缺失值最方便的做法就是填充统计量,比如均值,众数,中位数。 KNN填充缺失值也是一个可以考虑的方案,先利用KNN计算临近的k个数据,然后填充他们的均值。在实践中可以用 fancyimpute 包(fancyimpute还提供了其他填充方法) 12345from fancyimpute import KNNx_missing_knn = np.array(x_missing.copy()) #

风控画像

用户画像的价值客户在哪里 精准定位客户 洞察客户需求 客户长什么样 立体刻画客户特征 深度挖掘客户行为 客户如何运营 客群分层 千人千面 用户画像的定义围绕业务目标,利用数据技术挖掘的一系列表征用户基本属性、行为特点、观点倾向的标签。 画像不仅仅是标签,是业务的数据化理解。 风控画像关注用户风险: 强监管准确性要求高: 误判损失高可解释性要求高: 对强变量天然偏好 风控画像的核心目的:

随机森林填充缺失值

回归就是从特征矩阵 $\boldsymbol{X}$ 学习,求解连续性标签 $\boldsymbol{y}$ 回归算法认为特征矩阵和标签之间存在联系,可以从特征预测标签,反过来,也可以从标签预测特征 对于 N 个特征的数据,特征 T 有缺失值,就把 T 当做标签与其他的 N - 1 个特征和原本的标签组成新的特征矩阵 对于 T 来说 没有缺失的部分就是 YTest,这部分既有特征又有标签

特征栏

$0 Pipeline 与 End to End 两种建模方式在职业生涯遇到的各个项目中, Pipeline 与 End to End 两种建模方式都是很常见的,各有特点,在适合的场景下都能 Work。其中在特征工程方面,它们的差异是很大的。以语音为例: pipeline 方式依赖于人工设计的特征,需要依赖于人类可以理解的音节,将一段音频转化为文字 end-to-end 模型基于大量的音频素材,

《精通特征工程》

摘要: 《精通特征工程》书籍信息 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:《精通特征工程》微信读书:《精通特征工程》代码:https://github.com/fengdu78/Da

sklearn-特征工程-特征选择

特征工程是机器学习pipeline中的重要环节,一般位于预处理和模型之间,有降低计算成本和提升模型上限的作用。特征选择是特征工程的关注点之一,这一步要做的是当前业务的pipeline中应该留下哪些特征,未被选中的特征直接弃掉。如果有 n 个特征,特征选择的目的就是从中选出 k 个特征(k<n),这种操作可以提升 pipeline 整体的性能,因为这一步如果做的好,可以去掉很多噪声。 特征选择

《特征工程入门与实践》

摘要: 《特征工程入门与实践》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:中文版;英文版 代码:https://github.com/PacktPublishing/Feature-

特征工程recipes

摘要: 《Python Feature Engineering Cookbook: Over 70 recipes for creating, engineering, and transforming features to build machine learning models》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众

金融风控体系-知乎文章合集

摘要: 记录一些别人写过的不错的文章,建立风控框架体系思维,截至 2021 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 数据 求是汪在路上:外部数据风控建模评估分析 黄姐姐HJJ

sklearn-数据预处理

在机器学习 pipeline 中,数据源是多种多样的,例如业务方在数据库中存储的各种数据,人工上报的 Excel/csv。为了提高业务性能,还需要额外地向不同部门申请其它的数据。在论证可用性和把控数据源质量的前提下,收集的数据一定是对模型训练有帮助的。但是因为数据格式问题,缺失问题,量纲问题等等,不能直接训练,需要先做一些预处理。在预处理后的数据上可以继续做特征工程方面的工作,最终使得数据适应模型