Tag: Jupyter脚本

【天池】练习赛-贷款违约预测-特征工程

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 数据分析部分在文章 【天池】练习赛-贷款违约预测-数据分析 中,本文是特征工程部分。 当有了宽表之后,在模型离线开发中,特征工程阶段输入原始数据,输出入模数据。 过程中要注意哪些中间数据需要保存(注意 df_test 的处理),提供给模型上线后线上特征工程中使用。 特征工程 数据预处理 缺失值的填充

【天池】练习赛-贷款违约预测-数据分析

资料天池训练营DataWhale数据挖掘-各个方向DataWhale数据挖掘-金融风控 比赛地址 任务解析赛题以预测用户贷款是否违约为任务,数据集如下: sample_submit.csv(2MB) testA.csv(41MB) train.csv(166MB) 下载链接如下 12链接: https://pan.baidu.com/

KMeans的矢量量化应用

摘要: KMeans 的一个应用:矢量量化 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings K-Means聚类最重要的应用之一是非结构数据(图像,声音)上的矢量量化(VQ)。非结构化数据往往占用比较多

用PCA对手写数字数据集降维

摘要: PCA 的一个应用:对手写数字数据集降维 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在 sklearn-特征工程-特征选择 中,有使用过手写数字数据集。 我们使用了各种方法对手写数据集进

sklearn-聚类

摘要: sklearn 聚类基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 无监督学习只需要特征矩阵 $\boldsymbol{X}$,不需要真实标签 $\boldsymbol{y}$。PCA

sklearn-逻辑回归

从线性回归到逻辑回归逻辑回归和线性回归在很多书中都是以线性模型为主题放在一起讲的,关于线性回归的基本理论以及 sklearn 中的线性回归,在 sklearn-线性回归 已经学习过。 多元线性回归的模型如下: z = \begin{bmatrix} \theta_{0} & \theta_{1} & \theta_{2} & \cdots & \theta_{n} \\ \end{bmatr

KNN填充缺失值

填充缺失值最方便的做法就是填充统计量,比如均值,众数,中位数。 KNN填充缺失值也是一个可以考虑的方案,先利用KNN计算临近的k个数据,然后填充他们的均值。在实践中可以用 fancyimpute 包(fancyimpute还提供了其他填充方法) 12345from fancyimpute import KNNx_missing_knn = np.array(x_missing.copy()) #

sklearn-降维

摘要: sklearn 降维基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 维度是什么对于 np.ndarray,维度就是 shape 返回的结果,shape 返回了几个数字,就是几维。除了索引

集成模型的调参,偏差与方差

调参的难点大多数的机器学习相关的书都是遍历各种算法和案例,讲解各种各样算法的原理和用途,但却对调参探究很少。主要是因为调参的方式总是根据数据的状况而定,没有办法一概而论,另外一点就是,其实大家也都没有特别好的办法。 通过画学习曲线,或者网格搜索,我们能够探索到调参边缘(代价是训练一次模型要跑很久)在现实中,高手调参可能还是多依赖于经验,而这些经验,来源于: 1)正确的调参思路和方法 2)对模型评

随机森林填充缺失值

回归就是从特征矩阵 $\boldsymbol{X}$ 学习,求解连续性标签 $\boldsymbol{y}$ 回归算法认为特征矩阵和标签之间存在联系,可以从特征预测标签,反过来,也可以从标签预测特征 对于 N 个特征的数据,特征 T 有缺失值,就把 T 当做标签与其他的 N - 1 个特征和原本的标签组成新的特征矩阵 对于 T 来说 没有缺失的部分就是 YTest,这部分既有特征又有标签

sklearn-随机森林

3 类集成算法 Bagging: 模型独立,相互并行 Boosting: 模型有序,逐渐提升 Stacking sklearn 中的集成算法sklearn.ensemble 类 功能 ensemble.AdaBoostClassifier AdaBoost分类 ensemble.AdaBoostRegressor Adaboost回归 ensemble.BaggingCl

sklearn-回归决策树

在 sklearn-分类决策树 中,介绍了 sklearn 分类决策树相关的背景。我们知道分类决策树的学习就是围绕着某种不纯度指标进行的优化,回归决策树也是这个思路。只是在不纯度的计算上有所区别。 对于 sklearn.tree.DecisionTreeRegressor,criterion 可以有以下几种选择 mse: 均方误差 fridman_mse: Fridman 均方误差 mae: 绝

sklearn-线性回归处理非线性数据-多项式回归

多项式回归Ridge 和 LASSO 的提出是为了修复多元线性回归中多重共线性的漏洞,而多项式回归是为了提升多元线性回归模型的表现 多项式回归的思路是用线性回归解决非线性问题。 关于线性与非线性(1)变量的线性/非线性两个变量之间的关系可以展示为一条直线,即可以使用方程$y = ax + b$来进行拟合。 (2)数据的线性/非线性回归一组数据由多个特征和标签组成。当这些特征分别与标签存在线性关系时

sklearn-线性回归

主流的回归算法 基础模型:线性回归 在线性回归基础上改进后的模型:岭回归、LASSO、弹性网 分类算法改进后的模型:回归树、RF回归、SVR、贝叶斯回归 稳健回归:RANSAC、Theil-Sen估计 sklearn 中与回归相关的接口1from sklearn.linear_model import ... 接口 模型 LinearRegression 用普通最小二乘法的线性回

sklearn-特征工程-特征选择

特征工程是机器学习pipeline中的重要环节,一般位于预处理和模型之间,有降低计算成本和提升模型上限的作用。特征选择是特征工程的关注点之一,这一步要做的是当前业务的pipeline中应该留下哪些特征,未被选中的特征直接弃掉。如果有 n 个特征,特征选择的目的就是从中选出 k 个特征(k<n),这种操作可以提升 pipeline 整体的性能,因为这一步如果做的好,可以去掉很多噪声。 特征选择

sklearn-分类决策树

sklearn 决策树的背景在 sklearn 中进行决策树的建模,需要用到 sklearn.tree 中的组件,以及对树进行可视化的包 graphviz。 sklearn.tree 中有 2 个模型: 分类树和回归树 12tree.DecisionTreeClassifier 分类树tree.DecisionTreeRegressor 回归树 分类树和回归树还有两个高随机版本: 12ensemb

sklearn-数据预处理

在机器学习 pipeline 中,数据源是多种多样的,例如业务方在数据库中存储的各种数据,人工上报的 Excel/csv。为了提高业务性能,还需要额外地向不同部门申请其它的数据。在论证可用性和把控数据源质量的前提下,收集的数据一定是对模型训练有帮助的。但是因为数据格式问题,缺失问题,量纲问题等等,不能直接训练,需要先做一些预处理。在预处理后的数据上可以继续做特征工程方面的工作,最终使得数据适应模型