Category: 特征工程

KNN填充缺失值

填充缺失值最方便的做法就是填充统计量,比如均值,众数,中位数。 KNN填充缺失值也是一个可以考虑的方案,先利用KNN计算临近的k个数据,然后填充他们的均值。在实践中可以用 fancyimpute 包(fancyimpute还提供了其他填充方法) 12345from fancyimpute import KNNx_missing_knn = np.array(x_missing.copy()) #

随机森林填充缺失值

回归就是从特征矩阵 $\boldsymbol{X}$ 学习,求解连续性标签 $\boldsymbol{y}$ 回归算法认为特征矩阵和标签之间存在联系,可以从特征预测标签,反过来,也可以从标签预测特征 对于 N 个特征的数据,特征 T 有缺失值,就把 T 当做标签与其他的 N - 1 个特征和原本的标签组成新的特征矩阵 对于 T 来说 没有缺失的部分就是 YTest,这部分既有特征又有标签

《精通特征工程》

摘要: 《精通特征工程》书籍信息 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:《精通特征工程》微信读书:《精通特征工程》代码:https://github.com/fengdu78/Da

sklearn-特征工程-特征选择

特征工程是机器学习pipeline中的重要环节,一般位于预处理和模型之间,有降低计算成本和提升模型上限的作用。特征选择是特征工程的关注点之一,这一步要做的是当前业务的pipeline中应该留下哪些特征,未被选中的特征直接弃掉。如果有 n 个特征,特征选择的目的就是从中选出 k 个特征(k<n),这种操作可以提升 pipeline 整体的性能,因为这一步如果做的好,可以去掉很多噪声。 特征选择

《特征工程入门与实践》

摘要: 《特征工程入门与实践》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:中文版;英文版 代码:https://github.com/PacktPublishing/Feature-

特征工程recipes

摘要: 《Python Feature Engineering Cookbook: Over 70 recipes for creating, engineering, and transforming features to build machine learning models》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众

sklearn-数据预处理

在机器学习 pipeline 中,数据源是多种多样的,例如业务方在数据库中存储的各种数据,人工上报的 Excel/csv。为了提高业务性能,还需要额外地向不同部门申请其它的数据。在论证可用性和把控数据源质量的前提下,收集的数据一定是对模型训练有帮助的。但是因为数据格式问题,缺失问题,量纲问题等等,不能直接训练,需要先做一些预处理。在预处理后的数据上可以继续做特征工程方面的工作,最终使得数据适应模型