Tag: sklearn

sklaern操作集锦

摘要: 本文整理 sklearn 中常见的操作。 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 评价指标计算在已有 y_true 和 y_pred 之后,各个指标的计算方式如下,其中 y_true

用PCA对手写数字数据集降维

摘要: PCA 的一个应用:对手写数字数据集降维 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在 sklearn-特征工程-特征选择 中,有使用过手写数字数据集。 我们使用了各种方法对手写数据集进

sklearn-聚类

摘要: sklearn 聚类基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 无监督学习只需要特征矩阵 $\boldsymbol{X}$,不需要真实标签 $\boldsymbol{y}$。PCA

sklearn-逻辑回归

从线性回归到逻辑回归逻辑回归和线性回归在很多书中都是以线性模型为主题放在一起讲的,关于线性回归的基本理论以及 sklearn 中的线性回归,在 sklearn-线性回归 已经学习过。 多元线性回归的模型如下: z = \begin{bmatrix} \theta_{0} & \theta_{1} & \theta_{2} & \cdots & \theta_{n} \\ \end{bmatr

sklearn-降维

摘要: sklearn 降维基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 维度是什么对于 np.ndarray,维度就是 shape 返回的结果,shape 返回了几个数字,就是几维。除了索引

sklearn-回归决策树

在 sklearn-分类决策树 中,介绍了 sklearn 分类决策树相关的背景。我们知道分类决策树的学习就是围绕着某种不纯度指标进行的优化,回归决策树也是这个思路。只是在不纯度的计算上有所区别。 对于 sklearn.tree.DecisionTreeRegressor,criterion 可以有以下几种选择 mse: 均方误差 fridman_mse: Fridman 均方误差 mae: 绝

sklearn-线性回归处理非线性数据-多项式回归

多项式回归Ridge 和 LASSO 的提出是为了修复多元线性回归中多重共线性的漏洞,而多项式回归是为了提升多元线性回归模型的表现 多项式回归的思路是用线性回归解决非线性问题。 关于线性与非线性(1)变量的线性/非线性两个变量之间的关系可以展示为一条直线,即可以使用方程$y = ax + b$来进行拟合。 (2)数据的线性/非线性回归一组数据由多个特征和标签组成。当这些特征分别与标签存在线性关系时

sklearn-线性回归

主流的回归算法 基础模型:线性回归 在线性回归基础上改进后的模型:岭回归、LASSO、弹性网 分类算法改进后的模型:回归树、RF回归、SVR、贝叶斯回归 稳健回归:RANSAC、Theil-Sen估计 sklearn 中与回归相关的接口1from sklearn.linear_model import ... 接口 模型 LinearRegression 用普通最小二乘法的线性回

Hands-on Machine Learning 1

1. Machine Learning Landscape为什么要使用机器学习考虑一个 Spam Filter 系统 (1) 传统的流程 步骤1:首先要考虑 spam 一般长什么样,然后总结出一些模式。 步骤2:然后需要写一个检测算法,将这些模式检测出来,如果检测出这些模式,就标记 Spam。 步骤3:然后要测试程序,并重复步骤1和步骤2 迭代到最后,代码里会有一个很长的规则列表,这个规则最后会越

《机器学习实战,基于Scikit-Learn、Keras和TensorFlow》

摘要: 《机器学习实战,基于Scikit-Learn、Keras和TensorFlow》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:《Hands-on Machine Learnin

sklearn-特征工程-特征选择

特征工程是机器学习pipeline中的重要环节,一般位于预处理和模型之间,有降低计算成本和提升模型上限的作用。特征选择是特征工程的关注点之一,这一步要做的是当前业务的pipeline中应该留下哪些特征,未被选中的特征直接弃掉。如果有 n 个特征,特征选择的目的就是从中选出 k 个特征(k<n),这种操作可以提升 pipeline 整体的性能,因为这一步如果做的好,可以去掉很多噪声。 特征选择

sklearn-分类决策树

sklearn 决策树的背景在 sklearn 中进行决策树的建模,需要用到 sklearn.tree 中的组件,以及对树进行可视化的包 graphviz。 sklearn.tree 中有 2 个模型: 分类树和回归树 12tree.DecisionTreeClassifier 分类树tree.DecisionTreeRegressor 回归树 分类树和回归树还有两个高随机版本: 12ensemb

sklearn-数据预处理

在机器学习 pipeline 中,数据源是多种多样的,例如业务方在数据库中存储的各种数据,人工上报的 Excel/csv。为了提高业务性能,还需要额外地向不同部门申请其它的数据。在论证可用性和把控数据源质量的前提下,收集的数据一定是对模型训练有帮助的。但是因为数据格式问题,缺失问题,量纲问题等等,不能直接训练,需要先做一些预处理。在预处理后的数据上可以继续做特征工程方面的工作,最终使得数据适应模型