Category: 机器学习

sklaern操作集锦

摘要: 本文整理 sklearn 中常见的操作。 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 评价指标计算在已有 y_true 和 y_pred 之后,各个指标的计算方式如下,其中 y_true

频率派和贝叶斯派

摘要: 频率派和贝叶斯派的区别和联系。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在机器学习中,我们把概率引入进来是比较自然的事情,本文我们探讨一下频率派和贝叶斯派的区别和联系

机器学习资料汇总

摘要: 机器学习的一些经典资料 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 资料的侧重点 频率派: 统计机器学习 贝叶斯派: 概率图模型 书小蓝书微信读书 侧重点是频率派的统

机器学习白板推导系列

作者及项目信息B 站空间github 仓库 参考笔记: github: MachineLearningNotes 视频汇总 序号 内容 笔记 1 开篇 机器学习资料汇总;频率派与贝叶斯派 2 数学基础 - 3 线性回归 - 4 线性分类 - 5 降维 - 6 SVM - 7 核方法 - 8 指数族分布 - 9 概率图模型基础 - 10 EM算法 -

几份机器学习入门材料的知识点索引

摘要: CS229、小蓝书、西瓜书三份学习资料 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings CS229线性回归 平方损失 + 最小二乘 梯度下降 更新方式: 批梯度下降 vs.

机器学习的错误分析

Carry out error analysis Cleaning up incorrectly labeled data Build your first system quick and then iterate Training and testing on different distribution Bias and Variance with mismatched data dist

构建机器学习项目的一些经验

摘要: 构建机器学习项目的一些经验 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings Andrew Ng 《构建机器学习项目》手写笔记。共 8 页。 1 Why ML Strategy 得到初版模型

xgboost操作集锦

模型持久化1. pickle1pickle.dump(clf, open(save_path, "wb")) 1clf = pickle.load(open(model_path, "rb")) 2. joblib1joblib.dump(clf, save_path) 1self.clf = joblib.load(model_path)

监督学习的分类

输入特征空间为欧式空间 $\boldsymbol{X}$,维数为 d,对于二分类问题,输出空间为 $\boldsymbol{Y} (\forall y \in \boldsymbol{Y}, y \in \{-1, 1\})$ $\boldsymbol{x}$ 为输入特征空间的一个随机向量,$y$ 为输出空间中的一个随机变量。$P(\boldsymbol{x}, y)$ 为 $\boldsymbo

sklearn-逻辑回归

从线性回归到逻辑回归逻辑回归和线性回归在很多书中都是以线性模型为主题放在一起讲的,关于线性回归的基本理论以及 sklearn 中的线性回归,在 sklearn-线性回归 已经学习过。 多元线性回归的模型如下: z = \begin{bmatrix} \theta_{0} & \theta_{1} & \theta_{2} & \cdots & \theta_{n} \\ \end{bmatr

xgboost入门-手写笔记

使用 XGBoost 的两种方式 直接用 XGBoost 自己的建模流程 XGBoost 中的 sklearn 的 API 集成算法 -> 提升法 -> GBDT GBDT 回归预测与 XGB 回归预测的对比 XGBoost 中与 GBDT 通用的参数 n_estimators subsample eta LR 和 GBDT 的对比 GBDT 的 3 个基本组成要素 一个能衡

集成模型的调参,偏差与方差

调参的难点大多数的机器学习相关的书都是遍历各种算法和案例,讲解各种各样算法的原理和用途,但却对调参探究很少。主要是因为调参的方式总是根据数据的状况而定,没有办法一概而论,另外一点就是,其实大家也都没有特别好的办法。 通过画学习曲线,或者网格搜索,我们能够探索到调参边缘(代价是训练一次模型要跑很久)在现实中,高手调参可能还是多依赖于经验,而这些经验,来源于: 1)正确的调参思路和方法 2)对模型评

sklearn-随机森林

3 类集成算法 Bagging: 模型独立,相互并行 Boosting: 模型有序,逐渐提升 Stacking sklearn 中的集成算法sklearn.ensemble 类 功能 ensemble.AdaBoostClassifier AdaBoost分类 ensemble.AdaBoostRegressor Adaboost回归 ensemble.BaggingCl

sklearn-回归决策树

在 sklearn-分类决策树 中,介绍了 sklearn 分类决策树相关的背景。我们知道分类决策树的学习就是围绕着某种不纯度指标进行的优化,回归决策树也是这个思路。只是在不纯度的计算上有所区别。 对于 sklearn.tree.DecisionTreeRegressor,criterion 可以有以下几种选择 mse: 均方误差 fridman_mse: Fridman 均方误差 mae: 绝

sklearn-线性回归处理非线性数据-多项式回归

多项式回归Ridge 和 LASSO 的提出是为了修复多元线性回归中多重共线性的漏洞,而多项式回归是为了提升多元线性回归模型的表现 多项式回归的思路是用线性回归解决非线性问题。 关于线性与非线性(1)变量的线性/非线性两个变量之间的关系可以展示为一条直线,即可以使用方程$y = ax + b$来进行拟合。 (2)数据的线性/非线性回归一组数据由多个特征和标签组成。当这些特征分别与标签存在线性关系时

sklearn-线性回归

主流的回归算法 基础模型:线性回归 在线性回归基础上改进后的模型:岭回归、LASSO、弹性网 分类算法改进后的模型:回归树、RF回归、SVR、贝叶斯回归 稳健回归:RANSAC、Theil-Sen估计 sklearn 中与回归相关的接口1from sklearn.linear_model import ... 接口 模型 LinearRegression 用普通最小二乘法的线性回

Hands-on Machine Learning 1

1. Machine Learning Landscape为什么要使用机器学习考虑一个 Spam Filter 系统 (1) 传统的流程 步骤1:首先要考虑 spam 一般长什么样,然后总结出一些模式。 步骤2:然后需要写一个检测算法,将这些模式检测出来,如果检测出这些模式,就标记 Spam。 步骤3:然后要测试程序,并重复步骤1和步骤2 迭代到最后,代码里会有一个很长的规则列表,这个规则最后会越

《机器学习实战,基于Scikit-Learn、Keras和TensorFlow》

摘要: 《机器学习实战,基于Scikit-Learn、Keras和TensorFlow》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:《Hands-on Machine Learnin

sklearn-分类决策树

sklearn 决策树的背景在 sklearn 中进行决策树的建模,需要用到 sklearn.tree 中的组件,以及对树进行可视化的包 graphviz。 sklearn.tree 中有 2 个模型: 分类树和回归树 12tree.DecisionTreeClassifier 分类树tree.DecisionTreeRegressor 回归树 分类树和回归树还有两个高随机版本: 12ensemb