Tag: 机器学习

频率派和贝叶斯派

摘要: 频率派和贝叶斯派的区别和联系。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在机器学习中,我们把概率引入进来是比较自然的事情,本文我们探讨一下频率派和贝叶斯派的区别和联系

机器学习资料汇总

摘要: 机器学习的一些经典资料 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 资料的侧重点 频率派: 统计机器学习 贝叶斯派: 概率图模型 书小蓝书微信读书 侧重点是频率派的统

机器学习白板推导系列

作者及项目信息B 站空间github 仓库 参考笔记: github: MachineLearningNotes 视频汇总 序号 内容 笔记 1 开篇 机器学习资料汇总;频率派与贝叶斯派 2 数学基础 - 3 线性回归 - 4 线性分类 - 5 降维 - 6 SVM - 7 核方法 - 8 指数族分布 - 9 概率图模型基础 - 10 EM算法 -

几份机器学习入门材料的知识点索引

摘要: CS229、小蓝书、西瓜书三份学习资料 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings CS229线性回归 平方损失 + 最小二乘 梯度下降 更新方式: 批梯度下降 vs.

机器学习的错误分析

Carry out error analysis Cleaning up incorrectly labeled data Build your first system quick and then iterate Training and testing on different distribution Bias and Variance with mismatched data dist

构建机器学习项目的一些经验

摘要: 构建机器学习项目的一些经验 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings Andrew Ng 《构建机器学习项目》手写笔记。共 8 页。 1 Why ML Strategy 得到初版模型

数据分析之图算法:基于Spark和Neo4j

摘要: 《Graph Algorithms Practical Examples in Apache Spark and Neo4j》 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings

无监督学习总览

摘要: 《基于Python的无监督学习》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 最近的一本新书《基于Python的无监督学习》,还不错,主要内容如思维导图所示:

UCSD-机器学习数据系统

摘要: 本文介绍两个机器学习数据系统的课 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 入口 CSE 234: Data Systems for Machine Learning

机器学习系统设计模式

摘要: 关于机器学习设计模式的课 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 入口 github Serving patternsThe serving patterns ar

可解释学习开源框架

摘要: 一些可解释学习的开源框架,截至 2021 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 1. 微软可解释学习框架 InterpretML项目信息 时间: 2019 网页: https://i

可解释机器学习总览

摘要: AI 模型的可解释性经典书《可解释的机器学习--黑盒模型可解释性理解指南》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 这是一本关于机器学习模型可解释性的书,英文版出版时间是 2019 年

欺诈检测论文集合

摘要: 分享一个欺诈检测论文集合的仓库,有时间可以看一看 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 仓库地址 Awesome-Fraud-Detection-Research-

监督学习的分类

输入特征空间为欧式空间 $\boldsymbol{X}$,维数为 d,对于二分类问题,输出空间为 $\boldsymbol{Y} (\forall y \in \boldsymbol{Y}, y \in \{-1, 1\})$ $\boldsymbol{x}$ 为输入特征空间的一个随机向量,$y$ 为输出空间中的一个随机变量。$P(\boldsymbol{x}, y)$ 为 $\boldsymbo

概率图模型与反欺诈

摘要: 简要穿讲一下概率图模型以及在风控中的应用 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 概率图模型概率图模型结合概率论与图论,用图来表示与模型有关的变量的联合概率分布。如果把这里的变量视为实

KMeans的矢量量化应用

摘要: KMeans 的一个应用:矢量量化 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings K-Means聚类最重要的应用之一是非结构数据(图像,声音)上的矢量量化(VQ)。非结构化数据往往占用比较多

用PCA对手写数字数据集降维

摘要: PCA 的一个应用:对手写数字数据集降维 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在 sklearn-特征工程-特征选择 中,有使用过手写数字数据集。 我们使用了各种方法对手写数据集进

LR评分卡--开发流程

LR 模型开发参考流程 导入数据 数据洞察 数据预处理 重复值 缺失值 缺失值比例 $\leq 2%$ : 删数据/用均值填 缺失值比例 $\gt 20%$: 算法填充 异常值 业务理解: 年龄为 0/ 收入为负数等 箱线图 $3\sigma$ 法则 删除或与业务方联系 量纲, 数据分布 统一量纲,标准化后,数据的范围、大小会改变 为例业务方便,尽量保持数据原貌 先尝试不做统一量纲 样

sklearn-聚类

摘要: sklearn 聚类基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 无监督学习只需要特征矩阵 $\boldsymbol{X}$,不需要真实标签 $\boldsymbol{y}$。PCA

sklearn-逻辑回归

从线性回归到逻辑回归逻辑回归和线性回归在很多书中都是以线性模型为主题放在一起讲的,关于线性回归的基本理论以及 sklearn 中的线性回归,在 sklearn-线性回归 已经学习过。 多元线性回归的模型如下: z = \begin{bmatrix} \theta_{0} & \theta_{1} & \theta_{2} & \cdots & \theta_{n} \\ \end{bmatr

xgboost入门-手写笔记

使用 XGBoost 的两种方式 直接用 XGBoost 自己的建模流程 XGBoost 中的 sklearn 的 API 集成算法 -> 提升法 -> GBDT GBDT 回归预测与 XGB 回归预测的对比 XGBoost 中与 GBDT 通用的参数 n_estimators subsample eta LR 和 GBDT 的对比 GBDT 的 3 个基本组成要素 一个能衡

KNN填充缺失值

填充缺失值最方便的做法就是填充统计量,比如均值,众数,中位数。 KNN填充缺失值也是一个可以考虑的方案,先利用KNN计算临近的k个数据,然后填充他们的均值。在实践中可以用 fancyimpute 包(fancyimpute还提供了其他填充方法) 12345from fancyimpute import KNNx_missing_knn = np.array(x_missing.copy()) #

sklearn-降维

摘要: sklearn 降维基础 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 维度是什么对于 np.ndarray,维度就是 shape 返回的结果,shape 返回了几个数字,就是几维。除了索引

集成模型的调参,偏差与方差

调参的难点大多数的机器学习相关的书都是遍历各种算法和案例,讲解各种各样算法的原理和用途,但却对调参探究很少。主要是因为调参的方式总是根据数据的状况而定,没有办法一概而论,另外一点就是,其实大家也都没有特别好的办法。 通过画学习曲线,或者网格搜索,我们能够探索到调参边缘(代价是训练一次模型要跑很久)在现实中,高手调参可能还是多依赖于经验,而这些经验,来源于: 1)正确的调参思路和方法 2)对模型评

随机森林填充缺失值

回归就是从特征矩阵 $\boldsymbol{X}$ 学习,求解连续性标签 $\boldsymbol{y}$ 回归算法认为特征矩阵和标签之间存在联系,可以从特征预测标签,反过来,也可以从标签预测特征 对于 N 个特征的数据,特征 T 有缺失值,就把 T 当做标签与其他的 N - 1 个特征和原本的标签组成新的特征矩阵 对于 T 来说 没有缺失的部分就是 YTest,这部分既有特征又有标签

sklearn-随机森林

3 类集成算法 Bagging: 模型独立,相互并行 Boosting: 模型有序,逐渐提升 Stacking sklearn 中的集成算法sklearn.ensemble 类 功能 ensemble.AdaBoostClassifier AdaBoost分类 ensemble.AdaBoostRegressor Adaboost回归 ensemble.BaggingCl

sklearn-回归决策树

在 sklearn-分类决策树 中,介绍了 sklearn 分类决策树相关的背景。我们知道分类决策树的学习就是围绕着某种不纯度指标进行的优化,回归决策树也是这个思路。只是在不纯度的计算上有所区别。 对于 sklearn.tree.DecisionTreeRegressor,criterion 可以有以下几种选择 mse: 均方误差 fridman_mse: Fridman 均方误差 mae: 绝

sklearn-线性回归处理非线性数据-多项式回归

多项式回归Ridge 和 LASSO 的提出是为了修复多元线性回归中多重共线性的漏洞,而多项式回归是为了提升多元线性回归模型的表现 多项式回归的思路是用线性回归解决非线性问题。 关于线性与非线性(1)变量的线性/非线性两个变量之间的关系可以展示为一条直线,即可以使用方程$y = ax + b$来进行拟合。 (2)数据的线性/非线性回归一组数据由多个特征和标签组成。当这些特征分别与标签存在线性关系时

sklearn-线性回归

主流的回归算法 基础模型:线性回归 在线性回归基础上改进后的模型:岭回归、LASSO、弹性网 分类算法改进后的模型:回归树、RF回归、SVR、贝叶斯回归 稳健回归:RANSAC、Theil-Sen估计 sklearn 中与回归相关的接口1from sklearn.linear_model import ... 接口 模型 LinearRegression 用普通最小二乘法的线性回

Hands-on Machine Learning 1

1. Machine Learning Landscape为什么要使用机器学习考虑一个 Spam Filter 系统 (1) 传统的流程 步骤1:首先要考虑 spam 一般长什么样,然后总结出一些模式。 步骤2:然后需要写一个检测算法,将这些模式检测出来,如果检测出这些模式,就标记 Spam。 步骤3:然后要测试程序,并重复步骤1和步骤2 迭代到最后,代码里会有一个很长的规则列表,这个规则最后会越

《机器学习实战,基于Scikit-Learn、Keras和TensorFlow》

摘要: 《机器学习实战,基于Scikit-Learn、Keras和TensorFlow》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:《Hands-on Machine Learnin

sklearn-特征工程-特征选择

特征工程是机器学习pipeline中的重要环节,一般位于预处理和模型之间,有降低计算成本和提升模型上限的作用。特征选择是特征工程的关注点之一,这一步要做的是当前业务的pipeline中应该留下哪些特征,未被选中的特征直接弃掉。如果有 n 个特征,特征选择的目的就是从中选出 k 个特征(k<n),这种操作可以提升 pipeline 整体的性能,因为这一步如果做的好,可以去掉很多噪声。 特征选择

《特征工程入门与实践》

摘要: 《特征工程入门与实践》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:中文版;英文版 代码:https://github.com/PacktPublishing/Feature-

sklearn-分类决策树

sklearn 决策树的背景在 sklearn 中进行决策树的建模,需要用到 sklearn.tree 中的组件,以及对树进行可视化的包 graphviz。 sklearn.tree 中有 2 个模型: 分类树和回归树 12tree.DecisionTreeClassifier 分类树tree.DecisionTreeRegressor 回归树 分类树和回归树还有两个高随机版本: 12ensemb

sklearn-数据预处理

在机器学习 pipeline 中,数据源是多种多样的,例如业务方在数据库中存储的各种数据,人工上报的 Excel/csv。为了提高业务性能,还需要额外地向不同部门申请其它的数据。在论证可用性和把控数据源质量的前提下,收集的数据一定是对模型训练有帮助的。但是因为数据格式问题,缺失问题,量纲问题等等,不能直接训练,需要先做一些预处理。在预处理后的数据上可以继续做特征工程方面的工作,最终使得数据适应模型

模型可解释性

摘要: 关于 AI 模型的可解释性 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在工业界,业务应用需要模型输出决策或预测。业务侧有时需要理解为什么做出某种决策或预测,就对模型的可解释性有了需求。