Archive: 2021/3

洞察人性

摘要: 介绍一些研究人性的书 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 任何有利益的地方,都是网络黑产的温床。在现实的当下,他们正以各种形式持续入侵各个行业,并成长为千亿产值的

模板栏

摘要: 算法代码模板整理 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 01 基础算法 02 数据结构 03 字符串 04 搜索 05 动态规划 06 图论 07 组合数学 08 几何 09 数论

利用Python进行数据分析-Pandas基础

Pandas: 处理表格型、异质型数据Numpy: 处理同质型数据 Pandas 数据结构(1) Series 对象Series 是一维数组对象,包含一个值序列和数据标签(称为索引 index) 默认索引是 0 ~ N-1 构造时可指定索引列表,不指定则使用默认索引。使用索引列表可以手动指定顺序。 12series = pd.Series([4, 7, -5, 3])series = pd

面试官如何做好算法题环节的考察

摘要: 算法题主要考察哪些内容 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本文主要记录一下算法题面试时,面试官需要注意的一些点,主要参考外企的一些经验。外企的 Tech 主要考察以下 4 点,并

风控画像

用户画像的价值客户在哪里 精准定位客户 洞察客户需求 客户长什么样 立体刻画客户特征 深度挖掘客户行为 客户如何运营 客群分层 千人千面 用户画像的定义围绕业务目标,利用数据技术挖掘的一系列表征用户基本属性、行为特点、观点倾向的标签。 画像不仅仅是标签,是业务的数据化理解。 风控画像关注用户风险: 强监管准确性要求高: 误判损失高可解释性要求高: 对强变量天然偏好 风控画像的核心目的:

集成模型的调参,偏差与方差

调参的难点大多数的机器学习相关的书都是遍历各种算法和案例,讲解各种各样算法的原理和用途,但却对调参探究很少。主要是因为调参的方式总是根据数据的状况而定,没有办法一概而论,另外一点就是,其实大家也都没有特别好的办法。 通过画学习曲线,或者网格搜索,我们能够探索到调参边缘(代价是训练一次模型要跑很久)在现实中,高手调参可能还是多依赖于经验,而这些经验,来源于: 1)正确的调参思路和方法 2)对模型评

随机森林填充缺失值

回归就是从特征矩阵 $\boldsymbol{X}$ 学习,求解连续性标签 $\boldsymbol{y}$ 回归算法认为特征矩阵和标签之间存在联系,可以从特征预测标签,反过来,也可以从标签预测特征 对于 N 个特征的数据,特征 T 有缺失值,就把 T 当做标签与其他的 N - 1 个特征和原本的标签组成新的特征矩阵 对于 T 来说 没有缺失的部分就是 YTest,这部分既有特征又有标签

常见的思维陷阱

摘要: 一些思维陷阱 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 非黑即白(Black and White thinking) 以偏概全(Overgeneralization)

sklearn-随机森林

3 类集成算法 Bagging: 模型独立,相互并行 Boosting: 模型有序,逐渐提升 Stacking sklearn 中的集成算法sklearn.ensemble 类 功能 ensemble.AdaBoostClassifier AdaBoost分类 ensemble.AdaBoostRegressor Adaboost回归 ensemble.BaggingCl

初级风控算法工程师职位描述

摘要: 初级风控算法的职责与要求 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 1 (字节风控中台)我们是字节跳动风控中台团队,专注字节全业务风控服务,用领先人工智能风控技术解决UGC生态、活动欺诈

特征栏

$0 Pipeline 与 End to End 两种建模方式在职业生涯遇到的各个项目中, Pipeline 与 End to End 两种建模方式都是很常见的,各有特点,在适合的场景下都能 Work。其中在特征工程方面,它们的差异是很大的。以语音为例: pipeline 方式依赖于人工设计的特征,需要依赖于人类可以理解的音节,将一段音频转化为文字 end-to-end 模型基于大量的音频素材,

校招笔试疑难杂症记录

摘要: 记录一些在各种群里见过的有意思的或者比较难的题 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 1 (阿里2020)Tag: 图论,数学 描述3 个人陆行,目的地有 n 家酒店,通过 n -

博文栏

摘要: 记录一些能持续输出好文的博主,以知乎为主。然后是质量比较高的专栏。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 记录一些能持续输出好文的博主,以知乎为主。然后是质量比较高

ffmpeg操作集锦

摘要: 本文介绍 ffmpeg 中常见的操作和小功能,持续更新 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考资料: ffmpeg filter 文档 ffmpeg 翻译文档 $0 疑难

sklearn-回归决策树

在 sklearn-分类决策树 中,介绍了 sklearn 分类决策树相关的背景。我们知道分类决策树的学习就是围绕着某种不纯度指标进行的优化,回归决策树也是这个思路。只是在不纯度的计算上有所区别。 对于 sklearn.tree.DecisionTreeRegressor,criterion 可以有以下几种选择 mse: 均方误差 fridman_mse: Fridman 均方误差 mae: 绝

工程栏

摘要: 算法工程师工程技术路线图 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings $1 工程基础编程语言Python算法工程师日常工作中最常用的语言,必须掌握的一门技术 学习掌握P

Python标准库总览

摘要: 《The Python 3 Standard Library by Example》中介绍的标准库组件 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 书籍信息《The Python 3 St

程序员的数学-概率统计

摘要: 《程序员的数学-概率统计》书籍介绍 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在实际应用中,我们希望灵活运用概率统计胸有成竹地处理相关问题,而不是凭直觉或者模糊概念猜测。这除了需要了解基

【Puzzle】To Begin or Not to begin

摘要: 《概率统计40Puzzles》To Begin or Not to begin 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考: 《40 Puzzles and Problems

【Puzzle】甜食爱好者

摘要: 一个博弈方面的逻辑题,参考《程序员面试逻辑题解析》 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 参考:程序员面试逻辑题解析 问题描述有两块完全一样的长方形蛋糕,A 和 B

jupyter访问远程服务器

摘要: 记录通过 jupyter 访问远程服务器的过程 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 生成默认配置文件~/.jupyter/jupyter_notebook_config.p

利用Python进行数据分析-高阶Numpy

ndarray 对象内幕 高阶数组操作 广播 高阶 ufunc 结构化和记录数组 排序 用 Numba 编写快速 Numpy 函数 高阶输入输出 性能技巧 ndarray 对象内幕Numpy 的 ndarray 提供一种方法将一组同构数据(连续的或跨步的)解释为多维数组对象。 dtype 决定数据如何被解释 每个数组对象都是一个数据块的分步视图。 ndarray 不仅仅是一块内存和一个 dt

利用Python进行数据分析-Numpy基础

Numpy 本身并不提供建模和科学函数。理解 Numpy 的数组以及基于数组的计算可以帮助我们更高效地使用基于数组的工具,例如 Pandas。 对于大多数的数据分析应用,主要关注的内容为 在数据处理,清洗,构造子集,过滤,变换以及其它计算中进行快速的向量化计算 常见的数组算法,例如 sort, unique, set 等 高效的描述性统计和聚合/概述数据 数据排列和相关数据操作,例如对异构数据进

《精通特征工程》

摘要: 《精通特征工程》书籍信息 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本书信息:《精通特征工程》微信读书:《精通特征工程》代码:https://github.com/fengdu78/Da

金融监管常见框架

摘要: 备忘金融监管常见的框架,以后有时间可以学习。 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 中国的一委两行一会监管体系 银保监会 中国人民银行 人行征信中心 国际上常见

read_csv的mixed types问题

问题用 Pandas 读取人工上报的 csv 数据,并通过一些条件,做一些数据清洗、数据抽取的工作。 在 pd.read_csv 的时候,可能会出现关于 dtype 的警告: 1DtypeWarning: Columns (880,912,941,......) have mixed types. Specify dtype option on import or set low_memory&#

统计思维(第二版)

摘要: 《统计思维》 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 统计思维(第2版) 知乎电子书链接 代码: https://github.com/AllenDowney/ThinkSt

算法之外如何考察程序员

摘要: 算法之外还能考察程序员哪些内容 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 下面这三个公式是一个微软的人提出的。 程序 = 算法 + 数据结构软件 = 程序 + 软件工程公司 = 软件

【Puzzle】传说中的爱因斯坦提出的思考题

摘要: 一道 Puzzle 题 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 题目据说有五个不同颜色的房间排成一排,每个房间里分别住着一个不同国籍的人,每个人都喝一种特定品牌的饮料,抽一种特定品牌的

动手深度学习

摘要: 李沐《动手深度学习》第二版介绍与资料 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 资料 网页版:https://d2l.ai/index.html 中文版:https://zh.d2l.a

初级高级和资深算法工程师的职责

摘要: 初级和高级算法工程师的职责 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 初级 对于工具框架、建模技术、业务特性三个方面有一定的了解 可以独立实现一些算法项目上的需求 高级 独立完成一个项

适合面试的算法题

摘要: 面经中的概率题,有的没有答案 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 关于算法题面试流程,以及面试官需要注意考察的点,可以参考 面试官在算法题上的考察点。 除了流程要

高级风控算法工程师职位描述

摘要: 资深风控算法的职责与要求 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings JD11. 职位描述 从海量的数据中挖掘出个体以及网络群体的特征,分析制定风控策略,综合衡量用户的信用风险、欺诈风险和金

算法工程师面试开放性问题

摘要: 算法工程师面试中的开放性问题 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在一场面试中,对每一位候选人,在团队中大致有三种角色:初级(工兵)、高级(精英)、资深(将领)。对于算法工程师,业

如何做好面试官

摘要: 先学会如何做好面试官,再学会如何搭好团队 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 1. 面试官的心态 一小队A+级选手的团队可以轻松战胜一大队B级选手的团队 真正优秀的人招的是比自己更

风控算法工程师技能

摘要: 风控算法工程师的相关技能 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings (1) 数据分析前期 有什么 — 现有哪些数据 — 描述性统计 对不对 — 数据的正确性校验 — 异常值发现 怎么定

一些待思考的问题

摘要: 一些 AI 风控方面的实践问题 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 风控基础设施第三方数据源如何快速接入,快速清洗,快速评估。如何评估新的数据源的商业价值。 模型层和策略层如何各自

AI风控-知乎博主与专栏

摘要: 备忘一些 AI 风控方面的知乎博主和专栏 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 知乎用户 楼小轰 Cher 会飞的猪 Terry 木木木 JovialCai Vivian 知乎机构

sklearn-线性回归处理非线性数据-多项式回归

多项式回归Ridge 和 LASSO 的提出是为了修复多元线性回归中多重共线性的漏洞,而多项式回归是为了提升多元线性回归模型的表现 多项式回归的思路是用线性回归解决非线性问题。 关于线性与非线性(1)变量的线性/非线性两个变量之间的关系可以展示为一条直线,即可以使用方程$y = ax + b$来进行拟合。 (2)数据的线性/非线性回归一组数据由多个特征和标签组成。当这些特征分别与标签存在线性关系时

沙尘暴

摘要: 罕见沙尘暴 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 2021年3月15号,应该是遇到了 2010 年之后最大的沙尘暴了。以下是望京 SOHO 附近,视野差距过大。

AI竞赛网站

摘要: 备忘一些 AI 竞赛的网站 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 名称 网站 biendata https://www.biendata.xyz/competitio

Linux网络负载

摘要: 本文记录了 Linux 中关于网络负载的常见工具和用法 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本文介绍一些可以用来监控网络使用情况的Linux命令行工具。这些工具可以监控通过网络接口

grep集锦

摘要: 本文整理 grep 中常见的操作和小功能,持续更新 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在目录里递归搜索1grep "text" . -r -n 忽略大小写1gr

编程栏

摘要: 编程算法梳理,知识、面试、竞赛、模板四个部分 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 总览 面试知识 算法点 备注 本站文章 二分 基础算法 ->

Linux网络状态

摘要: 本文记录了 Linux 中关于网络状态的常见工具和用法 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 1. netstat用 netstat 查看 Linux 网络状况1netstat -n

Linux运维操作集锦

摘要: 本文整理 Linux 运维中常见的操作和小功能,持续更新 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 文件删除某目录下所有的目录,但是文件保留1find . -type

算法备忘录-2021

摘要: 2021年没有解决的算法问题 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 图论 最小环问题,dijkstra 解法,基于 Floyd 搜索有向图的所有最小环 leetcode 854,

阿里云部署

摘要: 本文记录在阿里云上部署自己的网站的过程 【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:潮汐朝夕我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 1. 购买实例首先领取优惠券:优惠券地址,然后在阿里云 • 云小站上选一个实例。 比较

sklearn-线性回归

主流的回归算法 基础模型:线性回归 在线性回归基础上改进后的模型:岭回归、LASSO、弹性网 分类算法改进后的模型:回归树、RF回归、SVR、贝叶斯回归 稳健回归:RANSAC、Theil-Sen估计 sklearn 中与回归相关的接口1from sklearn.linear_model import ... 接口 模型 LinearRegression 用普通最小二乘法的线性回