大数据应用中的概率算法与数据结构

  |  

摘要: 介绍一本概率算法与数据结构的书

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


最近系统复习了一下概率的东西,主要是因为【概率面试题连载】里面遇到某些题吃瘪了,在查资料的时候顺便系统回炉了一下。之后这个连载会长期更新的,因为概率里面有意思的题还是挺多的。这个连载大概率春节之前也会在 leetbook 上线,然后同步更新,标题可能就叫算法工程师面试突击-概率部分

说到概率,其实它在算法里面应用也是很多的。算法不止 leetcode,如果大家刷过一些面经的话,会发现经常见到一些大数据算法的问题,比如上来给你 400 亿个数/字符串,然后完成某种需求。大数据算法涵盖的面比较广,随机算法,近似算法,外存算法,并行算法,分布式算法等都可以算是大数据算法。

其中随机算法是很重要的一种算法,不过这块的内容都零散分布在博客和面经里,不成体系。最近发现一本书,专讲概率数据结构,覆盖了很多随机算法的经典场景和算法。比如哈希、相似性、排名、频率、成员关系、元素种类数等等这些场景。每个场景下有几个经典算法或数据结构,具体可以看下图,其中有红旗标志的是 Redis 里有的,可以参考一下。

这本书的书名叫《Probabilistic Data Structures and Algorithms for Big Data Applications》,是 2019 年的,对常见的随机算法覆盖的挺全的,而且非常难以搞到,我也是刚搞到,还没看过。

Probabilistic-Data-Structures-and-Algorithms-for-Big-Data-Applications


Share