大数据的数学

  |  

摘要: 大数据的数学基础,参考《大数据数学基础》

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


大数据的特征

  1. 不是随机样本,而是全体数据。(限制技术条件提高了,直接用全体数据即可)
  2. 不具有精确性,而具有混杂性。(不接受混乱,占比 95% 以上的非结构化数据无法被利用)
  3. 不是因果关系,而是相关关系。

大数据的定义

  • 5V定义

数学在大数据的应用

(1) 微积分

  • 随机事件 -> 集合 -> 实数
  • 概率 -> 集函数 -> 实函数
  • 微积分 -> 随机变量的数字特征、概率密度与分布函数、连续型随机变量的计算
  • 极限理论 -> 分布函数的性质、大数定律、中心极限定理
  • 在一定约束下函数的最值 -> 最优化

(2) 概率论与数理统计

(3) 线性代数

  • 大量 Web 页面及其关系、微博用户及其关系、文本数据中的长文本与词汇的关系等都可以用矩阵表示。
  • 矩阵为基础的各种运算,矩阵分解(主要是特征分解、奇异值分解) 是分析数据、提取特征的一种途径。

(4) 数值计算

  • 差值、数值逼近、非线性方程求解
  • 连续系统离散化,离散型方程求解
  • 误差、收敛性、稳定性问题

(5) 多元统计分析

  • 在多个对象和多个指标互相关联的情况下分析它们的统计规律。
  • 回归分析、判别分析、聚类分析、主成分分析、因子分析、典型相关分析。

Python框架

Numpy

  1. 高效的多维数组对象 ndarray
  2. 对数组执行元素级计算以及直接对数组执行数学运算的函数
  3. 用于读写硬盘上基于数组的数据集的工具
  4. 行列式计算、矩阵运算、特征分解、奇异值分解
  5. C, C++ 代码集成到 Python 的工具

Scipy

8 个模块

  • scipy.integrate: 数值积分和微分方程求解
  • scipy.linalg: 扩展 np.linalg 的功能
  • scipy.optimize: 函数优化器和根查找算法
  • scipy.signal: 信号处理
  • scipy.sparse: 稀疏矩阵和稀疏线性系统求解器
  • scipy.special: 常用数学函数
  • scipy.stats: 检验连续和离散概率分布(如密度函数、采样器、连续分布函数)的方法、各种统计检验的方法、描述性统计方法
  • scipy.weave: 利用内联 C++ 代码加速数组计算的工具

SymPy

符号运算。符号化的计算采用的是数学对象符号化的计算方式,计算结果可以为一个数学表达式。

StatsModels

统计计算方面可以视为 Scipy 的补充。


Share