数学赏析:牛顿推导广义二项式定理的过程;欧拉和柯西的证明思路

  |  

摘要: 沿着历史的脉络推导二项式定理

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


牛顿(1643-1727)

在现代数学分析的教材中,都会介绍广义二项式定理,也就是 $(1 + x)^{\alpha}$ 的麦克劳林级数展开,利用现代分析学的工具,该定理的证明通过讨论柯西余项的收敛性来完成,路径还是比较清晰的。这本身是现代分析学中很小的一个知识点,但如果假想自己不知道广义二项式定理,想要通过发现什么现象然后灵光一闪提出这个猜想,供后世数学家去严格证明,似乎不是很容易。

通过现有出版的一些数学史的书,我们可以找到一些牛顿当年提出广义二项式定理的过程,本文我们主要看看牛顿当时是怎么想到这个定理的。

本文我们首先将广义二项式定理完整描述一遍,知道我们在讨论的是什么结论;然后串讲一下二项式定理的发展历程;接着就是本文的重点:牛顿在当时的前人已有结论下,是如何提出广义二项式定理的,这里面有两条线,猜想过程都与插值的思想有关;之后我们看一下欧拉给出的实数幂广义二项式定理的证明,当然之后柯西又把广义二项式定理推广到复数了,不过这块本文就不讨论了。


广义二项式定理的内容

二项式定理

二项式定理的公式如下,$n, k$ 为非负整数:

其中 $\binom{n}{k}$ 为二项式系数,$n, k$ 为非负整数:

二项式定理的另一个形式(基于上面的二项式系数的定义,下面公式的求和上限可以写为 $\infty$):

矩阵形式

广义二项式定理

二项式定理可以推广到对任意实数次幂的展开,但注意求和上限是 $\infty$,因此这是一个无穷级数展开,需要考虑收敛性。

$\alpha$ 为实数,当 $0 \leq |y| < |x|$ (也就是 $|\frac{y}{x}| < 1$)时,有:

其中 $\binom{\alpha}{k}$ 为广义二项式系数,$\alpha$ 为实数,$k$ 为整数:

在上述结论中,令 $x = 1, y = x$,得到广义二项式定理的另一个形式:

$\alpha$ 为实数,当 $|x| < 1$ 时,有:

关于收敛域更严谨的写法是 $\alpha \in (-\infty, -1]$ 时,收敛域为 $(-1, 1)$, $\alpha \in (-1, 0)$ 时收敛域为 $(-1, 1]$, $\alpha \in (0, +\infty)$ 时收敛域为 $[-1, 1]$ 但这不是本文的重点。

本文为了方便把收敛域直接写成了 $|x| < 1$,这对任意实数 $\alpha$ 都是收敛域。

上面的定理中,其它内容不变而 $\alpha$ 限定为有理数,就是牛顿推广的形式。

二项式定理的发展历史

公元前 3 世纪欧几里得的几何原本中就已经有了 $(a + b)^{2}$ 的结论。此后在公元 1 世纪的《九章算术》中提到了 $(a+b)^{3}$ 的结论,这应该是二项式定理最早的起源。

之后经过了一千多年的中世纪和文艺复兴时期到了 17 世纪,帕斯卡《论算术三角形》中给出了 $(a + b)^{n}$ 的展开式,这是我们在高中就学过的二项式定理,其中 $n$ 为正整数。

此后牛顿和莱布尼茨分别对帕斯卡的结论进行了推广,其中牛顿的推广是 $(a + b)^{m}, m \in Q$ 也就是有理指数的情况;莱布尼茨的推广是 $(a_{1}+\cdots a_{m})^{n}, m,n \in N^{* }$,也就是整数指数的多项式定理。

之后欧拉采用待定系数法证明了实指数情形的二项式定理,柯西通过函数方程证明了实指数情形的二项式定理,并推广到了复数。

本文后面我们分别看一下牛顿、欧拉、柯西的推导过程,重在感受数学思想的进化过程。

牛顿提出二项式定理的过程 (插值)

牛顿的推导有两条路径,都是从沃利斯等人的成果出发并且基于插值方法的,充满了猜想,都比较叹为观止,这里我们分别看一下。

从积分 $\int_{0}^{x}(1 - t^{2})^{\frac{n}{2}}\mathrm{d}t$ 出发

牛顿在读沃利斯的《无穷算术》时,发现沃利斯在用插值法研究四分之一单位圆面积 $\int^{1}_{0}(1 - x^{2})^{\frac{1}{2}}\mathrm{d}x$ 时,提出了沃利斯公式,并且沃利斯用插值法研究了 $\int^{b}_{a}(1-x^{\frac{1}{p}})^{q}\mathrm{d}x$ 这种形式的积分。牛顿此研究的启发研究了类似于下面这样的变上限积分函数:

首先求 n 为非负偶数 0, 2, 4, 6 时的结果,如下:

由此猜想通用表达式

其中 $a_{mn}$ 表示第 $f_{n}(x)$ 的第 m 项的系数,m, n 均从 0 开始。把前面的已知系数填入表格中,表格的行代表 m,列代表 n,如下:

0 1 2 3 4 5 6 7 8 9 10
0 1 1 1 1 1 1 1 1 1 1 1
1 0 $\frac{1}{2}$ 1 $\frac{3}{2}$ 2 $\frac{5}{2}$ 3 $\frac{7}{2}$ 4 $\frac{9}{2}$ 5
2 0 * 0 * 1 * 3 * 6 * 10
3 0 * 0 * 0 * 1 * 4 * 10
4 0 * 0 * 0 * 0 * 1 * 5
5 0 * 0 * 0 * 0 * 0 * 1

从表格中我们知道对于 $n$ 为偶数,$m=0,1$ 时,有 $a[0][n] = 1$, $a[1][n] = \frac{n}{2}$。

牛顿猜想对于 $n$ 为奇数也有以上的的公式,于是上面的表格中的奇数位置也可以在第一行填入 $a[0][n] = 1$、在第二行填入 $a[1][n] = \frac{n}{2}$。

对于 $m = 2,3,\cdots$,从表格中可以猜想当 n 为偶数时,存在以下递推关系:

这是一个类似于动态规划的递推公式,基于这个公式,如果表格的第 0 列已知,那么之后的偶数列都可以由前面的递推公式推出来。

下面的问题就是 $m=2,3,\cdots$ 时,各行在奇数列上的值是多少。

接下来牛顿的做法非常神奇,很难理解,但是最后竟然得到了正确的结果。下面我们看一下具体是怎么做的。

首先把偶数列各个列之间的递推关系写在新的表格里,然后各个列重新编号,最左边是第 0 列,前 4 行数字分别为 $a,b,c,d$,相当于递推的初始值,后面列的值可以按递推公式写出来,如下表:

0 1 2 3 4 5
0 $a$ $a$ $a$ $a$ $a$ $a$
1 $b$ $a+b$ $2a+b$ $3a+b$ $4a+b$ $5a+b$
2 $c$ $b+c$ $a+2b+c$ $3a+3b+c$ $6a+4b+c$ $10a+5b+c$
3 $d$ $c+d$ $b+2c+d$ $a+3b+3c+d$ $4a+6b+4c+d$ $10a+10b+5c+d$

牛顿认为无论偶数列还是奇数列都存在相同的关系,只不过每一行的 a, b, c, d 不同

然后依次考察各行,比如第 $m = 2$ 行,对比两张表格第 2 行相同位置的有已知值的单元,也就是蓝色的位置,列出以下方程:

解得:$a = \frac{1}{4}, b = -\frac{1}{8}, c = 0$,前面说过各行的 $a, b, c, \cdots$ 不同,这里解出的 $a, b, c$ 只适用于第 $m = 2$ 行。

然后对比两个表格的第二行,将新表格奇数列的元素视为对应到原表格奇数列的元素,比如 $b + c$ 视为 $a[2][1]$、$3a+3b+c$ 视为 $a[2][3]$,于是:

类似地 $m = 3$ 时,对比两个表格的偶数列,列出方程解出一组新的 $a, b, c, d$,然后代入奇数行的相应位置,得到:

于是牛顿得到了 $n$ 为 1 时的积分结果 :

又注意到:

并且得到了每一项的通项公式:

将 $a[m][n]$ 代入,得到:

对上式求导,得到:

由此牛顿提出广义二项式定理:

从已知的整数次幂的展开结果出发

牛顿从同为英国数学家的沃利斯等人之前的工作中,知道如何对整数指数进行二项式展开:

整数指数的二项式展开,牛顿在此前就知道,一种简单直观的理解如下图:

牛顿的目标是将 $(1 + x)^{n}$ 的指数推广到非整数值。我们将已知的二项式系数排列在下面的表中,非整数值空一行:

幂次$n$ $1$ $x$ ${x}^{2}$ ${x}^{3}$ ${x}^{4}$ ${x}^{5}$
0 1 0 0 0 0 0
$\frac{1}{2}$
1 1 1 0 0 0 0
$\frac{3}{2}$
2 1 2 1 0 0 0
$\frac{5}{2}$
3 1 3 3 1 0 0
$\frac{7}{2}$
4 1 4 6 4 1 0
$\frac{9}{2}$
5 1 5 10 10 5 1

考察每一列,在每一列中已知的整数中插值填充空格。

首先第一列和第二列不难猜,第一列全是 1,第二列是线性增加。此时表格如下:

幂次$n$ $1$ $x$ ${x}^{2}$ ${x}^{3}$ ${x}^{4}$ ${x}^{5}$
0 1 0 0 0 0 0
$\frac{1}{2}$ 1 $\frac{1}{2}$
1 1 1 0 0 0 0
$\frac{3}{2}$ 1 $\frac{3}{2}$
2 1 2 1 0 0 0
$\frac{5}{2}$ 1 $\frac{5}{2}$
3 1 3 3 1 0 0
$\frac{7}{2}$ 1 $\frac{7}{2}$
4 1 4 6 4 1 0
$\frac{9}{2}$ 1 $\frac{9}{2}$
5 1 5 10 10 5 1

第三列,我们可以注意到前 4 个数 $1, 3, 6, 10$ 为三角数,第 $n$ 个三角数的公式为 $\frac{n(n+1)}{2}$。(n角数的定义参考文章 高斯的数学思想

将 $n = \frac{1}{2}, \frac{3}{2}, \cdots$ 代入,填表:

幂次$n$ $1$ $x$ ${x}^{2}$ ${x}^{3}$ ${x}^{4}$ ${x}^{5}$
0 1 0 0 0 0 0
$\frac{1}{2}$ 1 $\frac{1}{2}$ $-\frac{1}{8}$
1 1 1 0 0 0 0
$\frac{3}{2}$ 1 $\frac{3}{2}$ $\frac{3}{8}$
2 1 2 1 0 0 0
$\frac{5}{2}$ 1 $\frac{5}{2}$ $\frac{15}{8}$
3 1 3 3 1 0 0
$\frac{7}{2}$ 1 $\frac{7}{2}$ $\frac{35}{8}$
4 1 4 6 4 1 0
$\frac{9}{2}$ 1 $\frac{9}{2}$ $\frac{63}{8}$
5 1 5 10 10 5 1

接下来第四列没有现成数列可以猜了,我们看前三列的性质:

  • 第一列是常数(0次多项式)
  • 第二列线性增长(1次多项式)
  • 第三列二次增长(2次多项式)

这样我们又发现规律了,于是推断第四列应该以三次多项式增加,记这个多项式为 $p(n)$,但注意这个未知的多项式在 $n = 0, 1, 2$ 时消失,因此它的形式必须是

通过表格中的已知值 $p(3) = a\cdot 3(3-1)(3-2) = 1$,得到 $a = \frac{1}{6}$,第四列的值为 $\frac{1}{6}n(n-1)(n-2)$,填表:

幂次$n$ $1$ $x$ ${x}^{2}$ ${x}^{3}$ ${x}^{4}$ ${x}^{5}$
0 1 0 0 0 0 0
$\frac{1}{2}$ 1 $\frac{1}{2}$ $-\frac{1}{8}$ $-\frac{1}{16}$
1 1 1 0 0 0 0
$\frac{3}{2}$ 1 $\frac{3}{2}$ $\frac{3}{8}$ $-\frac{1}{16}$
2 1 2 1 0 0 0
$\frac{5}{2}$ 1 $\frac{5}{2}$ $\frac{15}{8}$ $\frac{5}{16}$
3 1 3 3 1 0 0
$\frac{7}{2}$ 1 $\frac{7}{2}$ $\frac{35}{8}$ $\frac{35}{16}$
4 1 4 6 4 1 0
$\frac{9}{2}$ 1 $\frac{9}{2}$ $\frac{63}{8}$ $\frac{105}{16}$
5 1 5 10 10 5 1

现在我们的插值过程就很清澈了,第 5 列的二项式系数公式如下:

第 6 列的二项式系数公式如下:

至此我们终于填满了表格:

幂次$n$ $1$ $x$ ${x}^{2}$ ${x}^{3}$ ${x}^{4}$ ${x}^{5}$
0 1 0 0 0 0 0
$\frac{1}{2}$ 1 $\frac{1}{2}$ $-\frac{1}{8}$ $-\frac{1}{16}$ $-\frac{5}{128}$ $-\frac{7}{256}$
1 1 1 0 0 0 0
$\frac{3}{2}$ 1 $\frac{3}{2}$ $\frac{3}{8}$ $-\frac{1}{16}$ $\frac{3}{128}$ $-\frac{3}{256}$
2 1 2 1 0 0 0
$\frac{5}{2}$ 1 $\frac{5}{2}$ $\frac{15}{8}$ $\frac{5}{16}$ $-\frac{5}{128}$ $\frac{3}{256}$
3 1 3 3 1 0 0
$\frac{7}{2}$ 1 $\frac{7}{2}$ $\frac{35}{8}$ $\frac{35}{16}$ $-\frac{35}{128}$ $-\frac{7}{256}$
4 1 4 6 4 1 0
$\frac{9}{2}$ 1 $\frac{9}{2}$ $\frac{63}{8}$ $\frac{105}{16}$ $-\frac{315}{128}$ $\frac{63}{256}$
5 1 5 10 10 5 1

基于前面的插值的过程,我们写出牛顿广义二项式定理:

这种插值的过程看起来很合理,但并不能作为证明。二项式定理在整数次幂的证明用数学归纳法很容易完成,而非整数次幂下的证明是由后世数学家完成的。


欧拉的待定系数法证明思路

假设已知整数幂情况下的二项式定理,$n, k$ 为非负整数:

其中 $\binom{n}{k}$ 为二项式系数,$n, k$ 为非负整数:

下面我们证明 $(1 + x)^{\frac{m}{n}} = \sum\limits_{k=0}\limits^{s}a_{k}x^{k}$,其中 $m, n, s \in N^{*}$ 也有类似的形式。

难点在于两处,一个是 $s$ 是多少,一个是当 $s$ 确定的时候,各个系数 $a_{0}, \cdots, a_{s}$ 是多少,是否有通项公式。

如果 $s = 1$,于是:

用整数次幂的二项式定理,将 $(1 + x)^{m}$ 和 $(a_{0} + a_{1}x)^{n}$ 展开:

对比常数项和 $x^{1}$ 的系数,有:

解得,$a_{0} = 1, a_{1} = \frac{m}{n}$。但把这个结果代入,发现 $x^{2}$ 的系数无法匹配。也就是说 $s=1$ 是不够的。

下面看 $s = 2$ 的情况:

对比 $x^{0}, x^{1}, x^{2}$ 的系数:

解得,$a_{0} = 1, a_{1} = \frac{m}{n}, a_{2} = \frac{1}{2}\frac{m}{n}(\frac{m}{n}-1)$。但把这个结果代入,发现 $x^{3}$ 的系数无法匹配。也就是说 $s=2$ 是不够的。

类似地,看 $s = 3$ 的情况:

对比 $x^{0}, x^{1}, x^{2}, x^{3}$ 的系数:

解得,$a_{0} = 1, a_{1} = \frac{m}{n}, a_{2} = \frac{1}{2}\frac{m}{n}(\frac{m}{n}-1), a_{3} = \frac{1}{6}\frac{m}{n}(\frac{m}{n}-1)(\frac{m}{n} - 2)$。但把这个结果代入,发现 $x^{4}$ 的系数无法匹配。也就是说 $s=3$ 是不够的。

此后可以继续写下去,求解时用整数次幂的二项式定理去凑,然后再整理,但是非常复杂,考验耐心。最后发现不管 $s$ 取多少,总有高于 $s$ 次幂的项的系数不匹配。

另一方面,当 $|x| < 1$ 时,随着幂次 $s$ 的增长,无法匹配的余项逐渐降低,并趋近于 0。也就是说 $(1 + x)^{\frac{m}{n}} = \sum\limits_{k=0}\limits^{s}a_{k}x^{s} + o(x^{s})$。

因此要把余项取到 0,需要 $s \rightarrow \infty$。因此:

进一步可以求出 $a_{k}$,对于任意一项,都可以通过类似前面的待定系数法求出:

再结合有理数幂稠密性,以及幂函数的连续性,可以把有理数幂的广义二项式定理推广实数幂。这种利用有理数的稠密性将有理数上的结论推广的实数的方法,在 函数方程串讲、从零推导柯西方程的解 中也有提到,过程类似。

柯西的函数方程证明思路

柯西严格证明了 $|x| < 1$ 时,$\sum\limits_{i=0}\limits^{\infty}\binom{z}{i}x^{i}$ 对任何实数 $z$ 收敛到一个实数,因此定义函数:

其中 $\binom{z}{i}$ 是广义二项式系数。

根据函数项级数的柯西乘积,可以推导出对于任意实数 $z, w$,有以下函数方程(具体过程可以看文章 函数方程串讲、从零推导柯西方程的解 ):

从 $f(z + w) = f(z)f(w)$ 出发,得到 $f(nz) = (f(z))^{n}$。

有理数 $q$ 可以写为 $q = \frac{k}{h}$,于是:

由于 $f(nz) = (f(z))^{n}$,于是 $f(\frac{k}{h})^{h} = f(k)$。

另一方面,当 $n$ 为整数的时候,根据整数幂的二项式定理,有 $f(n) = (1 + x)^{n}$。因此 $f(k) = (1 + x)^{k}$,于是:

再结合有理数幂稠密性,以及幂函数的连续性,可以把有理数幂的广义二项式定理推广实数幂。这种利用有理数的稠密性将有理数上的结论推广的实数的方法,在 函数方程串讲、从零推导柯西方程的解 中也有提到,过程类似。


总结

观察特定的数字和计算结果,偶然发现一些规律,结合前人已有的结论,大胆构造看起来正确的猜想,然后用更多的计算结果筛出大概率正确的猜想,最后由自己或后人完成严格的证明。大学数学课上一个很小的结论,在历史上可能都走过这样的历程。

在工作当中似乎也是这个流程。比如先通过业务或者大盘的数据发现一些我们不想要的现象或者异常,根据以前的一些经验,猜测大概率是哪些因素出现了问题,然后自己捞更多的相关数据进行分析,筛出最有可能的成因。然后由自己或者给其他同事把这个成因进行一些改变,发现大盘果然朝着我们想要的方向变化了。于是就做实了结论:业务或大盘的这种现象确实是这个成因造成的,这一串流程走完后,行业的经验库中就又多了一条”定理”。


Share