高斯和最小二乘法

数学课上要做个展示,突然想到这个课上已经讲过的内容。我想,这样一来,或许有更多的同学能够理解我们所讲演的内容。这篇文章是对所准备内容的总结。

数学是个以抽象而闻名的学科,它似乎与诸如文学,历史的文科分立于人类文明天平的两端。但它终归是人创造的学科,而人是喜欢叙事(narrative)的物种。学生们所抱怨的数学公式并非天降之物,凭空而生。每个数学方法后面必然有一个,或者一群伟大的人们。而这一群伟大的人们又有他们的生活,他们的故事,和他们发明的故事。这就让天秤的两端交织在一起,成了数学史。或许我们能凭此一窥数学的身世之谜。最小二乘法的故事便是那这海滩上的贝壳,平凡而独特。

对于任何一种将一个学科与它的历史割裂开来的企图,我确信,没有哪一个学科比数学的损失更大.

格莱舍

The least squares:$$\beta = L^{-1}X^{T}Y$$

观测(sensor)是人类的所着迷的东西,先所见所闻才有所思所想。观测为我们提供下一步决策所需要的依据,人类导航便是据此发展。相传,早在新石器时代,尚处在狩猎采集(hunter-gather)的祖先们便用天上星座在迷途中寻找归途。渐渐地,古埃及时期的人们,依靠着夜间的星象,开展着横跨地中海甚至是印度洋的贸易。而到了几千年后,人类对地球地理,宇宙天文的好奇又迎来了一次迅猛的发展。大航海时期的到来,人们依旧依循着古老的导航方法,天上的星星。不过,这次,他们需要更精确的位置。

星象导航

同时,人们来到新大陆,规划城市,发现矿藏,开采森林,需要更好的地理知识,这便催生了大地测量学的发展。

大地测量学

人类是善于寻找信号的,比如用眼睛观察一个点三次,实际上我们得到了关于这个点三个不同位置所在,但我们很自然而然的认为这个点的实际位置便是这三个位置点所组成的三角形的几何中心所在。换句话说,也就是平面里离三点距离最小的那个点。

人类自然的估计

Abraham de Moivre在1718年的Doctrines of Chances里面提到离散变量的概率分布相似于指数函数曲线下方的面积。此时的概率论已然成为显学,伯努利和贝叶斯等数学大家辈出。而 Laplace的哲学便是世界其实一个决定(determined)的系统,科学是引导我们不断趋向于这个系统真实参数的有效途径。 到了19世纪初叶,Laplace提出了中心极限定理,确认在大样本环境下,独立的随机变量的分布会快速收敛为一种指数分布,即正态分布,也就是高斯分布。

中心极限定理

19世纪前,世界的数学中心在法国,有拉格朗日,傅里叶和拉普拉斯。但19世纪初,德国哥廷根的高斯改变了这一切,从高斯伊始,哥廷根大学成为了世界数学的灯塔。

高斯

不知是时势造英雄,到了19世纪的欧洲,无论是天文观测,还是地理勘察,都累积了大量的数据,但人们却一直不能找到一种有效的方法从这些数据挖掘有效的信息。高斯自学生时代,长期参与哥廷根大学天文观测学会的工作,再加上他对数字无比的着迷,前无古人的计算能力,让他在统计和概率上走的比同时代的人更远。

The celebrated Dr Gauss was in possession of that method since 1795 and he advantageously applied it when determining the elements of the elliptical orbits of the four new [minor] planets as it can be seen in his excellent work.

高斯与朋友的信

后人在翻阅高斯的信件大致确定高斯早在1795年便开始使用最小二乘法。更确切的证据是,1799年在一场公开的法国地理参数竞赛中,后人发现高斯的结果虽不和一阶最小二乘法的估计结果相似,但惊人的是,高斯其实是运用的变量的二阶关系对参数进行估计。

Gauss在1799年利用同经线长度和维度以及扁率的二阶关系以及最小二乘法估计地球扁率和地球子午线四分(meridian quadrant): $$S= xd+y\sin d\cos 2L+z\sin 2d\cos 4L$$
高斯的结果

但高斯并没用把他的最小二乘法在论文中发表,反而是同时代的法国数学家勒让德首先公开发表了最小二乘法。

Of all the principles that can be proposed [for solving redundant systems of linear equations], I think there is none more exact, or easier to apply, than that which we have used in this work; it consists of making the sum of the squares of the errors [of the residuals] a minimum. This method establishes a kind of equilibrium among the errors, which, since it prevents the extremes from dominating, is appropriate for revealing the state of the system which most nearly approaches the truth.

勒让德的论文

高斯和勒让德的最小二乘法发明权之争可谓是一场小型的牛顿莱布尼兹微积分之争。好在最小二乘法只是高斯众多璀璨数学成就中不太显目的那项。勒让德虽然阐述了最小二乘法的原理,也认识到最小二乘法是让方差最小的估计方法,但并没有很好的阐述当时渐渐完备的概率论与最小二乘法之间的关系。从而勒让德的理论并不是那么完备。


终于在十几年后,到了1809年,高斯终于在天体运动论里阐述自己的最小二乘法理论。

天体运动论首先以拉丁文版本出版

在书中,高斯首先讨论了误差的本质和性质。他在承接前人,尚且雏形的概率论被用来分析误差现象。他将误差分为两种:系统误差(the constant errors)和随机误差(the random errors)。他觉得系统误差可以不断的消除。比如,人们不断优化望远镜并获得巨量观测样本,从而消除系统误差。而对于随机误差,他假设它位于一个区间且不是均匀分布的。 从而有整体误差均值为:

$$k=\int x\Phi (x)dx$$ 令$$x’=x-k$$有:$$E(x’)=E(x)-k=0$$

在消除系统误差后,整体误差的均值为零。这样高斯来到了下一步。如何对误差的大小进行测量?高斯采用了均方值,也就是方差。

$$m^2=\int x^2\Phi (x)dx$$

进一步,高斯发现一个线性系统里面,若观测量之间有独立性,则最终估计量的方差和各观测量之间的方差呈以下关系:

$$V(y)=\sum_{i=1}^{n}m_{i}^{2}\lambda _{i}^{2}$$ 其中$$\lambda$$ 为线性方程的系数。

高斯认为对真实值最好的估计方法就是让待估计量的均方值最小。

在观测中,N维参数空间到M维观测空间 的映射是可以用矩阵A来表示。但是观测值会因为误差的影响而出现分散。从观测矩阵向量恢复出参数向量,Gauss就利用之前得出的结论,假设这个恢复矩阵为K,让其的均方值最小并且无偏。在这种情况下,K对观测向量方差的放大作用最小。

而:$$K=(A^{T}A)^{-1}A^{T}$$作为恢复矩阵时:$$\left \| K \right \|^{2}=tr(AA^{T})$$最小,也就是最终估计值对观测值向量方差放大最小。

高斯给出对最小二乘法必要性的证明,而对其充分性的证明就是课本上的经典方法了。


高斯为什么这么晚才发表自己的理论?众说纷纭,高斯作为一个在数论这种纯粹数学做出巨大贡献的数学家,对数理统计这种应用数学是不太留意的,统计学上的成就可能对他来说是微不足道的。

就像数学史上一些重大理论发现一样,高斯之于最小二乘法并非如亨利福特之于福特汽车,特斯拉之于交流电。这些数学史上的发现,诸如微积分,概率论,微分几何,都是一群卓尔不群的人共同努力的结果。

  • Gauss and the Invention of Least Squares Stephen M. Stigler
  • Gauss’ method of Least Squares: An Historically-Based Introduction Belinda B. Brand
  • C.F. GAUSS and THE METHOD OF LEAST SQUARE Oscar Sheynin

作者: user

无趣的人。