扫码打开虎嗅APP
本文来自微信公众号:返朴 (ID:fanpu2019),作者:丁玖(美国南密西西比大学数学系教授),题图来自:视觉中国
在数学研究以及实际应用中,经常会涉及各种发散级数。数学家们试图给这类发散级数客观地指派一个实或复的值,定义为相应级数的和。本文介绍了发散级数两种最著名的广义求和方法,解读切萨罗求和背后的平均化思想和遍历理论,并给出了一个有趣等式的证明。
学过初等微积分中关于无穷级数收敛理论的读者,看到本文标题后,或许会问:“级数既然发散,岂能求和?”不错,他们的质疑精神可嘉,应该大力提倡。不过本文要讲的是,怎样求发散级数的“广义和”。这是个有趣也有用的问题,因为不仅在数学上许多级数不幸是发散的,在物理上也是如此。正如力学家孙博华教授最近告诉我的,对描绘非平衡态热力学系统之统计行为的玻尔兹曼方程,求解“查普曼-恩斯科格展开 (Chapman-Enskog expansion)”,就面临着棘手的发散级数问题。
收敛还是发散,这是个问题
任何标准的微积分教科书中都严格定义了何时称一个级数“收敛”、什么是收敛级数的“和”,以及何时称一个级数是“发散”的。给定一个无穷级数
其中an是实数无穷数列,称为该级数的通项。(在本文的数列记号中我们不外加大括号“{ }”或圆括号“( )”,以示符号简洁,故an既表示数列的第n项,又表示数列本身,就像f(x)既表示函数在x的值又表示函数本身一样。)定义所给级数的部分和数列
即sn是级数的前n项的和。因为项数是有限的,所以每一个部分和sn都是可以计算出的数。如果部分和数列sn当n趋向于无穷大时收敛到一个数s,即:
则称级数
是收敛的并且收敛到s。这时s叫做该级数的和,写成s=
在此情形下,
具有确定的数学意义,它代表了一个叫做“级数和”的实数。反之,如果部分和数列sn当n趋向于无穷大时不收敛到一个数(也称发散),所给级数
也被说成是发散的,这时,它只是一堆数学符号的混合体而已,不代表任何数,没有任何数学意义,遑论求和了。然而,无穷级数的求和基于对“求和”的合理定义,既然经典的定义不能对级数求和,我们寻找的是能不能补充定义,对它“广义求和”。
发散级数的“广义求和”首先需要一个合理的定义。这里的合理性自然包括要满足两个基本要求。一个是,如果级数本身在通常的意义下已经收敛,由广义求和法得到的“和”就应该等于级数在原先意义上的和。这个要求说明“广义求和”具有“狭义求和”的“遗传性”。另一个要求是基于传统求和法的线性性质。我们知道,微积分中的许多运算如极限、求导、求积分等都具有线性特征,例如求导代数法则[af(x)+bg(x)]'=af'(x)+bg'(x)。对于级数而言,也有类似的断言:如果
和
均为收敛级数且c和d为常数,则级数
也是收敛的,而且有等式:
等于
我们希望发散级数的广义求和法也保持这个性质。
切萨罗求和
怎样定义满足如上两个合理条件的发散级数广义求和法呢?一个好的思路是“平均化处理”,或用更时髦的专业术语:“切萨罗算术平均法”。这个法子是用来对付不收敛数列的,而级数的收敛性或发散性,根据定义,实际上是关于给定级数的部分和数列而言的。所以我们来考虑怎样让一个不收敛的数列转变为一个“收敛数列”。先举个简单例子。
考虑数列an=(-1)n-1。它是1和-1交替出现的无穷数列,当然不收敛。然而如果我们取这个数列的前n项的算术平均值,得到的:
称为原数列an的切萨罗算术平均数列,它的各项写出来就是:
所以当n趋向于无穷大时An趋向于0。这样,对于这个发散的数列,通过平均化处理,我们获得了一个收敛的数列。
一般地,对于一个数列an,如果它对应的切萨罗算术平均数列:
收敛并收敛到极限L,则称原数列an在切萨罗算术平均的意义下收敛并收敛到L。平均化思想不仅在数学上对数列的收敛性有巨大帮助,而且它也让统计物理成长为一个令人尊敬的学科。甚至对于人类社会的福祉和安定,现代国家在税收上实行的“富人多缴税穷人拿福利”政策,体现的多半也是仁慈的平均化思想。
切萨罗 (Ernesto Cesáro,1859~1906)是意大利的微分几何学家。尽管他写过一本关于内蕴几何的书,其中描绘了现被称为“切萨罗曲线”的一类分形,以及几本微积分教材,但他提出让可能发散的数列收敛的平均化途径,或许对后世的影响最大。
读者自然会问,如果数列本来就已收敛,那么它的切萨罗算术平均数列也收敛并收敛到同一极限吗?答案是“Yes”。这是数列极限理论中的一个简单命题,在这里我们不妨把它证出来,顺便复习一下极限的“ε-N”语言。设an→L。任给正数ε,存在自然数M,使得对所有的自然数n>M,不等式|an-L|M,有:
因为M已被固定,上面不等式右端的第一项当n趋向于无穷大时趋向于0,故存在自然数N>M使得当n>N时,这一项小于ε/2,因此:
证毕。
另外显见,切萨罗平均运算是线性的,即数列can+dbn的切萨罗平均等于c乘以an的切萨罗平均加上d乘以bn的切萨罗平均。再取极限可见,切萨罗平均的极限运算满足线性性质。这样,如果把用于发散数列的切萨罗算术平均法移植到对于发散级数的广义求和,这个方法满足前面提出的遗传性和线性两个基本要求。
综上所述,我们有了发散级数的切萨罗广义求和算术平均法:对于给定的发散级数
如果它的部分和数列
在切萨罗算术平均的意义下收敛到极限s,则称原级数。
在切萨罗算术平均的意义下有广义和s。由前面我们知道,如果级数
本身已经收敛到和s,那么它也在切萨罗算术平均的意义下收敛到广义和s。此外,切萨罗广义求和算术平均法是线性的广义求和法。
举一个历史上既简单又著名的发散级数例子:
= 1–1 + 1–1 + …。它的部分和数列是sn=[1-(-1)n]/2。对所有的自然数k:s2k-1=1和s2k=0,故数列sn不收敛,因此级数发散。另一方面,部分和数列sn的切萨罗算术平均数列为:
从而An→1/2。或言之,所给级数在切萨罗算术平均意义下的广义和为1/2。
之所以要举出上面这个例子,是因为十八世纪的瑞士人欧拉 (Leonhard Euler,1707~1783)对这个级数也曾经给出和为1/2的结论。然而这位历史上最多产的大数学家玩起无穷级数来,有时玩得太自由了,因为他偶尔会自作主张地给幂级数在不收敛的点处赋上一值,上面欧拉的答案就是这样得出的:他知道著名的幂级数求和公式(这是公比为r的几何级数
等式的直接结果,其中|r|<1)
于是他轻率地在等式两边代入x=1,得到等式1/2=1-1+1-1+1-…。然而,这离真理还差了一步。今日,每一个学过初等级数理论的理工科大学生都知道上述幂级数的收敛半径为1,且收敛区域仅仅是开区间(-1, 1)。所以欧拉用了错误的幂级数赋值法所得到的是发散级数的广义和。其实,如果他将-1分别乘以如上幂级数展式的两端,得到一个非幂级数形式的函数项级数:
然后再如法炮制地代入x=1,便有同一常数项级数的另一个“和”
这是多么荒唐的“数学”啊!
泊松-阿贝尔广义和
不过,如果欧拉不用直接赋值法,而是对等式左端的函数1/(1+x)取
时的极限,就得到与切萨罗广义求和算术平均法结果相同的另一种意义下的广义和
将这个法子一般化,我们就得到了发散级数的第二个经典的广义求和法:对于给定的发散级数
形式地写出对应的幂级数
假如这个级数关于满足不等式0<x<1的每一个数x都收敛(换句话说,此幂级数的收敛半径不小于1),并且它的和函数f(x)当x→1-时有极限:
“基于幂级数和函数极限意义下的广义和”的定义陈述,让我们想起了微积分中关于幂级数在收敛区间端点性质的阿贝尔定理:假设幂级数
的收敛半径为R>0。若
收敛,则该幂级数在闭区间[0, R]上是一致收敛的。“函数项级数
在点集A上一致收敛到和函数f(x)”这个性质大大强于它在A上逐点收敛到f(x),后者的定义是:
在A中一点x收敛到数f(x),是指对于任意的正数ε,存在自然数N=N(x, ε),使得当n>N时,
由此可见,逐点收敛定义中的自然数N不仅依赖于ε,也依赖于x。至于一致收敛,在它的定义中,自然数N取值不依赖于A中的点x:
在A上一致收敛到f(x),若对任意的正数ε,存在自然数N=N(ε),使得当n>N时,对A中所有的x,都有:
因为一致收敛是数学分析中的重要概念,我给出一个不一致收敛的级数例子,还是请我们的老朋友几何级数
帮忙吧。该级数在A=[0, 1)上处处收敛。如果它在A上一致收敛到和函数1/(1-x),那么对于一个具体的正数ε=1,存在自然数N,使得不等式
对[0, 1)中的所有x都成立。然而初等代数提醒我们,只要
就有:
这导致矛盾。因此几何级数在[0, 1)上不是一致收敛的。
倘若有读者理解上一段有点困难,可以这样想象“非一致收敛”:设想一群好汉同一批骏马同时奔向十里以外的目的地。虽然这些人和马迟早都会跑到终点,然而骏马却远远地将长跑好手甩在后头。如果把这一赛事视为函数数列,那么每位选手都“收敛”,然而马与人之间悬殊的速度差距导致到达终点的快慢“不是那么一致的”。
在A上一致收敛有个令人喜悦的好处,就是只要函数项级数中的每一项函数都在A上连续,那么级数的和函数也一定在A上连续。回到阿贝尔定理的结论,因为幂级数中的每一项都是幂函数,自然是处处连续的,故只要
收敛,则幂级数
的和函数f(x)在[0, R]上连续,特别就有:
这样一来,如果级数
已经收敛到一个实数s,那么幂级数
在x=1收敛,故由阿贝尔定理可知,它在闭区间[0, 1]上一致收敛到连续的和函数f(x),因而有极限
这说明,泊松-阿贝尔基于幂级数的广义求和法具有遗传性。它的线性性质则来自数列、级数以及极限关于代数运算的线性性质。所以我们有了第二个满足遗传性和线性基本要求的广义求和法。
瑜亮之间
那么,切萨罗广义求和算术平均法与泊松-阿贝尔广义求和幂级数法有关系吗?有。它们的基本关系是:如果发散级数能用前者广义求和,那么用后者也行,并且两种广义和相等。这个结果称为弗罗贝尼乌斯定理,证明如下:
对给定的级数
由假设,其部分和数列sn的切萨罗算术平均数列An=
收敛到数s,故对任给的ε>0,存在自然数N使得当n>N时,|An-s|n-(n-1)An-1=sn,故有
上式推出:
(1)
后者也保证幂级数
在开区间(0, 1)内收敛到一个函数f(x)。由于数列An有界且幂级数
的收敛半径为1,可知级数
对0对0<x<1收敛,从而有:
另一方面,对几何级数
因为N是已经取定的正整数以及s是一个常数,故当x→1-时上面最后不等式右端的第一项和第三项均趋向于0,因此存在δ>0使得当0<1-x<δ时,它们都小于ε,故
由于ε是任意的正数,这就证明了
事实上,泊松-阿贝尔广义求和幂级数法比切萨罗广义求和算术平均法强。为了说明这一点,给出一个简单例子。考虑明显的发散级数(因为它的通项数列不趋向于0,违背了级数收敛的必要条件:若级数
1-2+3-4+5-6+…。
由于
在区间(0, 1)上有和
在发散点上求傅里叶级数的广义和更能体现泊松-阿贝尔方法相对于切萨罗方法的优越之处。设f(x)为一周期为2π的周期函数,其绝对值函数在任意有界区间上可积。考虑它的傅里叶级数
其中
傅里叶系数的一个基本性质就是an和bn当n趋向于无穷大时都趋向于0,故上面幂级数的“系数数列” ancos nx+bnsin nx一致有界,这推出该级数当0<r<1时收敛,记其和为f(x, r)。将傅里叶系数的表达式代入(2),运用余弦函数的两角差公式,且注意到对一致收敛级数可以逐项求积分的理由,得
再利用代数恒等式
上面用到的代数恒等式可通过将左端乘上右端的分母,再利用三角学中的和差化积公式化简得之,但此法繁琐。可用复数简证之:令
等式得证,并且附带证出了另一恒等式
公式(3)这类积分习惯上称为“泊松积分”,在“广义求和”的观念出现前。泊松就已经研究过级数(2)以及带有“泊松核”
特别地,若f在x点连续,这个极限就等于f(x)。
平均化与遍历理论
然而,如果认为泊松-阿贝尔广义求和幂级数法因为比切萨罗广义求和算术平均法更强而在分析数学中更为得宠,那可能是不正确的印象。实际上,现代数学中的一门综合性学科——遍历理论,从根本意义上讲就是关于平均的学问。五花八门的“遍历定理”,说穿了,就是研究不同种类的“算子序列”在切萨罗算术平均意义下的收敛性质。
从事泛函分析研究的学者,大概会认为耶鲁大学的分析大师纳尔逊·邓福德(Nelson Dunford,1906-1986)和他的学生雅各布·施瓦茨(Jacob T. Schwartz,1930~2009)合写的经典著作Linear Operators Part I:General Theory(《线性算子I:一般理论》)是这门纯数学分支的“圣经之作”。我于1988~89学年和师兄弟们在密歇根州立大学数学系,选修博士论文导师李天岩 (1945~2020) 教授的课《[0, 1]上的遍历理论》时,听到他的一句评述:“这本书本质上讲的是遍历理论。”那时,我刚修完阿克斯勒 (Sheldon Axler,1949~) 教授的学年课程《高等泛函分析》,用的主要参考书包括泛函分析名家康威(John B. Conway,1939-)写的教科书A Course in Functional Analysis(《泛函分析教程》)。
虽然我从阿克斯勒教授三个学季的优美讲解中学到不少知识,但在课堂上却一点也没有闻到遍历理论的气味。修了李教授极具吸引力的课后,我的研究兴趣从最优化理论转向遍历理论。为了确认导师“所言不虚”,也为了让自己夯实基础尽快“进入角色”,我开始阅读以前没有翻过的《线性算子I》。此书正文就有730页,最后一章的标题为“应用”,主题就是遍历理论,而之前的七章实际上都是为它服务的“预备知识”。
从上世纪三十年代初的冯·诺伊曼平均遍历定理和伯克霍夫逐点遍历定理开始,近百年来出现了众多的遍历定理。作为代表,我在此只举一个关于矩阵的遍历定理,因为学过初等线性代数的读者都能看明白。假设m×m矩阵S所有特征值的最大绝对值为1。就像单位复数eix的正幂次数列einx几乎都不收敛一样(读者可令x=π/4试一试看看发生了什么,再检查对应的切萨罗算术平均数列有没有极限),矩阵S的正幂次序列Sn一般也不能指望收敛,除非S还满足其他性质,比如它的元素全是正数。然而,只要幂次序列Sn是一致有界的,它的切萨罗算术平均序列
只要举2×2的排列矩阵S≠I,就能完全理解上述结果。由于S2=I,显然S的奇次幂等于它自己,偶次幂等于单位矩阵,故矩阵幂次序列Sn不收敛。另一方面,简单计算给出,该序列的切萨罗算术平均序列An当n为奇数时等于
当n为偶数时等于
故当n趋向于无穷大时。
不可思议的等式
回望无穷级数的求和史,在十八世纪,对微积分各部分的发展立下丰功伟绩的欧拉,对级数收敛与否有时缺乏耐心的检验,和其他同时代的数学家广泛地使用了发散级数而不顾后果。一个主要原因是欧拉持有这样的观点,即任何发散级数都应该有一个自然和,却没有给出收敛级数之和的明确内涵。无穷级数收敛的精密含义问题被十九世纪的柯西 (Augustin Cauchy,1789~1857) 解决了,他给出了级数收敛的严格数学定义。然后在几十年间发散级数因为“无‘和’可言”而被分析学家们排除在外,似乎无资格登上数学的大雅之堂。
到了1886年,由于庞加莱 (Henri Poincaré,1854~1912) 研究了所谓的“渐近级数”,发散级数重返江湖。之后在1890年,切萨罗正式定义了某些发散级数的求和,即今日以他名字命名的广义求和算术平均法,尽管早在他十年前此法已由弗罗贝尼乌斯 (Ferdinand Georg Frobenius,1849~1917) 隐式地用到过。如今,发散级数求和法成了一门学问,除了本文介绍的两个最为著名的方法,还有黎曼求和、赫尔德求和、拉马努金求和等等其他为了不同情形、不同目的而定义出的发散级数广义求和法。
既然提到了印度传奇数学天才拉马努金 (Srinivasa Ramanujan,1887~1920),我们大致解释一下为何他的求和法会得出这个令人惊掉下巴的结果:1+2+3+4+… =-1/12 ,来作为本文的压轴戏。这个奇怪和式左边的级数通常都被理解为发散到正无穷大,并且无论是切萨罗的算术平均法还是泊松-阿贝尔的幂级数法都无法对它广义求和。然而拉马努金在他1913年2月27日写给英国数学家哈代 (Godfrey Harold Hardy,1977~1947) 的第二封信中,告诉了对方上述不可思议的等式。信是这样写的:
“亲爱的先生,我非常高兴阅读了您 1913 年 2 月 8 日的信。我一直在期待您的回复,类似于伦敦一位数学教授写信要我仔细研究布罗姆维奇的无限级数且不陷入发散级数的陷阱。……我告诉他,根据我的理论,级数的无限项之和:1 + 2 + 3 + 4 + ⋯ = −1/12。如果我告诉你这点,你会立即说疯人院是我的归宿。我详细阐述这一点只是为了让您相信,如果我在一封信中指出我将继续进行的内容,您将无法遵循我的证明方法。……”
在拉马努金著名的“笔记本I”第8章,他给出了所论等式的两个证明,第一个是形式化的,缺乏论据,第二个用到了黎曼 (Bernhard Riemann,1826~1866) 的ζ-函数,符合严格性。分述如下:
形式“证明”:令s=1+2+3+4+5+6+…,两边乘上4,得4s=0+4+0+8+0+12+…。
将第一个等式按这里“安插”了许多0的上下对齐方式减去第二个等式,就有:s-4s=1-2+3-4+5-6+…。
而后一个级数的广义和之前已用泊松-阿贝尔幂级数法求得是1/4。故有方程-3s=1/4,解之得s=-1/12。这个证明自然不能令人信服,但它激发了令人信服的如下证明。
严格证明:令z=x+iy。考虑黎曼ζ-函数
当z的实部x>1时,上面的狄利克雷级数收敛到和ζ(z)。将
两式相减便有:
右端的交错狄利克雷级数在它的收敛区域内定义了狄利克雷η-函数η(z)。故有函数等式:
中令z=1并注意到Γ(1)=1和η(2)=π2/12得到。由此得出:
致谢:感谢西安建筑科技大学力学技术研究院孙博华院长鼓励作者写作本文并提供建议。
本文来自微信公众号:返朴 (ID:fanpu2019),作者:丁玖