从不同的角度看矩阵的行秩与列秩.doc
从不同的角度看矩阵的行秩与列秩兼论如何学好线性代数线性代数中,有那么几个神秘又神奇的东西,总是让初学它的人琢磨不透,无法理解,其中就有矩阵的行向量和列向量的关系,为什么一个矩阵的行向量里有多少个线性无关的向量,列向量里就一定也有多少个线性无关的向量呢?或者考虑稍微简单一点的问题,一个方阵,为什么行向量线性无关或线性相关列向量就一定也线性无关或相关呢?行秩为何等于列秩?这本来应该是一个基本又简单的事实。但是,请回忆一下你当初初学线性代数时的内容编排顺序,是怎么引入这个问题的,当时又是怎样解决这个问题的?传统的教材编写思路是从线性方程组开始整个线性代数话题的引入,这个过程中定义行列式和矩阵,用n元数组引入向量,线性相关和无关等概念,讨论解存在的条件,解的结构,等等。总之,一切以方程组为核心,给人的感觉就是线性代数就是方程组的理论,一切讨论的目的都是为了解决小小的方程组问题。在这个过程中,有一个矩阵行秩等于列秩的命题,此时学生只了解方程组理论和行列式,因此这时对这个问题的解释当然也无法离开方程组或行列式。下面简述两个典型的教材中的证明方法:第一个证明来自陈志杰高等代数与解析几何。证明:首先,矩阵的初等行变换不改变矩阵的行秩,初等列变换不改变矩阵的列秩。这是由向量组的初等变换不改变向量组的线性相关或无关性保证的,即将某个向量乘以非零的倍数、将某个向量加到另一个向量上,都不改变向量组的线性相关或无关性。接着证明矩阵的初等行变换不改变矩阵的列秩。设A是m*n阶矩阵,任意从A的n个列向量中选取k个列向量a1,a2,ak,它们线性无关的充要条件是线性方程组a1×1+a2×2+akxk=0只有零解。而对矩阵A进行初等行变换不改变此方程组的解,因此不改变这k个列向量的线性相关或无关性。这说明A的列向量的秩在矩阵的初等行变换中不变。同理矩阵的初等列变换不改变矩阵的行秩。接下来,可以把A经过初等行变换和初等列变为只有对角线上有1或0,其它位置都为0的矩阵,在这个过程中行秩和列秩都不改变,从这个矩阵中看出行秩等于列秩,因此原来的矩阵行秩也等于列秩。第二个证明来自北大数学系几何与代数教研室前代数小组编高等代数证明:考虑线性方程组AX=0,首先证明如果未知数的个数超过A的行秩,那么它有非零解。设m*n阶矩阵A的行秩为r,考虑方程组AX=0,它由m个方程n个未知数组成。从A的行向量中选取r个线性无关的行向量,重新组合成矩阵B,那么方程组AX=0和BX=0同解。这时,如果B的列数大于行数,那么方程组BX=0必有非零解,从而AX=0也有非零解。接着证明行秩等于列秩。设m*n阶矩阵A的行秩为r,列秩为s。考虑A的任意r+1个列向量组成的矩阵C,因为C的行秩不大于r(因为C的行向量都是A的行向量的一部分分量组成的),所以CX=0有非零解,这说明这r+1个列向量线性相关。所以A的列秩最大为r,即s<=r。同理可证r<=s,因此s=r。有了行秩等于列秩的性质,完全可以用行秩或列秩定义矩阵的秩了。编写教材的人和老师们都认为,只要能够顺利定义出矩阵的秩,这个证明就足以满足初学时的需要了,既没有必要又没有条件再将它深入地挖掘下去。但是它仍然让我困惑,即使把书上的这个证明看得明明白白,也不理解为什么行秩等于列秩。因为向量是个几何的概念,现在这个证明中看不出一点几何上向量的影子,这两个例子都依赖于线性方程组理论,都离不开高斯消元法,都是代数上的推导。虽然从代数上推导出了这个结果,但是在几何上我依然无法接受这个结果。矩阵的行向量和列向量“从图形上”到底是什么关系?可不可以让我一下子就能看出来它们的秩是相等的?尽管经过了行列变换之后行列秩相等是显然的,但这个过程中却把原来的行列向量给变得面目全非了。更有甚者,有些教材上竟然用矩阵的子式和行列式理论推导行秩等于列秩,由于这种证明过于复杂,这里就不列出了。直到最近的一次偶然机会,又让我想起了这个问题。一开始,发现它和对偶空间与对偶映射有关系。记得当初学习线性代数时,直到最后才接触了一些有关对偶空间和对偶映射的知识,教材还写得十分抽象,以至于我们都囫囵吞枣地过来了,根本没有什么印象。后来的泛函,因为高等代数理解不深人,对泛函也没有留下什么印象。最近有同事让我讲线性代数,有很多次问我关于矩阵转置的意义的问题。他曾经学习线性代数时对很多问题不理解,其中就有矩阵转置到底对应几何上的什么东西,为什么要转置?其实我也没考虑过这个问题,只知道这是代数的特殊需要,当需要把行向量变成列向量的时候就需要考虑转置,它完全是代数上的处理方式。至于在几何上代表什么意义,我也曾困惑过,但一直没考虑清楚。然而现在比大一那个时候多了一个学习的更加有效的途径,那就是网络。在wiki百科中,我查到了一个观点:在标准正交基底下,如果一个线性映射对应于矩阵A,那么A的转置恰好对应这个线性映射的转置映射,A的共轭转置恰好对应这个线性映射的对偶映射。在有限维空间中对偶映射还有一个更直观的定义:设 是从 到 的线性映射,则 的对偶映射 是从 到 的满足 的线性映射。这是很好理解的,即使不知道什么是对偶空间及对偶映射,单单从矩阵乘法的性质中也很容易看出A和A的共轭转置之间的这种关系。这样就把A的共轭转置和A之间的关系赋予了几何的意义,因为内积正好包含向量的角度信息,并且当一组非零向量两两内积为0时,它们线性无关。A和A的共轭转置的列向量的秩分别对应于 T 和 T* 的值域的维度,能不能就此证明它们相等?从而至少可以证明实数矩阵行秩等于列秩。这就是下面的:定理1:线性映射 的值域和其对偶映射 的值域有相同的维数。证明:设 T 是从 U 到 V 的线性映射,则 T 的对偶映射 T* 是从 V 到 U 的线性映射。设 T 与 T* 的值域的维数分别为r,s,假设s<r,则在 T* 值域中可以找一组基底:,考虑 ,这个向量组的秩s<r,因此可以在 的值域中(维数为r)找到 使得 。又因为 故 即 。这样我们在 的值域中找到了与向量 都垂直的非零向量,与这个向量组是 值域的基底矛盾。因此sr。同理可证sr。故s=r。证毕。这样,A 与 A 的共轭转置的列秩相等,从而实数矩阵的行秩等于列秩。为了把它应用于证明复数矩阵行秩与列秩相等,还需要下面的命题:命题1:若复数值向量a1,a2,an线性无关,那么他们的共轭向量也线性无关。证明:以 a1,a2,an 为系数矩阵的方程组 k1a1+k2a2+knan=0 两边取共轭即得到一个以a1,a2,an 的共轭为系数的线性方程组,这两个方程组同时有或没有非零解。证毕。这样就彻底完全地证明出了矩阵的行秩与列秩相等。这个证明的思路中就明显地带有几何的启示,因此我觉得它更能让我看到矩阵行向量和列向量的本质。然而虽然这个证明带有很强的几何色彩,但终究还是觉得有些抽象,还是没有道出行列向量之间的关系来。经过对这个问题持续的思考,和对方程组 AX=0 从不同的角度去解释,发现如果我们竖着看 AX,我们看到一个线性映射,它列向量的秩是它值域的维数;然而如果我们横着看 AX=0,又可得到 A 的每个行向量与 X 的内积是0(这里以实数矩阵为例,至于复数矩阵则可以利用上面的“命题1”),也就是说,A的每个行向量和 AX=0 的解都垂直,用映射的观点说,就是 A 的每个行向量都在线性映射的零空间的正交补空间中。又 AX=0 的所有解的集合(零空间)是垂直于 A 的每个行向量的向量构成的集合,那么零空间和行空间应该互为正交补空间,它们的维数之和是定义域的维数。那么事情就清楚了,根据秩-零度定理,dim rangeT+dim nullT是 T 定义域的维数,而行空间维数又与零空间维数互补,因此行空间维数等于值域维数,即行秩等于列秩。应该说,这才是行向量和列向量真正的本质关系,可惜的是,直到毕业的三年多之后我才自己发现了这个关系。其实,如果考虑对偶映射,也可以轻而易举地得出结论:T* 的值域恰是 T 的零空间的正交补。根据秩-零度定理也立即可以得出 T* 和 T 值域维数相等。前面在证明“定理1”时没有用到它们值域和零空间的关系还有秩-零度定理,这里用了这两个定理之后,分析过程其实和上段分析 AX=0 方程组的过程本质上是一样的。那时在网络上还查找到了一个利用了矩阵乘积的现代观点证明行秩等于列秩的文章,是在台湾博客“线代启示录”中看到的,抄录如下(注意在台湾,把竖着的叫行,把横着的叫列,与我们恰好相反):假設 階矩陣 的行秩為 ,列秩為 。可知 包含 個 維線性獨立的行向量,它們足以擴張 的行空間。將這些行向量收集起來組成一個 階矩陣 ,那麼 的任何一個行 都可以唯一表示為 的行向量 之線性組合,如下:將這 個式子的線性組合權重合併為一個 階矩陣 ,並利用以行為計算單元的矩陣乘法規則,就有接著再考慮矩陣 的第 列,以 表示,利用以列為計算單元的矩陣乘法規則,於是有矩陣 的每一列都可以寫為 D 的列向量之線性組合,因此 的列空間維度不大於 D 的列向量總數,即 ,也就是說 的列空間維度不大於 的行空間維度。運用同樣的推論方式於 ,可推知 的列空間維度不大於 的行空間維度,但 的列空間即為 A 的行空間而 的行空間就是 的列空間,得知 。綜合以上結果,證得 ,矩陣的行秩等於列秩。這個證明方法表面看似平凡無奇,但它只利用矩陣乘法運算便將幾個重要的線性代數概念線性組合、基底和擴張連結在一起,非常值得初學者細細品味。这个证明虽然也是代数上的分析,但其巧妙的让人称奇的地方,就是把一个矩阵分解成了两个矩阵的乘积,其中左边的因子是列慢秩的,然后利用对两个矩阵乘积的不同的解释,把左面的列秩(也就是A的列秩)和右面的行秩联系起来了。本来,有关矩阵列秩与行秩关系的问题讨论到这里也可以算是比较圆满了。但是,在写这篇文章的时候,又无意间提出下面的一个问题:为什么如果矩阵A只有两行,哪怕它有100列,它的列向量的秩也最多是2?现在来看,这是个非常简单的问题,因为它的100个列向量都是二维的向量,这些二维向量再多,也至多可以找出两个线性无关的向量。这是由向量空间的维数定理保证的:“有限维向量空间中任何极大线性无关组包含向量个数相同。”因此,一个矩阵,它的列秩不超过行数,行秩不超过列数。那么,为了完成“列秩等于行秩”的证明,只需把列秩和行秩的大小范围估计得更精确一些,从“列秩小于等于行数”、“行秩小于等于列数”精确到“列秩小于等于行秩”、“行秩小于等于列秩”。我们设想,如果一个 m*n 阶矩阵,它的行秩为 r,那么它的列向量虽然表面上看每个都是 m 维的,但实际上这些 m 维向量被限制在了一个 r 维的子空间中,实际属于 r 维向量。为了看清楚这一点,我们可以有两条思路:第一条,既然 A 的行空间维数为 r,那么可以找到 r 个线性无关的行向量为基底,矩阵的 m 个行向量都可以用这 r 个向量线性表示,用矩阵的语言就是其中 D 就是从 A 的行向量中选取的线性无关行向量,B 的每一行是 A 的行向量按D中行向量线性表示的系数(坐标)。那么,接下来还是两条路:第一,按维数定理,D 的列秩不超过其行数 r,且 A 的值域维数不大于 D 的值域维数(因为 A 的维数就是把 D 的值域再用 B 映射到 m 维空间,值域的维数是递减的),因此 A 的列秩不大于 r,这实质上是北大线性代数中的证明;第二,B 的列秩不超过 B 的列数 r,这样就变成了“线代启示录”的证明,因此“线代启示录”上的证明思路也就是如此。第二条,我们可以实际地找出 列空间的基底。因为 行秩为 ,即可以选取 个行向量 ,使得其它行向量都可以用这 个行向量线性表示,不妨记为 ,那么就代表 的列向量的坐标都具有如下形式:显然只有前 r 个坐标是可以自由变化的,这样的向量的全体构成一个子空间,它的基底是清楚的。因此,这是个 r 维子空间。根据维数定理,这样的向量不管多少个,秩不大于r。可见,一个简单的事实,可以从多种角度进行的解释,但有些看似动机不同的解释往往实质上又相同,它们之间也有着千丝万缕的联系。因为线性代数的这个特点,使得不同的线性代数的教材的写法有很大的不同。同样一个事实,既可以从线性映射的角度去解释,又可以从矩阵分析的角度解释,还可以从线性方程组,或行列式角度去证明。线性代数教材的编写其实很随意,既可以像北大版那样把线性方程组作为基础,其它诸如线性变换、维数定理等等内容都通过方程组理论来证明,也可以像Linear Algebra Done Right那样完全地从抽象的向量空间和线性映射的角度分析。它们动机虽然不同但是要认识的对象是同构的。但是,如果当初满足于这个定理的书本上的证明,我是不可能对它挖掘得这么深,也不可能认识到这些东西的。这里我还是要对以北大版高等代数为代表的教材提一些意见。可能大部分人都认为,线性方程组是线性代数中最易懂最易理解的部分,学生又有中学解多元一次方程组的基础知识,线性方程组又可以引申出线性代数的诸多内容,因此是最适合用于大学一年级学生入线代之门的内容。但是这样做有两个问题:一个是如果只提方程组,学生无法想象它的几何形象,学生学习时头脑中形成的往往只是变动的符号,不利于深入理解线性代数,更不利于发挥想象力去主动发现知识。如果说当学生学到线性空间、线性变换的时候自然会学习到这些几何观念,那么在线性方程组之后,线性空间和线性变换之前,还要学习矩阵理论,同样是没有几何直观,并且比方程组更难理解,到了线性空间的时候学生已经云里雾里了,哪里还有信心去学习接下来的东西?李炯生版线性代数的前言部分说,“研究线性空间以及线性空间关于线性变换的分解即构成了线性代数的几何理论,而研究短阵在各种关系下的分类问题则是线性代数的代数理论。”那么到底是先代数后几何,还是先几何后代数,还是二者同时进行?如果先代数后几何,就像在没有学习平面几何的时候学习解析几何,并且要预先学习曲线方程的性质,不见曲线只见方程,等把方程的性质在代数上讨论清楚了,再带你认识它们实质上的几何形象,再用这些方程的性质简单推导出几何的性质。但这是一个非常糟糕的学习方式。更糟糕的是一些理工科专业线性代数学得更浅,甚至只学到矩阵部分,只记住了矩阵的运算等莫名奇妙的符号在头脑中搬来搬去,至于为什么那么计算,学过之后考高分的学生也不知道。这里有孟岩的三篇csdn博文为证,尤其是博文开头几段话,道出了一般理工科学生的疑问。理解矩阵(一)理解矩阵(二)理解矩阵(三)另一个问题是,这样的组织缺少发展理论框架的动机,为什么要引入线性相关,线性无关,为什么要讨论矩阵?为什么有了消元法还要讨论行列式和 Cramer 法则?如果都是以解方程为目的,这些内容统统没有动机,只要一个消元法,最后能够写出通解形式,就够了。似乎矩阵、向量空间等内容都是方程组问题生发出来的,研究它们又有什么用途?这些问题开始不讲清楚,学生厌学,到后续课程真正用到这些知识的时候后悔莫及。因此,我主张不论是编写教材,还是老师讲授,学生学习,都应该起点底,观点高,让学生可以从各个不同方向去“围攻”一个问题,从各种不同的角度去看待一个知识,即使只是为了讲代数,几何方面的直观思想和动机也要讲清楚,甚至这些更为重要。不妨在讲解线性方程组的时候就开始讲讲方程组中蕴含的向量空间、线性变换等高级内容的道理,即不光讲高斯消元法等方程的传统内容,还要用线性变换那样的几何观点解释方程组解的结构等等问题,并用三维的几何图形(不妨用电脑中的数学软件或flash动画,至少是图片)来展示线性代数中那些概念背后的几何形象,使学生一开始就有丰富的几何代数经验,一开始就发现这部分数学的魅力。理解矩阵与矩阵乘积(一)线性代数中,有那么几个神秘又神奇的东西,总是让初学它的人琢磨不透,无法理解。今天讨论线性代数中第二个既基本又神奇的东西:矩阵的乘法。回想起我们中学的那个时代,从初中到高中,数学课的内容完完全全是初等数学,纯粹的向量思想在数学课上不占有一席之地,中学阶段只有学习物理或复数的时候才能接触一点向量的身影。即使在最应该体现向量思想威力的地方,也因为只讨论二维的简单情形而省略掉了,只剩下纯粹的从几何角度推导代数性质,比如,直线方程,不是用向量法推导直线方程的一般形式,而是用定比分点;两直线垂直的条件,不是用向量内积为零,而是通过斜率的关系,等等。在中学唯一能够从数学课本中接触到的线性代数知识就只有一点点的行列式的简介,从解二元和三元一次方程组引入的行列式,而且属于选学内容,课堂上是不讲的。我当时看了看,觉得真是多此一举,既然一次方程组的解都已经用系数的符号表示出来了,为什么还要用行列式重新表示一遍?表达的内容没变,只是换了一套看上去工整漂亮的写法,有什么意义呢?在这样的背景下,我进入大学,接触到一门蛮不讲道理的学科高等代数。本来高中时看到用行列式表示方程的解已经够无聊了,到大学还要把这种无聊继续深入下去。为了一个小小的方程组,不惜动用人类最高的智商来创造一个个精致的概念,又是逆序数又是行列式,又是克莱姆法则,倒是得到了一个很漂亮的结果,但它到底有多少实用和理论的价值?后来矩阵被定义出来了,那更是个无聊的东西,方程组还是原来那个方程组,只是把系数和未知数一分离,马上就出现了一个新的概念矩阵。难道就非得把系数单独抽取出来变成矩阵的形式才能用高斯消元法解方程?它不就是方程之间加加减减的过程吗,即便带着未知数又能有多大的妨碍呢?带着未知数就不能讨论方程组的通解了?还定义矩阵的乘积,又把方程组写成一个矩阵和一个向量的乘积,我当时觉得实在是吃饱撑的!方程组还是那个方程组,换一种写法有什么不同?我思考它的时候还是需要把它还原为方程组的样子,倒是费了二遍力。是谁第一个引入了矩阵的概念?他的原始动机到底是什么?他似乎只是为了形式上的化简,并没有引入什么新的观念。但是巧的是这个人的一个无聊发明,竟然发展出一门学科来!不光方程组可以归结为矩阵的乘积,就连二次曲线、二次曲面,也表示成矩阵乘积了,矩阵和它们的乘积系统慢慢地脱离了方程组的范围,开始向其它方向渗透了,并且充斥了数学的大部分江山。这一切是为什么?难道这一切都在矩阵发明者的预料之中?如果发明矩阵的人意识到矩阵将来必有这些重大作用,那么他是怎么想到矩阵的这些应用的?他真的如此天资聪明?如果不是这样,那他为什么要发明矩阵这个东西?难道仅仅是偶然?可是这偶然之举为什么后来又如此巧合地展开出这么多理论?这些问题至今还是想不通。但是今天的话题只是讨论矩阵和矩阵乘积,所以刚才把话题扯远了。每当想起大一时的代数课,我都要发一些牢骚,可见当时代数给我的影响有多深远!关于矩阵乘积,比较老旧思想的教材不介绍矩阵乘积有什么意义,为什么要引入矩阵的乘积,只是叙述无端的定义:两个矩阵 的乘积定义为一个 阶矩阵 C,C 的第 i 行第 j 列的元素是 A 的第 i 行和 B 的第 j 列元素分别相乘并相加的和,即 稍微好一点的教材会介绍一些线性映射复合的背景:有三组未知数 、 和 ,用 表示 的系数矩阵为 ,用 表示 的系数矩阵为 ,即 那么怎样用 来表示 ? 经过计算, 的第 i 个分量 可以写成 即 表示成未知数组 的第 j 个分量 的系数是 因此定义两个矩阵 和 的乘积如上所述。第一种讲述就是从第二种讲述的思想方法来的,却连定义的背景和来历什么的都没有讲,这显然是十分唐突的。况且这两种矩阵乘积定义的讲述都只是蛮力运算,如果只是为了定义出矩阵乘法的表达式,这两种讲述方式尚可接受,尤其是第二种讲法,提及了矩阵乘法就相当于两个线性变换的复合。但是接下来,要接触到矩阵乘法的更深层次的规律时,这样定义出的矩阵乘法就显得有些奇怪了。比如,证明两个矩阵乘积的秩定理 ,乘积 的每一列都是 的每一列的线性组合,每一行都是 的每一行的线性组合,从而证明这个不等式。但是,请问您是怎么从一大堆数的计算式子中看出这些关系的?我为什么就没看到?我不但没有看到,就算人家给我指出这种关系,我要想看清这些关系还是要费九牛二虎之力的。如果一个东西我理解起来感觉吃力,那么我会本能地考虑是否是我理解它的方式有问题,它应该还有另外一些更省力的理解途径,或者说,这个东西缺乏直观,如果我能直观地理解它,那么我就可以接受它。所以我想,还是应该有更加便捷的途径可以得到这些关系。其实这个不等式如果从映射复合的值域维数角度看应该是比较简单的,可惜的是当初除了矩阵,没有其它方式可以导出这个结果,向量空间的内容还没有学习到。再比如,矩阵的分块乘法,为什么分块之后乘法的规则和把每一块看成数的乘法规则是一样的?又比如,学过内积的坐标计算表达式后,学生会惊奇地发现,矩阵乘法的每个元素都是一个内积,为什么会是这样?内积和矩阵乘法之间为什么会有这么大联系?面对这些问题,我知道很多人,包括很多老师都会告诉我,这些都是计算的结果,计算的过程书上写的明明白白,没必要去深究它背后有什么机理,只要能够确信这些结论,不用去管这些结论是如何得到的。但是,我总是觉得,这样的推辞无异于填鸭式教育,蛮不讲理,让人生厌,甚至可能把一个曾经喜爱数学的人搞得从此厌恶这样的无理数学。因为第一,这些东西显得过于巧合了,计算无法解释这些巧合背后是否有更深层次的原因;第二,即使是计算得来的,还是无法解释这些计算的动机是什么,这些计算的结果是如何发现的?总应该有个自然点的理由能够说明为什么某人会去考察这些计算过程并得出结论的吧?总不能说一个人某一天没什么事情闲得无聊了就开始算,然后就发现了某些东西吧?他为什么就能看得那么远就知道他计算的东西最终能带给他不平凡的结果?告诉我一个东西却没有告诉我这个东西是如何发现的,那我怎么能有信心沿着前人的足迹向前探索呢?今天分析当初的困难,多是因为没有整体思维,无法把矩阵当成一个整体来思考,见到向量可以想到那是空间中的一个箭头,但见到矩阵和矩阵乘法,完全想象不到它的整体是个什么东西,我只能想到它的每个元素就是一堆数经过一堆运算得到的结果。看到书上写的矩阵乘法,我的头脑里就出现了它的运算过程的动画:左边一横,右边一竖,左边一横,右边一竖,除此之外想象不到其他的东西了。听说某位数学家摆弄矩阵就像摆弄整数一样熟练,我当时也试图找到把矩阵当成一个整体的感觉,可是在没有空间直觉支持的情况下这种努力是见不到明显效果的。而且从前思考的都是低维空间的问题,对一维二维空间很熟悉,很少考虑高维空间的问题,对高维空间即不熟悉也不习惯,又没有外人指点矩阵代数究竟有什么几何意义,即使是在低维空间中,也没有用矩阵处理几何问题的经验,所以当时一直冷落代数。现在觉得,为了培养高维空间对象的整体思维方式,一方面就是加强代数的几何直观,另一方面就是站在变换的角度统一抽象地处理矩阵,而不是仅仅把矩阵只当成一堆数的阵列,用线性变换的观点认识矩阵乘法,而不是把矩阵乘法当成一堆数又乘又加的运算。基于这种原因,我们将以映射的观点重新认识矩阵与矩阵的乘法。(二)本篇有些内容是孟岩理解矩阵(三)中观点的严密化与深化。数域 上的两个向量空间 到 的一个映射 ,若保持加法和数量乘法,即满足 则称 为线性映射。矩阵及矩阵的乘法与线性映射有十分重大的联系。为了看清这一点,我们采取以下步骤:一、从一维空间谈起显然,数域 本身可以看作 上的向量空间,记做 ,并且, 上的任何一个一维的向量空间 都同构于 ,即取定 的一组基底 后, 中的任何向量都可以唯一地表示为 的形式,因此 中的向量与 中的向量是一一对应的。我们把 称作 上一维向量空间的坐标系统。上的两个一维向量空间 和 之间的一个线性映射 ,在分别取定 和 上的基底 与 之后,因此 。设 ,则 。这样,在两个一维向量空间的坐标系统之间就衍生出一个线性映射 ,我们要研究前述的两个向量空间,只需要研究它们的坐标系统 ,要研究前述两个向量空间之间的线性映射,只需要研究它们坐标系统之间的线性映射 ,因为它们是一一对应并且性质相同的。空间是由基底 1 张成的向量空间,那么根据上面的论述, 到 的任何一个线性映射 都有 中的唯一一个数 使得 ,并且任何一个数 ,都唯一地确定一个线性映射 。因此,我们可以说, 中的数与一维空间之间的线性映射是一一对应的。怎么看待 和 这样一对数的乘法呢?针对以后推广到高维空间的情形,我们总结以下几点:1) 我们可以说 本身是 中的一个向量, 是 中的一个数,代表一个线性映射,那么 这样的乘法就是一个线性映射 作用在向量 上得到的像,并且,如果另一个线性映射 ,那么 ; 2) 但是, 本身也是 ,所以也可以看成 中的一个向量,它跟 并没有什么本质的区别,在表达式 中,二者唯一的区别就是 是固定不变的,而 是变量,但只要脱离映射 的语境,二者是对称的,因为根据乘法的交换律 ; 3) 既然二者是对称的,那么完全可以把 当作变量而把 当作对 的映射,这样的映射是从 到 的映射:自变量是 ,代表一个线性函数,它的像是 ,是 中的一个数; 4) 如果 ,那么线性映射 是个可逆的映射,有逆映射 。在这个时候,作为 中的向量 可以看作新的参考系(即坐标系,或基底),如果在这个新的基底下某个向量的坐标为 ,那么在原来基底 1 下,同一个向量的坐标就是 。这样, 和 可以看作某个向量的新坐标与原坐标之间的转换函数。二、多维到一维的映射设 是数域 上的 n 维向量空间, 到 的线性映射称为 上的线性函数。取定 的一组基底 之后, 中的向量一一对应于 中的向量。同一维情形类似,我们也可以用 的坐标系统 代替 本身。 上的一个线性函数 同样也衍生出一个 到 的线性映射。因此我们可以看 上的线性函数。是由基底 张成的,现要计算 上的线性函数 的表达式。 上任何一个向量 , 有 这个算式每一项中,都有一部分是常量,即 ,是跟随线性函数 而变化的数,它们可代表 本身;另一部分是变量,对应于 的分量 ,可代表自变量。我们把这两部分分开书写,定义一个行向量和一个列向量的乘积是它们每个分量分别相乘并把结果相加,如下: (为什么这里定义的是一个行向量和一个列向量相乘?为什么不规定成两个行向量或两个列向量相乘?这个要等到考察多维到多维的映射的时候才能看出一些端倪来,因为这样定义之后,横着的行向量将总可以看成一个映射,而纵向的列向量通常就是定义域或值域空间中的向量,只有在特殊的情况下它们才互相转化。) 设 ,那么 就可表示为 这样,与一维情形类似, 中的任何一个线性函数都与一个 n 维的行向量一一对应。那么怎么看待多维行向量 与列向量 的乘积呢? 1)与一维的情况类似,列向量 是定义域中的一个向量,行向量 代表一个多维空间 到一维空间 的映射,这种映射称为 上的线性函数。 上的所有线性函数构成一个向量空间,记为 或 ,称为 的对偶空间。显然,它也是 n 维的,与 的维数相同。 上有一组自然的基底: 即第 i 个基底的第 i 个坐标分量是1,其它分量是0。这组基底是什么意义呢?显然 代表一个线性函数,且满足 。即第 i 个基底 把 的第 i 个基底向量映射为1,其它基底向量映射为0。 2)与一维对一维的映射不同,这时的 是个 n 维的行向量,这些行向量可以和定义域 中的向量一一对应,而值域只有一维,所以 作为 n 维向量无法看成值域中的元素。但是, 的每个分量却是值域中的元素,其第 i 个分量可以看成 。 既然 n 维的行向量可以与 中的向量一一对应,那么 所对应的向量 就依然与 没有本质区别。对于 中的两个向量 ,定义记号 ,那么 , 与 依然是对称的。 3)从这个意义上讲,第一,我们可以把映射 当作自变量而把 看成是这个映射的线性函数,这样 中的每一个向量就可以看作是它的对偶空间 上的线性函数;第二, 定义了两个向量的乘积,乘积的结果是一个数。当 是实数域时,这个乘积就是内积,当 是复数域的时候,这样的乘积只是个对称双线性函数。 4)因为映射的值域与定义域维数不等,所以映射不是可逆的,因此也就没有坐标变换之说。但是,如果 ,即 的分量不全为零,那么 就是对 中向量的一种投影测量,它很像我们三维空间中的高度,知道了一个物体的高度,虽然不知道这个物体确切位置如何,但是我可以知道这个物体下落到地面重力做了多少功。这部分内容涉及到的内积与双线性函数的一些认识可能要留待以后去阐述了。三、多维到多维映射基于前面所述的一些原因,我们只需看 到 的线性映射 ,和前面一样的推导过程,可知 其中 是 中的一组基底, 是 在这组基底下的坐标。如果在 中也取一组基底,那么每一个向量 也有一组坐标,我们把这些坐标也写成列向量的形式,那么 是这些列向量的线性组合,它也是列向量的形式。 定义 阶矩阵与一个 n 维列向量的乘积是这个矩阵列向量的线性组合: 其中 是矩阵的第 i 列向量。 设 ,那么 的表达式可写成 这个表面上看跟前述多维到一维的映射的矩阵表达式没什么不同,但是唯一的区别就是这里的每一个 都扩展成了一个 m 维的列向量,因此 组成的实际上是一个 阶矩阵,我们用 指代这个矩阵。怎么看待 这个表达式呢? 1)与前述观点完全雷同,矩阵 代表一个线性映射, 代表自变量,是一个向量。 2) 的每一个列向量是值域中的一个向量,这些列向量张成了值域空间。那么, 的每个行向量呢?它们每一个都是定义域到一个一维向量空间的映射。我们把 的第 i 个行向量记为 ,经过简单的计算推导容易看出, 的表达式也可以写成如下形式: 因此, 相当于只取了 的第 i 个分量,所以它是 到 中第 i 个基向量张成的一维子空间的映射。可以很容易地理解, 即可以看成是 各个列向量的线性组合,其每个分量又可以看成是 的每个行向量与 的乘积。 3)如果考虑到 与 的对称性,把 看成是 上的线性函数,那么, 可以看作 我们也把它看成 的同类,得到一个 对偶空间上的线性函数。后面我们会看到,这将导出 ,只是现在还没有定义矩阵与矩阵的乘法。 4)如果 是 到自身的映射,并且 ,那么 可以构成 的基底,那么 可逆,且如果一个向量在基底 下的坐标为 ,那么在 下的坐标就是 。(三)四、线性映射的复合我们已经定义了行向量与列向量的乘法和矩阵与列向量的乘法,现在还差矩阵与矩阵的乘法没有定义。而矩阵与矩阵的乘法要与线性映射的复合联系起来。设 、 和 分别为 r 维、n 维、m 维向量空间。 和 分别是 到 和 到 的线性映射,那么易证两个线性映射的复合 也是线性映射。取三个向量空间的基底,那么三个向量空间就有了坐标系统,如果知道了 和 在坐标系统下的表达式,即按前面所述,知道了它们对应的矩阵:,其中 为 阶矩阵, 为 阶矩阵,那么 对应的矩阵是什么呢?依据直观的推导,好像 对应的矩阵就是 两个矩阵的乘积,但是,我们目前并没有定义它们的乘积是什么,所以最后一个等号目前来讲还是没有意义的。那么,我们就以求两个线性映射的复合映射所对应的矩阵为目的,定义两个线性映射的复合所对应的矩阵就是这两个映射对应矩阵的乘积,那么这个乘积如何来求呢?我们前面已经知晓,一个线性映射 对应的矩阵,其列向量就恰好等于 在值域坐标系中的坐标,那么我们只需求出这些坐标,就相当于求出一个线性映射的矩阵了。 中的基底 在线性映射 的作用下映射到 中,根据 对应矩阵 的意义,相应的 在 中的坐标值就应该是 的各个列向量 ,然后,这些向量再经 映射到 ,它们的像在 坐标系中的坐标就应该是 ,也就是说, 中的基底 在 作用下的像在 中的坐标就是 ,把它们作为列向量组成一个矩阵,这就是线性映射 对应的矩阵。基于以上论述,定义两个矩阵 的乘积 如下: 其中 为 的列向量。这样的定义使得 成立,因此,矩阵乘法满足结合律: 还有,我们看 的每个列向量的组成情况,它的的每一列都是 ,根据矩阵与列向量的乘法定义,它是 的列向量的线性组合,组合系数是 的分量。这是从列向量的角度分析矩阵乘法得到的结果,我们还可以从行向量角度分析矩阵乘法。 前面对矩阵行向量的意义已经说明,每个行向量都是定义域到值域的一维子空间的映射。那么我们分析一下 的行向量都对应什么映射。 其中, 是 的行向量。可见, 的第 i 个行向量对应的映射是 的第 i 行映射对应的映射与映射 的复合,即第 i 行是 。怎么看待这样一个乘积呢? 前面在”三、多维到多维映射”中3)节讨论的时候我们曾与这样的乘积擦肩而过,因为那时还没有定义矩阵之间的乘积,所以当时没有正式提出这个乘积的实质。现在接着那一节的观点讨论,取 与 和 的含义同”三.3)”节所述,因为 所以 那么回到本节内容,看 这个行向量 与矩阵 的乘积的意义。因为 ,而 的每一列都是 每一列的线性组合,组合系数是 的各个分量,那么 的每一行都是 每一行的线性组合,组合系数是 的各个分量。五、矩阵的转置为了从映射的角度了解一下矩阵转置的背景,首先看映射的转置。设 是向量空间 到 的线性映射,定义对偶空间 到 上的线性映射 为 的转置映射。设 ,因为 中的向量都是 上的线性函数,所以按照表示映射的惯例把它相对于对偶基的坐标写成行向量 ,即 。 因为 ,所以 把 映射成 ,又因为 ,所以如果按照表示向量和向量映射的惯例,可以把 中的向量 和 中的向量 写成列向量,那么线性映射 对应的矩阵就是 。对于 n 维列向量的线性映射,是通过左乘列数为 n 的矩阵来实现的,而对于 n 维行向量的线性映射,是通过右乘行数为 n 的矩阵来实现的。现在证明矩阵乘积的转置的公式 。可以有两种方式,一种是根据矩阵乘积的定义: 另一种是根据转置映射的定义: 六、矩阵分块的实质把一个矩阵分块,每一块都是一个小矩阵,那么这些小矩阵代表的是什么映射,它们跟原来的矩阵代表的映射又有什么关系?首先分析对矩阵行的分割,设 是向量空间 到 的线性映射 所对应的矩阵,把 的行进行分块,分成行数分别为 的 r 块:它的每一块 相当于只取 的一部分坐标,也就是 相当于 到 的一个 维子空间的映射。如果我们把 中前 个基底张成的空间记为 ,把接下来的 个基底张成的空间记为 ,那么 向量 向某个 的投影记为 ,那么任何一个向量 可以唯一地表示为 即 每一块 是 到 的映射 对应的矩阵。它们的和就是整个的映射 : 接着分析对矩阵列的分割,设 是向量空间 到 的线性映射 所对应的矩阵,把 的列进行分块,分成列数分别为 的 s 块:每一块 相当于 限制在 的 维子空间 上的映射所对应的矩阵。如果构造即 只保留 中 那一块的元素不变,其它位置的元素都置零,那么 对应的映射就是 。显然有把 、 都按照上面的方式分解成子空间的直和,并注意到 和 那么与矩阵联系起来, 这个乘积矩阵的第 i 个行块与第 j 个列块的交汇处的那个小矩阵所对应的映射是 到 的线性映射,这个线性映射就是 (思考:请解释这个映射分解法的几何意义!),而这个映射的矩阵就是这个式子中的映射所对应的矩阵块的相应运算。把每一个空间分解到一维,那么这个过程就是一般教材中计算矩阵 的各个元素的过程。2011年1月8日注:这种观点有一个图表示意,详见文章图示矩阵分块乘法