线性代数A矩阵乘以A的转置的含义或者几何意义我是在最小二乘法-查字典问答网
分类选择

来自李现明的问题

  线性代数A矩阵乘以A的转置的含义或者几何意义我是在最小二乘法和SVD分解这部分知识中看到的,非常的迷惑,而且为什么A的转置乘以A的特征值是和A乘以A的转置的特征值是相同的呢重分!

  线性代数A矩阵乘以A的转置的含义或者几何意义

  我是在最小二乘法和SVD分解这部分知识中看到的,非常的迷惑,而且为什么A的转置乘以A的特征值是和A乘以A的转置的特征值是相同的呢

  重分!

5回答
2020-02-06 17:23
我要回答
请先登录
蒋振刚

  (下面以A(T)表示A的转置.)

  先从奇异值说起.我个人的理解,奇异值是特征值的一种推广.因为只有方阵才可能具有特征值,对于实际遇到的一些问题(比如最小二乘问题),往往遇上长方阵,长方阵根本没有特征值.因而就有必要对特征值做推广,这就是奇异值.

  再看什么是奇异值.对于任意矩阵A(甚至是非方的),A(T)A(这个时候就变成方阵了,可以算特征值了)的特征值就称为A的奇异值.奇异值有个特性,就是A(T)A和AA(T)特征值相同.证明如下:

  【假定A(T)A做了一个特征分解,为:

  A(T)A=QΣQ(T)

  对上式取转置,有

  AA(T)=QΣ(T)Q(T)

  显然,Σ是个对角阵,因而,Σ(T)=Σ

  故而,AA(T)和A(T)A有完全一致的特征分解,即共特征值】

  再看特征值和奇异值的关系.对于长方阵来说,它根本不存在特征值,所以之后再讨论.对于方阵来说,容易证明,其所有奇异值恰好为其所有特征值的模长的平方(即奇异值全实非负),因而奇异值和特征值有相当良好的对应关系.证明如下:

  【假定方阵A有如下特征分

  A=QΣQ(T)

  则A(T)A=(QΣQ(T))(QΣQ(T))=QΣΣQ(T)

  因而,A(T)A的特征值,也就是A的奇异值,恰好为A的特征值的模长的平方】

  【当然,对于复数域情况,里边的T要改成H,那么前一个Σ自然会带上复共轭】

  再看奇异值为什么重要.我们知道,对于一个方阵来说,特征分解后,从特征值和特征向量我们就可以知道矩阵的大量性质.对于非方阵来说,我们也希望得到一个这样信息量巨大的分解,这就是奇异值分解(SVD).这个SVD分解里边左右奇异向量分别是什么你的书上肯定都有,就不写在这里了.

  最后看一下SVD分解和最小二乘的关系.我们知道,最小二乘有个解法,对于Ax=b的最小二乘问题,等价于求解其法方程A(T)Ax=A(T)b,这个时候就变成方阵的问题了.但是这种算法是不稳定的.一种更为有效的算法就是SVD分解并利用广义逆求解.

  看一下广义逆和最小二乘、SVD的关系.广义逆可以百度一下.定义有很多式子.但是,对于可逆阵来说,广义逆就是逆.这里把A的广义逆记作A(+).则Ax=b的最小二乘解就是x=A(+)b.所以,现在的问题就是,怎么求A的广义逆A(+).通过SVD分解,广义逆可以这么求:

  如果A有SVD分解如下:

  A=VΣU(T)

  则A(+)=UΣV(T)

  当然,这里叙述可能不那么严谨.因为还涉及到Σ的形状什么的,所以两个式子的Σ形状大小不一样,形状变了,补0就行.

  因此,SVD分解就完美解决了最小二乘问题.

  -----更正---------

  说错了一点点,奇异值不是特征值的模长的平方,它就是模长,因为奇异值要对Σ(H)Σ对角线开算术平方根.

2020-02-06 17:27:45
李现明

  那对于最小二乘法,为什么要在左右乘上A的转置进行求解呢?

2020-02-06 17:31:46
李现明

  那种解法称作“法方程”解法。相当于求得一个x,使得A(T)(b-Ax)=0,也就是残差与矩阵A行向量的内积为0,即残差与矩阵A的行空间正交,由投影定理,可以证明,此时残差二范数最小。以上就是法方程的几何意义。法方程的解恰好是最小二乘解还有其他更严格的证明,比如泛函式的证明。但是,法方程法不是最佳解法。一般较优解法是QR分解法以及广义逆法(配合SVD分解)。手机打字有些慢。要是还有问题可以追问,明天我电脑上再接着说。

2020-02-06 17:32:33
李现明

  QR分解如何做最小二乘法?

2020-02-06 17:34:04
蒋振刚

  QR分解确实可以做最小二乘。但是当时我没大学明白。后来我的最小二乘一直是用SVD+广义逆做的,所以我也搞不清楚了。

2020-02-06 17:35:30

最新问答

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

  • 大家都在看
  • 小编推荐
  • 猜你喜欢
  •