PCA(一)—-PCA简介
回家前终于用latex写了半篇,虽然很幼稚,但不失为一个进步。
\documentclass[a4paper,12pt]{article}
\usepackage{times} % 使用 Times New Roman 字体
\usepackage{CJK,CJKnumb,CJKulem} % 中文支持宏包
\usepackage{color} % 支持彩色%——————————–其他宏包——————————–
%\usepackage{amsmath,amsthm,amsfonts,amssymb,bm} % 数学宏包
%\usepackage{graphicx,psfrag} % 图形宏包
%\usepackage{makeidx} % 建立索引宏包
%\usepackage{listings} % 源代码宏包%———————————正文———————————–
\begin{document} % 开始正文
\begin{CJK*}{GBK}{song} % 开始中文环境\author{Haitao} % 作者
\title{PCA(一)—-PCA简介} % 题目
\maketitle % 生成标题PCA(Principal component analysis ),主成分分析(主元分析),主要用来对数据进行降维。对一个$n\times p$的矩阵X,n表示观察的样本,比如第i行表示第i次观测的结果。p表示数据的特征数。在p很大
也就是特征很多的时候,我们很难看出观察数据与特征之间的关系。如果我们可以在数据信息尽量不损失的
情况下,将p个特征转化为k($k\ll p$)个特征,那么这将为我们处理数据带来极大的帮助。PCA就是这样一种技术。
它将数据从p维空间减少的k维空间($k\ll p$),而数据的信息尽量不损失。
PCA是怎样做到这一点呢?考虑对X(假设X已经中心化)做SVD分解:
\begin{equation}
X=UDV^{\rm T}
\end{equation}
\\其中,X是$n\times p$的矩阵,U是$n\times n$的正交阵($U^{\rm T}U=I$)。V是$p\times p$的正交阵($V^{\rm T}V=I$)。D是$n\times p$的对角阵,$D=diag(d_1,d_2,d_3,\ldots ,d_r)$,$d_1 \geq d_2\geq d_3\geq \ldots \geq d_r\geq 0$。
数据X的信息可以用D中对角线元素来表示,设$D_k$表示D中前k个对角线元素的平方和,$D_r$表示D中所有对角线元素的平方和,那个它们的比值$D_k/D_r$
表示前k个对角线元素所代表的信息占数据矩阵X的信息的比重,记为PEV(percentage of explained variance )。显然这个比值越大代表的信息越多,信息损失也就越小。由于$d_1 \geq d_2\geq d_3\geq \ldots \geq d_r\geq 0$,而且在通常情况下前面的几个元素远大于后面的元素,假设前面几个非常大的对角线元素的个数为k,也就是说$d_1,d_2,d_3,\ldots ,d_k$都很大,$d_k+1,d_2,d_3,\ldots ,d_r$远小于前面k个对角线元素,那么我们就可以将后面的这些忽略不计,记为0,而此时PEV值仍然很大,接近于1,因此我们成功地将p维数据降到k维空间上,
而且通常$k\ll p$。
PCA将原来的p个特征转化为k($k\ll p$)个特征,为以后数据分析提供了很好的条件。假设我们取k个主元,对X做SVD分解为:
\begin{equation}
X=UDV^{\rm T}
\end{equation}
\\其中,X是$n\times p$的矩阵,U是$n\times k$的正交阵($U^{\rm T}U=I$)。V是$p\times k$的正交阵($V^{\rm T}V=I$)。D是$k\times k$的对角阵,$D=diag(d_1,d_2,d_3,\ldots ,d_k)$,$d_1 \geq d_2\geq d_3\geq \ldots \geq d_r\geq 0$。
对(2)做进一步转化:
\begin{equation}
XV=UD
\end{equation}
其中,UD称为主成分、主元(Principal component ),用PC表示。V称为loadings。
\end{CJK*} % 结束中文环境
\end{document} % 结束正文
下面是生成的pdf。
Keep talking