Archive

Archive for 二月, 2010

饥肠辘辘

二月 25th, 2010

饿晕了。吃完午饭肚子就饿了。晚上去超市,买个盆,买点泡面和鸡蛋。

饿了喝点水。生活真辛苦。

杂记

今天

二月 24th, 2010

换宿舍了,晚上搬回去。

终于办个寺庙卡,满世界的黑丝呀。

杭州的公厕可媲美星级宾馆的厕所了。

来杭州玩的美女真多呀。风景真好,赏心悦目。

杭州很漂亮,真的很漂亮。

杂记

我爱林依晨

二月 23rd, 2010

哦耶。
要回学校啦,早上九点十分的票,我想七点起来。
我真的很爱看美女耶,哦耶。
春节稍微胖了一点,不是太多,回学校努力锻炼身体。

未分类

我生病了

二月 15th, 2010

虎年的第一天开始发病。咳嗽,头疼,鼻塞,鼻涕。状态很不好。我需要静养两天,不焦不躁,少食事物,谢谢大家。我会好起来的。初七回学校,我要努力学习,谢谢大家。哈哈呼

杂记

虎年快乐

二月 14th, 2010

虎虎生威

未分类

农历十二月二十七

二月 10th, 2010

夜。在家。暴雨。雷。电。

杂记

新桥三四天

二月 9th, 2010

明天中午回家。先去丹阳买东西。有中雨。

杂记

我的近况

二月 8th, 2010

截止到二〇一〇年二月八号,身高一百七十二点五厘米,鞋高两到三厘米,体重八十点九公斤,没上厕所之前。这个数据还是让我比较开心的,谢谢体重记。

未分类

PCA(一)—-PCA简介

二月 7th, 2010

回家前终于用latex写了半篇,虽然很幼稚,但不失为一个进步。

\documentclass[a4paper,12pt]{article}

\usepackage{times}                       % 使用 Times New Roman 字体
\usepackage{CJK,CJKnumb,CJKulem}         % 中文支持宏包
\usepackage{color}                       % 支持彩色

%——————————–其他宏包——————————–
%\usepackage{amsmath,amsthm,amsfonts,amssymb,bm} % 数学宏包
%\usepackage{graphicx,psfrag}                    % 图形宏包
%\usepackage{makeidx}                            % 建立索引宏包
%\usepackage{listings}                           % 源代码宏包

%———————————正文———————————–
\begin{document} % 开始正文
\begin{CJK*}{GBK}{song}                           % 开始中文环境

\author{Haitao}                                 % 作者
\title{PCA(一)—-PCA简介}                                % 题目
\maketitle                                       % 生成标题

PCA(Principal component analysis ),主成分分析(主元分析),主要用来对数据进行降维。对一个$n\times p$的矩阵X,n表示观察的样本,比如第i行表示第i次观测的结果。p表示数据的特征数。在p很大
也就是特征很多的时候,我们很难看出观察数据与特征之间的关系。如果我们可以在数据信息尽量不损失的
情况下,将p个特征转化为k($k\ll p$)个特征,那么这将为我们处理数据带来极大的帮助。PCA就是这样一种技术。
它将数据从p维空间减少的k维空间($k\ll p$),而数据的信息尽量不损失。
PCA是怎样做到这一点呢?考虑对X(假设X已经中心化)做SVD分解:
\begin{equation}
X=UDV^{\rm T}
\end{equation}
\\其中,X是$n\times p$的矩阵,U是$n\times n$的正交阵($U^{\rm T}U=I$)。V是$p\times p$的正交阵($V^{\rm T}V=I$)。D是$n\times p$的对角阵,$D=diag(d_1,d_2,d_3,\ldots ,d_r)$,$d_1 \geq d_2\geq d_3\geq \ldots \geq d_r\geq 0$。
数据X的信息可以用D中对角线元素来表示,设$D_k$表示D中前k个对角线元素的平方和,$D_r$表示D中所有对角线元素的平方和,那个它们的比值$D_k/D_r$
表示前k个对角线元素所代表的信息占数据矩阵X的信息的比重,记为PEV(percentage of explained variance )。显然这个比值越大代表的信息越多,信息损失也就越小。由于$d_1 \geq d_2\geq d_3\geq \ldots \geq d_r\geq 0$,而且在通常情况下前面的几个元素远大于后面的元素,假设前面几个非常大的对角线元素的个数为k,也就是说$d_1,d_2,d_3,\ldots ,d_k$都很大,$d_k+1,d_2,d_3,\ldots ,d_r$远小于前面k个对角线元素,那么我们就可以将后面的这些忽略不计,记为0,而此时PEV值仍然很大,接近于1,因此我们成功地将p维数据降到k维空间上,
而且通常$k\ll p$。
PCA将原来的p个特征转化为k($k\ll p$)个特征,为以后数据分析提供了很好的条件。假设我们取k个主元,对X做SVD分解为:
\begin{equation}
X=UDV^{\rm T}
\end{equation}
\\其中,X是$n\times p$的矩阵,U是$n\times k$的正交阵($U^{\rm T}U=I$)。V是$p\times k$的正交阵($V^{\rm T}V=I$)。D是$k\times k$的对角阵,$D=diag(d_1,d_2,d_3,\ldots ,d_k)$,$d_1 \geq d_2\geq d_3\geq \ldots \geq d_r\geq 0$。
对(2)做进一步转化:
\begin{equation}
XV=UD
\end{equation}
其中,UD称为主成分、主元(Principal component ),用PC表示。V称为loadings。

 

\end{CJK*}     % 结束中文环境
\end{document} % 结束正文

下面是生成的pdf。

http://www.whtzju.cn/wp-content/uploads/2010/02/pca1.pdf

PCA, 学习笔记

放假了

二月 7th, 2010

行李里面还是准备放一本书。我就要装,不装我不踏实。

这次回去算是很轻松了。没什么要带的,东西也没整理,等早上起来弄弄就好了。

下午一点的车票。去以前的女朋友家。预计9号中午回家。

说点爱情,说点人生。我就是想的太多了。其实就这样。该怎么样就怎么样。我变得太快。最后连我自己都搞不清我自己。我乐于空想。

要回家了,呵呵。似乎不太想回家。电话也忘打了。

我的生活是怎么样的呢。我现在的生活还行吧。我随遇而安。以后的生活,我也不知道的。人生究竟是什么呢。我比较喜欢想,不怎么喜欢做。

想写一篇PCA的文章,我试试看。要是贴出来就是写出来了,没贴出来就是我睡觉了,然后我回去了。

杂记