跳去內容

主成份分析

出自維基百科,自由嘅百科全書

主成份分析粵拼zyu2 sing4 fan6 fan1 sik1 | 英文principal component analysisPCA)係統計學上一種用嚟分析、簡化數據集嘅方法。PCA 幫到手由一柞數據嗰度,產生出「邊個成份喺用嚟分辨個案上比較有用」嘅資訊。

基本諗頭

[編輯]
主成分分析嘅圖解;幅圖每一點代表一個個案,兩個箭咀代表兩個成份,長啲嗰個箭咀係比較重要嗰個成份。

想像而家又有一柞個案,每個個案喺兩個變數上都有其數值(睇附圖),跟住可以畫兩條線(附圖嗰兩個箭咀),兩條線分別都可以用一條包含 嘅算式表達,當中由圖當中可以清楚睇到,長箭咀嗰條線成功噉捕捉更多嘅變異數-亦即係話長箭咀嗰條線所代表嗰個「成份」(component)比較能夠用嚟分辨啲個案,所以比較「重要」[1]

舉個例說明,假想有柞新數據,啲個案係一隻隻動物,而每個個案一係就係隻老鼠,一係就係隻大笨象 係隻動物嘅大細,而 係隻動物嘅色水;假設柞數據做咗標準化,用同一樣嘅單位表達 ,喺呢柞數據入面,沿「色水」嘅變異數好細(個箭咀會好短),因為老鼠同大笨象都係灰灰啡啡噉色嘅動物,但沿「大細」嘅變異數就會大得好交關(個箭咀會好長),因為老鼠同大笨象喺體型上差好遠-用 PCA 嘅話,會得出「用 作為重心線做分辨有用啲」嘅結果[2]

喺最簡單嗰種情況下,一個做主成份分析嘅演算法大致上係噉[1]

  1. 攞數據;
  2. 畫條線出嚟,條線有條式,而條式包含數據當中有嘅變數
  3. 計出沿呢條線嘅變異數有幾多;
  4. 改變吓條線嘅參數(parameter);
  5. 再計出沿條新線嘅變異數有幾多;
  6. 一路做步驟 4 同 5,做嗮所有指定咗嘅可能性,最後俾具有最大變異數嗰條線做個演算法嘅輸出(最能夠用嚟分辨啲個案嗰條線)。

相關分析

[編輯]
  • 因素分析(簡稱 FA):同主成份分析幾似,都係講緊想減少手上嘅變數嘅數量(降維),主成份分析會將啲變數結合做佢哋嘅線性組合,而非好似 FA 噉將變數視為潛在變數嘅線性組合)[3]

睇吓

[編輯]
  1. 1.0 1.1 Jolliffe, I. T. (1986). Principal Component Analysis. Springer Series in Statistics. Springer-Verlag.
  2. Knowledge Representation in Neural Networks 互聯網檔案館歸檔,歸檔日期2019年3月2號,. (PDF).
  3. Factor Analysis Vs. PCA (Principal Component Analysis) – Which One to Use? 互聯網檔案館歸檔,歸檔日期2024年5月11號,.. Analytix Labs.

外拎

[編輯]