主成份分析
閱讀設定
主成份分析(粵拼:zyu2 sing4 fan6 fan1 sik1 | 英文:principal component analysis,PCA)係統計學上一種用嚟分析、簡化數據集嘅方法。PCA 幫到手由一柞數據嗰度,產生出「邊個成份喺用嚟分辨個案上比較有用」嘅資訊。
基本諗頭
[編輯]想像而家又有一柞個案,每個個案喺兩個變數上都有其數值(睇附圖),跟住可以畫兩條線(附圖嗰兩個箭咀),兩條線分別都可以用一條包含 同 嘅算式表達,當中由圖當中可以清楚睇到,長箭咀嗰條線成功噉捕捉更多嘅變異數-亦即係話長箭咀嗰條線所代表嗰個「成份」(component)比較能夠用嚟分辨啲個案,所以比較「重要」[1]。
舉個例說明,假想有柞新數據,啲個案係一隻隻動物,而每個個案一係就係隻老鼠,一係就係隻大笨象, 係隻動物嘅大細,而 係隻動物嘅色水;假設柞數據做咗標準化,用同一樣嘅單位表達 同 ,喺呢柞數據入面,沿「色水」嘅變異數好細(個箭咀會好短),因為老鼠同大笨象都係灰灰啡啡噉色嘅動物,但沿「大細」嘅變異數就會大得好交關(個箭咀會好長),因為老鼠同大笨象喺體型上差好遠-用 PCA 嘅話,會得出「用 作為重心線做分辨有用啲」嘅結果[2]。
喺最簡單嗰種情況下,一個做主成份分析嘅演算法大致上係噉[1]:
- 攞數據;
- 畫條線出嚟,條線有條式,而條式包含數據當中有嘅變數;
- 計出沿呢條線嘅變異數有幾多;
- 改變吓條線嘅參數(parameter);
- 再計出沿條新線嘅變異數有幾多;
- 一路做步驟 4 同 5,做嗮所有指定咗嘅可能性,最後俾具有最大變異數嗰條線做個演算法嘅輸出(最能夠用嚟分辨啲個案嗰條線)。
相關分析
[編輯]睇吓
[編輯]- ↑ 1.0 1.1 Jolliffe, I. T. (1986). Principal Component Analysis. Springer Series in Statistics. Springer-Verlag.
- ↑ Knowledge Representation in Neural Networks 互聯網檔案館嘅歸檔,歸檔日期2019年3月2號,. (PDF).
- ↑ Factor Analysis Vs. PCA (Principal Component Analysis) – Which One to Use? 互聯網檔案館嘅歸檔,歸檔日期2024年5月11號,.. Analytix Labs.
外拎
[編輯]- (英文) 乜嘢係主成份分析?,IBM SPSS