Principal Component Analysis

종류

  • Supervised feature selection: information gain, stepwise regression, LASSO, Genetic algorithm, many more…
  • Supervised feature extraction: Partial least squares (PLS)
  • Unsupervised feature selection: PCA loading
  • Unsupervised feature extraction: Principal component analysis (PCA), Wavelets transforms, Autoencoder

개요

  • 고차원 데이터를 효과적으로 분석하기 위한 대표적 분석 기법
  • 차원축소, 시각화, 군집화, 압축

  • PCA는 n개의 관측치와 p개의 변수로 구성된 데이터를 상관관계가 없는 k개의 변수로 구성된 데이터 (n개의 관측치)로 요약하는 방식으로, 이 때 요약된 변수는 기존 변수의 ‘선형 조합’으로 생성됨

  • 원래 데이터의 분산을 최대한 보존하는 새로운 축을 찾고, 그 축에 데이터를 사영 Projection 시키는 기법
  • 주요 목적
    • 데이터 차원 축소 (n by p -> n by k, where k « p)
    • 데이터 시각화 및 해석
  • 일반적으로 PCA는 전체 분석 과정 중 초기에 사용

z1 = a1X = a11X1 + a12X2 + … + a1pXp

z2 = a2X = a21X1 + a22X2 + … + a2pXp

zp = apX = ap1X1 + ap2X2 + … + appXp

X1, X2, Xp : 원래 변수

ai i 번째 기저 basis 또는 계수 loading

Z1, Z2, … , Zp 각 기저로 사영된 변환 후 변수. 주성분, score

분산을 최대화할 수 있는 사영 축을 찾는다

시간 16:33~ 본론

다변량 데이터에 대해서,

평균, Covariance(공분산, 분산), Correlation(스케일링한 covariance라고 보면 됨) 행렬을 구할 수 있다

분산의 곱을해서 제곱근으로 나누면 correlation을 알 수 있다