PCA

Principal Component Analysis

종류

Supervised feature selection: information gain, stepwise regression, LASSO, Genetic algorithm, many more…
Supervised feature extraction: Partial least squares (PLS)
Unsupervised feature selection: PCA loading
Unsupervised feature extraction: Principal component analysis (PCA), Wavelets transforms, Autoencoder

고차원 데이터를 효과적으로 분석하기 위한 대표적 분석 기법
차원축소, 시각화, 군집화, 압축
PCA는 n개의 관측치와 p개의 변수로 구성된 데이터를 상관관계가 없는 k개의 변수로 구성된 데이터 (n개의 관측치)로 요약하는 방식으로, 이 때 요약된 변수는 기존 변수의 ‘선형 조합’으로 생성됨
원래 데이터의 분산을 최대한 보존하는 새로운 축을 찾고, 그 축에 데이터를 사영 Projection 시키는 기법
주요 목적
- 데이터 차원 축소 (n by p -> n by k, where k « p)
- 데이터 시각화 및 해석
일반적으로 PCA는 전체 분석 과정 중 초기에 사용

z1 = a1X = a11X1 + a12X2 + … + a1pXp

z2 = a2X = a21X1 + a22X2 + … + a2pXp

zp = apX = ap1X1 + ap2X2 + … + appXp

X1, X2, Xp : 원래 변수

ai i 번째 기저 basis 또는 계수 loading

Z1, Z2, … , Zp 각 기저로 사영된 변환 후 변수. 주성분, score

분산을 최대화할 수 있는 사영 축을 찾는다

시간 16:33~ 본론

다변량 데이터에 대해서,

평균, Covariance(공분산, 분산), Correlation(스케일링한 covariance라고 보면 됨) 행렬을 구할 수 있다

분산의 곱을해서 제곱근으로 나누면 correlation을 알 수 있다