별의 공부 블로그 🧑🏻‍💻
728x90
728x170

데이터 분석 : 통계 분석 - 상관 관계를 이용하는 다변량 분석

상관 분석

상관 계수의 이해

  • 상관 계수는 두 변수의 관련성의 정도를 의미함. (-1 ~ 1의 값으로 나타냄)
  • 두 변수의 상관 관계가 존재하지 않을 경우 상관 계수는 `0` 임.
  • 상관 관계가 높다고 인과 관계가 있다고 할 수는 없음.
  • 피어슨 상관계수스피어만 상관계수가 있음.
    • 피어슨 상관계수는 두 변수 간의 선형적인 크기만 측정 가능함.
    • 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있음.
  • R의 cor.test() 함수를 사용해 상관 계수 검정을 수행하고, 유의성 검정을 판단할 수 있음.
    • 귀무 가설 : '상관계수가 0이다.'
    • 대립 가설 : '상관계수가 0이 아니다.'

 

스피어만(Spearman) 상관 계수

  • 대상 자료는 서열 척도 사용
  • 두 변수 간의 비선형적인 관계를 나타낼 수 있음.
  • 연속형 외에 이산형도 가능함.
  • 스피어만 상관 계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 함.
  • 두 변수 안의 순위가 완전 일치하면 1, 완전 반대이면 -1
  • 예) 수학 잘하는 학생이 영어도 잘하는 것과 상관있는지 알아보는데 사용될 수 있음.

 

피어슨(Pearson) 상관 계수

  • 대상자료는 등간 척도, 비율 척도 사용 
  • 두 변수 간의 선형적인 크기만 측정 가능
  • 피어슨 상관계수 : `x, y` 의 공분산을 `x, y` 의 표준 편차의 곱으로 나눈 값
    • `\text{corr}(x, y) = {cov(x, y)} / {σ_{x}σ_{y}}`
  • 응답자1의 표준편차 2, 응답자2의 표준편차 2, 두 응답자의 공분산 값 4 이면 피어슨 상관계수(p) = 4 / (2 * 2) = 1

 

공분산(Covariance)

  • 2개의 확률변수의 선형 관계를 나타내는 값
  • `\text{cov}(x, y) = {\sum_{i=1}^{n}(x - \bar{x})(y-\bar{y})} / {n}`
  • 하나의 변수가 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양의 공분산을 갖음.
  • 공분산이 0이면 서로 독립이며, 관측값들이 4면에 균일하게 분포되어 있다고 추정할 수 있음.

 

상관 분석의 예

  • 귀무 가설 : 상관 계수가 0이다.

 

차원 축소 목표를 위해 개발된 분석 방법

방법 설명
주성분 분석
(Principal Component Analysis, PCA)
공분산 행렬 또는 상관 계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
요인 분석
(Factor Analysis)
수집된 자료에 유사한 변수들이 많이 포함되어 있을 경우 변수에 포함되어 있는 정보를 가능한 유지하면서 변수의 수를 줄여 차후의 분석을 용이하게 하는 데 사용되는 기법
판별 분석
(Discriminant Analysis)
분류된 집단간의 차이를 의미있게 설명해 줄 수 있는 독립 변수들로 이루어진 최적 판별식을 찾기 위한 통계적 기법
군집 분석
(Cluster Analysis)
집단을 분류하는 기법으로, (동일) 집단이 (그) 집단 내에서는 유사성이 크고 (다른) 집단간에는 차이성이 (크게) 생기도록 분류하기 위한 통계적 기법
정준상관 분석
(Canonical Correlation Analysis)
회귀분석과 달리 통상 변수들에 대한 사전적인 정보가 부족할 때 사용하는 일종의 탐색적 분석 기법
다차원 척도법
(Multi-Dimensional Scaling, MDS)
케이스 간의 거리(Distance)를 바탕으로 이들 간의 관계 구조를 시각적으로 표현하는 통계 데이터 분석 기법

 

주성분 분석(PCA, Principal Component Analysis)

  • 데이터를 분석할 때 변수의 개수가 많다고 모두 활용하는 것이 꼭 좋은 것은 아님.
  • 오히려 변수가 ‘다중 공선성’이 있을 경우 분석 결과에 영향을 줄 수도 있음.
  • 공분산 행렬 또는 상관 계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
  • 상관 관계가 있는 변수들을 선형 결합에 의해 상관 관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화하는 변수로 축약함.
  • 주성분은 변수들의 선형결합으로 이루어져 있음.
  • 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화 함.

 

축을 회전화여 직교하는 성분으로 변환

 

주성분 분석 할 때 고민해야 하는 것

  • 공분산 행렬상관 계수 행렬 중 어떤 것을 선택할 것인가?
  • 주성분의 개수를 몇 개로 할 것인가?
  • 주성분에 영향을 미치는 변수로 어떤 변수를 선택할 것인가?

 

공분산 행렬(Default) vs. 상관 계수 행렬

  • 공분산 행렬(Covariance Matrix)
    • 변수의 측정단위를 그대로 반영한 것
    • 측정 단위를 그대로 반영하였기 때문에 변수들의 측정 단위에 민감함.
    • 설문조사처럼 모든 변수들이 같은 수준으로 점수화 된 경우 공분산 행렬을 사용함.
  • 상관 계수 행렬(Correlation Matrix)
    • 모든 변수의 측정단위를 표준화한 것
    • 변수들의 Scale이 서로 많이 다른 경우에는 상관 계수 행렬을 사용함.
    • 주성분 분석은 거리를 사용하기 때문에 척도에 영향을 받음. (정규화 전후의 결과가 다름.)

 

주성분 분석에서 상관 계수 행렬 사용

  • prcomp(data, scale=TRUE)
  • princomp(data, cor=TRUE)

 

주성분 결정 기준

기준 설명
성분들이 설명하는
분산의 비율
- 누적 분산 비율을 확인하면 주성분들이 설명하는 전체 분산 양을 알 수 있음.
- 누적 분산 비율이 70~90% 사이가 되는 주성분 개수 선택
고윳값(Eigenvalue) 분산의 크기를 나타내며, 고윳값이 1보다 큰 주성분만 사용함.
Scree Plot  고윳값을 가장 큰 값에서 가장 작은 값을 순서로 정렬해 보여줌. (1보다 큰 값 사용)

 

해석

  • Standard Deviation (표준 편차)
    • 자료의 산포도를 나타내는 수치
    • 분산의 양의 제곱근, 표준 편차가 작을수록 평균값에서 변량들의 거리가 가까움.
  • Proportion of Variance(분산 비율) 
    • 각 분산이 전체 분산에서 차지하는 비중
  • Cumulative Proportion(누적 비율)
    • 분산의 누적 비율
- 첫 번째 주성분 분석 하나가 전체 분산의 62%를 설명하고 있음.
- 두 번째는 24.7%를 설명하고 있음.
- 반대로 이야기 하면 첫 번째 주성분 부분만 수용했을 때 정보 손실은 (100-62) = 38%가 됨.
728x90
그리드형(광고전용)
⚠️AdBlock이 감지되었습니다. 원할한 페이지 표시를 위해 AdBlock을 꺼주세요.⚠️
starrykss
starrykss
별의 공부 블로그 🧑🏻‍💻


📖 Contents 📖