728x90
728x170
데이터 분석 : 통계 분석 - 상관 관계를 이용하는 다변량 분석
상관 분석
상관 계수의 이해
- 상관 계수는 두 변수의 관련성의 정도를 의미함. (-1 ~ 1의 값으로 나타냄)
- 두 변수의 상관 관계가 존재하지 않을 경우 상관 계수는 `0` 임.
- 상관 관계가 높다고 인과 관계가 있다고 할 수는 없음.
- 피어슨 상관계수와 스피어만 상관계수가 있음.
- 피어슨 상관계수는 두 변수 간의 선형적인 크기만 측정 가능함.
- 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있음.
- R의 cor.test() 함수를 사용해 상관 계수 검정을 수행하고, 유의성 검정을 판단할 수 있음.
- 귀무 가설 : '상관계수가 0이다.'
- 대립 가설 : '상관계수가 0이 아니다.'
스피어만(Spearman) 상관 계수
- 대상 자료는 서열 척도 사용
- 두 변수 간의 비선형적인 관계를 나타낼 수 있음.
- 연속형 외에 이산형도 가능함.
- 스피어만 상관 계수는 원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 함.
- 두 변수 안의 순위가 완전 일치하면 1, 완전 반대이면 -1
- 예) 수학 잘하는 학생이 영어도 잘하는 것과 상관있는지 알아보는데 사용될 수 있음.
피어슨(Pearson) 상관 계수
- 대상자료는 등간 척도, 비율 척도 사용
- 두 변수 간의 선형적인 크기만 측정 가능
- 피어슨 상관계수 : `x, y` 의 공분산을 `x, y` 의 표준 편차의 곱으로 나눈 값
- `\text{corr}(x, y) = {cov(x, y)} / {σ_{x}σ_{y}}`
- 응답자1의 표준편차 2, 응답자2의 표준편차 2, 두 응답자의 공분산 값 4 이면 피어슨 상관계수(p) = 4 / (2 * 2) = 1
공분산(Covariance)
- 2개의 확률변수의 선형 관계를 나타내는 값
- `\text{cov}(x, y) = {\sum_{i=1}^{n}(x - \bar{x})(y-\bar{y})} / {n}`
- 하나의 변수가 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양의 공분산을 갖음.
- 공분산이 0이면 서로 독립이며, 관측값들이 4면에 균일하게 분포되어 있다고 추정할 수 있음.
상관 분석의 예
- 귀무 가설 : 상관 계수가 0이다.
차원 축소 목표를 위해 개발된 분석 방법
방법 | 설명 |
주성분 분석 (Principal Component Analysis, PCA) |
공분산 행렬 또는 상관 계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법 |
요인 분석 (Factor Analysis) |
수집된 자료에 유사한 변수들이 많이 포함되어 있을 경우 변수에 포함되어 있는 정보를 가능한 유지하면서 변수의 수를 줄여 차후의 분석을 용이하게 하는 데 사용되는 기법 |
판별 분석 (Discriminant Analysis) |
분류된 집단간의 차이를 의미있게 설명해 줄 수 있는 독립 변수들로 이루어진 최적 판별식을 찾기 위한 통계적 기법 |
군집 분석 (Cluster Analysis) |
집단을 분류하는 기법으로, (동일) 집단이 (그) 집단 내에서는 유사성이 크고 (다른) 집단간에는 차이성이 (크게) 생기도록 분류하기 위한 통계적 기법 |
정준상관 분석 (Canonical Correlation Analysis) |
회귀분석과 달리 통상 변수들에 대한 사전적인 정보가 부족할 때 사용하는 일종의 탐색적 분석 기법 |
다차원 척도법 (Multi-Dimensional Scaling, MDS) |
케이스 간의 거리(Distance)를 바탕으로 이들 간의 관계 구조를 시각적으로 표현하는 통계 데이터 분석 기법 |
주성분 분석(PCA, Principal Component Analysis)
- 데이터를 분석할 때 변수의 개수가 많다고 모두 활용하는 것이 꼭 좋은 것은 아님.
- 오히려 변수가 ‘다중 공선성’이 있을 경우 분석 결과에 영향을 줄 수도 있음.
- 공분산 행렬 또는 상관 계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 주성분을 찾는 방법
- 상관 관계가 있는 변수들을 선형 결합에 의해 상관 관계가 없는 새로운 변수(주성분)를 만들고 분산을 극대화하는 변수로 축약함.
- 주성분은 변수들의 선형결합으로 이루어져 있음.
- 독립변수들과 주성분과의 거리인 '정보손실량'을 최소화하거나 분산을 최대화 함.
![]() |
축을 회전화여 직교하는 성분으로 변환 |
주성분 분석 할 때 고민해야 하는 것
- 공분산 행렬과 상관 계수 행렬 중 어떤 것을 선택할 것인가?
- 주성분의 개수를 몇 개로 할 것인가?
- 주성분에 영향을 미치는 변수로 어떤 변수를 선택할 것인가?
공분산 행렬(Default) vs. 상관 계수 행렬
- 공분산 행렬(Covariance Matrix)
- 변수의 측정단위를 그대로 반영한 것
- 측정 단위를 그대로 반영하였기 때문에 변수들의 측정 단위에 민감함.
- 설문조사처럼 모든 변수들이 같은 수준으로 점수화 된 경우 공분산 행렬을 사용함.
- 상관 계수 행렬(Correlation Matrix)
- 모든 변수의 측정단위를 표준화한 것
- 변수들의 Scale이 서로 많이 다른 경우에는 상관 계수 행렬을 사용함.
- 주성분 분석은 거리를 사용하기 때문에 척도에 영향을 받음. (정규화 전후의 결과가 다름.)
주성분 분석에서 상관 계수 행렬 사용
- prcomp(data, scale=TRUE)
- princomp(data, cor=TRUE)
주성분 결정 기준
기준 | 설명 |
성분들이 설명하는 분산의 비율 |
- 누적 분산 비율을 확인하면 주성분들이 설명하는 전체 분산 양을 알 수 있음. - 누적 분산 비율이 70~90% 사이가 되는 주성분 개수 선택 |
고윳값(Eigenvalue) | 분산의 크기를 나타내며, 고윳값이 1보다 큰 주성분만 사용함. |
Scree Plot | 고윳값을 가장 큰 값에서 가장 작은 값을 순서로 정렬해 보여줌. (1보다 큰 값 사용) |
해석
- Standard Deviation (표준 편차)
- 자료의 산포도를 나타내는 수치
- 분산의 양의 제곱근, 표준 편차가 작을수록 평균값에서 변량들의 거리가 가까움.
- Proportion of Variance(분산 비율)
- 각 분산이 전체 분산에서 차지하는 비중
- Cumulative Proportion(누적 비율)
- 분산의 누적 비율
- 첫 번째 주성분 분석 하나가 전체 분산의 62%를 설명하고 있음.
- 두 번째는 24.7%를 설명하고 있음.
- 반대로 이야기 하면 첫 번째 주성분 부분만 수용했을 때 정보 손실은 (100-62) = 38%가 됨.
728x90
그리드형(광고전용)
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 데이터분석준전문가 단원별 내용 정리 (0) | 2022.08.28 |
---|---|
[ADsP] 데이터 분석 : 정형 데이터 마이닝 (0) | 2022.07.03 |
[ADsP] 데이터 분석 : 통계 분석 - 시계열 예측 (0) | 2022.07.02 |
[ADsP] 데이터 분석 : 통계 분석 - 기초 통계 분석 (0) | 2022.07.02 |
[ADsP] 데이터 분석 : 통계 분석 - 통계학 개론 (0) | 2022.07.01 |
[ADsP] 데이터 분석 : R 기초와 데이터 마트 (0) | 2022.06.27 |
[ADsP] 데이터 분석 기획 : 분석 마스터 플랜 (0) | 2022.06.25 |
[ADsP] 데이터 분석 기획 : 데이터 분석 기획의 이해 (0) | 2022.06.25 |