728x90
728x170
데이터 분석 : 통계 분석 - 기초 통계 분석
회귀 분석(Regression Analysis)
- 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법
- 독립 변수의 값에 의해 종속 변수의 값을 예측하기 위함.
- 일반 선형 회귀는 종속 변수가 연속형 변수일 때 가능함.
- 이산형(범주형) → 명목, 서열척도
- 연속형 → 구간, 비율척도
용어 | 설명 |
독립 변수 (Independaent Variable) |
- 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수 - 설명 변수라고도 함. - 입력 값이나 원인을 나타내는 변수 - y = f(x) 에서 x에 해당하는 것 |
종속 변수 (Subordination Variable |
- 독립 변수의 영향을 받아 값이 변화하는 수 - 분석의 대상이 되는 변수 - 결과물이나 효과를 나타내는 변수 - y = f(x) 에서 y에 해당하는 것 |
잔차(오차항) (Residual) |
- 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이 - 오차(Error) → 모집단, 잔차(Residual) → 표본집단 |
회귀 모형
선형 회귀 모형
- X와 Y가 1차식으로 나타날 때의 모형
단순 회귀 모형 (독립 변수 1개일 때)
![]() |
모집단 `Y_{i} = β_{0} + β_{1}X_{i} + ε_{i}` `(i = 1, 2, \cdots, n)` - `Y_{i}` : 종속 변수 - `X_{i}` : 독립 변수 - `ε_{i}` : 잔차(Residual) - `β_{0}` : 선형 회귀식의 절편 - `β_{1}` : 기울기, 회귀 계수(Coefficient) |
표본 `f(X) = b + aX` - `b` : 선형 회귀식의 절편 - `a` : 기울기, 회귀 계수(Coefficient) |
최소자승법(Least Square Method)
- Y`= f(X)` 의 측정값 `y_{i}`와 함수값 `f(x_{i})` 의 차이를 제곱한 것의 합이 최소가 되도록 `Y=f(X)` 를 구하는 것
- `Y = aX + b` 일 때 잔차를 제곱한 것의 합이 최소가 되도록 하는 상수 `a, b`를 찾는 것
- 즉, (측정값 – 함수값)² 의 합이 최소가 되는 직선의 그래프를 찾는 것
- 큰 폭의 잔차에 대해 보다 더 큰 가중치를 부여하여, 독립 변수 값이 동일한 평균치를 갖는 경우 가능한 한 변동 폭이 적은 표본 회귀선을 도출하기 위한 것
단일 회귀 모형의 예
- runif(개수, 시작, 끝) : 시작 ~ 끝 범위에서 개수 만큼의 균일 분포를 따르는 난수 발생
- rnorm(개수, 평균, 표준편차)
- 특정 평균 및 표준 편차를 갖으며 정규 분포를 따르는 난수 발생
- 평균, 표준 편차 생략 시 평균 0, 표준편차 1
- lm(y~x, data = df) : df에서 y를 종속 변수, x를 독립 변수로 회귀 모형 생성
다중 회귀 모형의 예
회귀 모형의 가정
회귀 모형의 가정
가정 | 설명 |
선형성 | 독립 변수의 변화에 따라 종속 변수도 변화하는 선형(Linear) 모형이다. |
독립성 | 잔차와 독립 변수의 값이 관련되어 있지 않다. |
정규성 | 잔차항이 정규 분포를 이뤄야 한다. |
등분산성 | 잔차항들의 분포는 동일한 분산을 갖는다. |
비상관성 | 잔차들끼리 상관이 없어야 한다. (Durbin-Watson 통계량 확인) |
모델 진단 그래프
그래프 | 설명 |
Normal Q-Q Plot | - 정규성(정상성), 잔차가 정규 분포를 잘 따르고 있는지를 확인하는 그래프 - 잔차들이 그래프 선상에 있어야 이상적임. |
Scale-Location | 등분산성, y축이 표준화 잔차를 나타내며, 기울기 0인 직선이 이상적임 |
Cook’s Distance | 일반적으로 1값이 넘어가면 관측치를 영향점(Influence Points)로 판별 |
Residuals vs. Fitted
- y축은 잔차, 선형 회귀에서 오차는 평균이 0이고 분산이 일정한 정규 분포를 가정하므로 y값은 기울기가 0인 직선이 이상적임.
회귀 모형 해석(평가 방법)
표본 회귀선의 유의성 검정
- 두 변수 사이에 선형 관계가 성립하는지 검정하는 것으로, 회귀식의 기울기 계수 `β_{1} = 0` 일 때 귀무 가설, `β_{1} ≠ 0` 일 때 대립 가설로 설정함.
회귀 모형 해석
- 모형이 통계적으로 유의미한가?
- F 통계량, 유의 확률(p-value)로 확인
- 회귀계수들이 유의미한가?
- 회귀 계수의 t값, 유의 확률(p-value)로 확인
- 모형이 얼마나 설명력을 갖는가?
- 결정 계수(`R^{2}`) 확인
- 모형이 데이터를 잘 적합하고 있는가?
- 잔차 통계량 확인
- 회귀 진단 진행 (선형성~ 정상성)
F 통계량, p-value
- F 통계량 = 회귀제곱평균(MSR) / 잔차제곱평균(MSE)
- F 통계량에 대한 p-value < 0.05
t 값, p-value
- t 값 = Estimate(회귀계수) / Std.Error(표준오차)
- t 값에 대한 p-value < 0.05
결정 계수(`R^{2}`)
- 70 ~ 90%
F 통계량
- 모델의 통계적 유의성을 검정하기 위한 검정 통계량 (분산 분석)
- F 통계량 = 회귀제곱평균(MSR) / 잔차제곱평균(MSE)
- F 통계량이 클수록 회귀 모형은 통계적으로 유의함.
- p-value < 0.05 일 때 유의함.
결정 계수 `R^{2}` = SSR/SST
- 회귀식의 적합도를 재는 척도
- 결정 계수(`R^{2}`) = 회귀제곱합(SSR) / 총제곱합(SST), 1-(SSE/SST)
- 결정 계수는 0~1 사이의 범위를 갖음.
- 전체 분산 중 모델에 의해 설명되는 분산의 양
- 결정 계수가 커질수록 회귀 방정식의 설명력이 높아짐.
![]() |
- SST : Total Sum of Squares, Y의 변동성 - SSE : Error Sum of Squares, X, Y를 통해 설명하지 못하는 변동성 - SSR : Regression Sum of Squares, Y를 설명하는 X의 변동성 |
![]() |
- t 통계량 = Estimate(회귀계수) / Std.Error(표준오차)
- t 통계량이 크다는 것은 표준 오차가 작다는 의미
- t 통계량이 클수록 회귀 계수가 유의함.
다중 공선성(Multicollinearity)
- 모형의 일부 설명 변수(=예측 변수)가 다른 설명 변수와 상관되어 있을 때 발생하는 조건
- 중대한 다중 공선성은 회귀 계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됨.
- R의 vif 함수를 사용해 구할 수 있으며, VIF(Variance Inflation Factor) 값이 10이 넘으면 다중 공선성이 존재한다고 봄.
해결 방법
- 높은 상관 관계가 있는 설명 변수를 모형에서 제거하는 것으로 해결함.
- 설명 변수를 제거하면 대부분 R-square가 감소함.
- 단계적 회귀 분석을 이용하여 제거함.
설명 변수의 선택 원칙
- y 에 영향을 미칠 수 있는 모든 설명 변수 x들은 y의 값을 예측하는 데 참여시킴.
- 설명 변수 x 들의 수가 많아지면 관리에 많은 노력이 요구되므로 가능한 범위 내에서 적은 수의 설명 변수를 포함시켜야 함.
- 두 원칙이 이율 배반적이므로 적절한 설명 변수 선택이 필요함.
설명 변수 선택 방법
- 회귀 모델에서 변수 선택을 위한 판단 기준
- Cp, AIC, BIC 등이 있으며, 값이 작을 수록 좋음.
방법 | 설명 |
모든 가능한 조합 | - 모든 가능한 독립 변수들의 조합에 대한 회귀 모형을 고려해 AIC, BIC 의 기준으로 가장 적합한 회귀 모형 선택 - AIC, BIC : 최소 자승법의 `R^{2}`와 비슷한 역할을 하며, 적합성을 측정해주는 지표로, `R^{2}` 는 큰 값이 좋지만, AIC, BIC는 작은 값이 좋음. *AIC(Akaike Information Criterion), BIC(Bayes Information Criterion) |
후진 제거법 (Backward Elimination Method) |
독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명 변수를 제거하고, 이때 모형을 선택 |
전진 선택법 (Forward Selection Method) |
절편만 있는 모델에서 출발해 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법 |
단계별 선택법 (Stepwise Method) |
모든 변수가 포함된 모델에서 출발해 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선 시키는 변수를 추가함. |
유의 확률을 확인해 가며 하나씩 제거하는 후진 제거법
- F 통계량 및 p-value가 유의수준 5% 아래로 통계적으로 유의함.
- 설명변수 `x1, x2` 유의 확률 값이 유의함.
- 최종 회귀식 : `y = 52.57735 + 1.46831x1 + 0.66226x2`
step 함수를 사용한 후진 제거법
- 후진 제거법 : direction = ‘backward’
- 전진 선택법 : direction = ‘forward’
- 단계 선택법 : direction = ‘both
step 함수를 사용한 전진 선택법
과적합(Overfitting)
과적합의 문제와 해결 방법
- 주어진 샘플들의 설명 변수와 종속 변수의 관계를 필요 이상 너무 자세하고 복잡하게 분석
- 샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음.
- 해결 방법
- Feature의 개수 줄이기
- 정규화(Regularization) 수행
Underfitting | Overfitting | |
![]() |
![]() |
![]() |
정규화(Regularization)
- 베타(𝜷)값에 제약(Penalty)을 주어 모델에 변화를 주는 것
- 𝝀 값은 정규화 모형을 조정하는 Hyper Parameter
- 𝝀 값이 클수록 제약이 많아져 적은 변수가 사용되고, 해석이 쉬워지지만 Underfitting 됨.
- 𝝀 값이 작아질수록 제약이 적어 많은 변수가 사용되고, 해석이 어려워지며 Overfitting 됨.
![]() |
![]() |
`L_{1}, L_{2}` Norm
- Norm : 선형대수학에서 벡터의 크기(Magnitude) 또는 길이(Length)를 측정하는 방법
- `L_{1}` Norm(=Manhattan Norm) : 벡터의 모든 성분의 절대값을 더함.
- `L_{2}` Norm(=Euclidean Norm) : 출발점에서 도착점까지의 거리를 직선 거리로 측정함.
![]() |
![]() |
Regularized Linear Regression
① 라쏘 회귀(Lasso Regression)
- 변수 선택이 가능하며, 변수간 상관 관계가 높으면 성능이 떨어짐.
- `L_{1}` Norm을 패널티를 가진 선형 회귀 방법
- 회귀 계수의 절댓값이 클수록 패널티 부여
- MSE가 최소가 되게 하는 `w, b` 를 찾는 동시에 `w` 의 절대값들의 합이 최소가 되게 해야 함.
- `w` 의 모든 원소가 0이 되거나 0에 가깝게 되게 해야 함.
- 불필요한 특성 제거
- 어떤 특성은 모델을 만들 때 사용되지 않게 됨.
장점
- 제약 조건을 통해 일반화된 모형을 찾음.
- 가중치들이 0이 되게 함으로써 그에 해당하는 특성들을 제외해줌.
- 모델에서 가장 중요한 특성이 무엇인지 알게 되는 등 모델 해석력이 좋아짐.
② 릿지 회귀(Ridge Regression)
- `L_{2}` Norm을 사용해 패널티를 주는 방식
- 변수 선택이 불가능, 변수 간 상관 관계가 높아도 좋은 성능
- Lasso 는 가중치들이 0이 되지만, Ridge의 가중치들은 0에 가까워질 뿐 0이 되지는 않음.
- 특성이 많은데 특성의 중요도가 전체적으로 비슷하다면 Ridge 가 좀 더 괜찮은 모델을 찾아줄 것임.
③ 엘라스틱넷(Elastic-Net)
- `L_{1}, L_{2}` Norm Regularization
- 변수 선택 가능
- 변수 간 상관 관계를 반영한 정규화
데이터 스케일링(Scaling)
- 데이터 단위의 불일치 문제를 해결하는 방법
- 분석에 사용되는 변수들에 사용 단위가 다를 때 데이터를 같은 기준으로 만듦.
- 원 데이터의 분포를 유지하는 정규화 방법
정규화(Normalization)
- 값의 범위를 [0, 1] 로 변환하는 것
- Min-Max Nomalization
- `X' = \frac{X - X_{min}}{X_{max} - X_{min}}`
예) 0, 100점일 경우 50점은?
`{50 - 0} / {100} = 0.5`
표준화(Standardization)
- 특성의 값이 정규 분포를 갖도록 변환하는 것
- 평균 0, 표준 편차 1
- `Z' = \frac{X - μ}{σ}`
예) 평균 80, 표준 편차 10일 경우 90점은?
`{90 - 80}/{10} = 1`
728x90
그리드형(광고전용)
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 데이터분석준전문가 단원별 내용 정리 (0) | 2022.08.28 |
---|---|
[ADsP] 데이터 분석 : 정형 데이터 마이닝 (0) | 2022.07.03 |
[ADsP] 데이터 분석 : 통계 분석 - 시계열 예측 (0) | 2022.07.02 |
[ADsP] 데이터 분석 : 통계 분석 - 상관 관계를 이용하는 다변량 분석 (0) | 2022.07.02 |
[ADsP] 데이터 분석 : 통계 분석 - 통계학 개론 (0) | 2022.07.01 |
[ADsP] 데이터 분석 : R 기초와 데이터 마트 (0) | 2022.06.27 |
[ADsP] 데이터 분석 기획 : 분석 마스터 플랜 (0) | 2022.06.25 |
[ADsP] 데이터 분석 기획 : 데이터 분석 기획의 이해 (0) | 2022.06.25 |