별의 공부 블로그 🧑🏻‍💻
728x90
728x170

데이터 분석 : 통계 분석 - 기초 통계 분석

회귀 분석(Regression Analysis)

  • 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법
  • 독립 변수의 값에 의해 종속 변수의 값을 예측하기 위함.
  • 일반 선형 회귀는 종속 변수연속형 변수일 때 가능함.
  • 이산형(범주형) → 명목, 서열척도
  • 연속형 → 구간, 비율척도
용어 설명
독립 변수
(Independaent Variable)
- 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수
- 설명 변수라고도 함.
- 입력 값이나 원인을 나타내는 변수
- y = f(x) 에서 x에 해당하는 것
종속 변수
(Subordination Variable
- 독립 변수의 영향을 받아 값이 변화하는 수
- 분석의 대상이 되는 변수
- 결과물이나 효과를 나타내는 변수
- y = f(x) 에서 y에 해당하는 것
잔차(오차항)
(Residual)
- 계산에 의해 얻어진 이론 값과 실제 관측이나 측정에 의해 얻어진 값의 차이
- 오차(Error) → 모집단, 잔차(Residual) → 표본집단

 

회귀 모형

선형 회귀 모형

  • X와 Y가 1차식으로 나타날 때의 모형

 

단순 회귀 모형 (독립 변수 1개일 때)

모집단

`Y_{i} = β_{0} + β_{1}X_{i} + ε_{i}`  `(i = 1, 2, \cdots, n)`
- `Y_{i}` : 종속 변수
- `X_{i}` : 독립 변수
- `ε_{i}` : 잔차(Residual)
- `β_{0}` : 선형 회귀식의 절편
- `β_{1}` : 기울기, 회귀 계수(Coefficient)
표본

`f(X) = b + aX`
- `b` : 선형 회귀식의 절편
- `a` : 기울기, 회귀 계수(Coefficient)

 

최소자승법(Least Square Method)

  • Y`= f(X)` 의 측정값 `y_{i}`와 함수값 `f(x_{i})` 의 차이를 제곱한 것의 합이 최소가 되도록 `Y=f(X)` 를 구하는 것
  • `Y = aX + b` 일 때 잔차를 제곱한 것의 합이 최소가 되도록 하는 상수 `a, b`를 찾는 것
  • 즉, (측정값 – 함수값)² 의 합이 최소가 되는 직선의 그래프를 찾는 것
  • 큰 폭의 잔차에 대해 보다 더 큰 가중치를 부여하여, 독립 변수 값이 동일한 평균치를 갖는 경우 가능한 한 변동 폭이 적은 표본 회귀선을 도출하기 위한 것

 

단일 회귀 모형의 예

 

  • runif(개수, 시작, 끝) : 시작 ~ 끝 범위에서 개수 만큼의 균일 분포를 따르는 난수 발생
  • rnorm(개수, 평균, 표준편차)
    • 특정 평균 및 표준 편차를 갖으며 정규 분포를 따르는 난수 발생
    • 평균, 표준 편차 생략 시 평균 0, 표준편차 1
  • lm(y~x, data = df) : df에서 y를 종속 변수, x를 독립 변수로 회귀 모형 생성

 

다중 회귀 모형의 예

 

회귀 모형의 가정

회귀 모형의 가정

가정 설명
선형성 독립 변수의 변화에 따라 종속 변수도 변화하는 선형(Linear) 모형이다.
독립성 잔차와 독립 변수의 값이 관련되어 있지 않다.
정규성 잔차항이 정규 분포를 이뤄야 한다.
등분산성 잔차항들의 분포는 동일한 분산을 갖는다.
비상관성 잔차들끼리 상관이 없어야 한다. (Durbin-Watson 통계량 확인)

 

모델 진단 그래프

그래프 설명
Normal Q-Q Plot - 정규성(정상성), 잔차가 정규 분포를 잘 따르고 있는지를 확인하는 그래프
- 잔차들이 그래프 선상에 있어야 이상적임.
Scale-Location 등분산성, y축이 표준화 잔차를 나타내며, 기울기 0인 직선이 이상적임
Cook’s Distance 일반적으로 1값이 넘어가면 관측치를 영향점(Influence Points)로 판별

 

 

Residuals vs. Fitted

  • y축은 잔차, 선형 회귀에서 오차는 평균이 0이고 분산이 일정한 정규 분포를 가정하므로 y값은 기울기가 0인 직선이 이상적임.

 

회귀 모형 해석(평가 방법)

표본 회귀선의 유의성 검정

  • 두 변수 사이에 선형 관계가 성립하는지 검정하는 것으로, 회귀식의 기울기 계수 `β_{1} = 0` 일 때 귀무 가설, `β_{1} ≠ 0` 일 때 대립 가설로 설정함.

 

회귀 모형 해석

  • 모형이 통계적으로 유의미한가?
    • F 통계량, 유의 확률(p-value)로 확인
  • 회귀계수들이 유의미한가?
    • 회귀 계수의 t값, 유의 확률(p-value)로 확인
  • 모형이 얼마나 설명력을 갖는가?
    • 결정 계수(`R^{2}`) 확인
  • 모형이 데이터를 잘 적합하고 있는가?
    • 잔차 통계량 확인
    • 회귀 진단 진행 (선형성~ 정상성)

 

F 통계량, p-value

  • F 통계량 = 회귀제곱평균(MSR) / 잔차제곱평균(MSE)
  • F 통계량에 대한 p-value < 0.05

 

t 값, p-value

  • t 값 = Estimate(회귀계수) / Std.Error(표준오차)
  • t 값에 대한 p-value < 0.05

 

결정 계수(`R^{2}`)

  • 70 ~ 90%

 

F 통계량

  • 모델의 통계적 유의성을 검정하기 위한 검정 통계량 (분산 분석)
  • F 통계량 = 회귀제곱평균(MSR) / 잔차제곱평균(MSE)
  • F 통계량이 클수록 회귀 모형은 통계적으로 유의함.
  • p-value < 0.05 일 때 유의함.

 

결정 계수 `R^{2}` = SSR/SST

  • 회귀식의 적합도를 재는 척도
  • 결정 계수(`R^{2}`) = 회귀제곱합(SSR) / 총제곱합(SST), 1-(SSE/SST)
  • 결정 계수는 0~1 사이의 범위를 갖음.
  • 전체 분산 중 모델에 의해 설명되는 분산의 양
  • 결정 계수가 커질수록 회귀 방정식의 설명력이 높아짐.
- SST : Total Sum of Squares, Y의 변동성
- SSE : Error Sum of Squares, X, Y를 통해 설명하지 못하는 변동성
- SSR : Regression Sum of Squares, Y를 설명하는 X의 변동성

 

  • t 통계량 = Estimate(회귀계수) / Std.Error(표준오차)
  • t 통계량이 크다는 것은 표준 오차가 작다는 의미
  • t 통계량이 클수록 회귀 계수가 유의함.

 

다중 공선성(Multicollinearity)

  • 모형의 일부 설명 변수(=예측 변수)가 다른 설명 변수와 상관되어 있을 때 발생하는 조건
  • 중대한 다중 공선성은 회귀 계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됨.
  • R의 vif 함수를 사용해 구할 수 있으며, VIF(Variance Inflation Factor) 값이 10이 넘으면 다중 공선성이 존재한다고 봄.

 

해결 방법

  • 높은 상관 관계가 있는 설명 변수를 모형에서 제거하는 것으로 해결함.
  • 설명 변수를 제거하면 대부분 R-square가 감소함.
  • 단계적 회귀 분석을 이용하여 제거함.

 

설명 변수의 선택 원칙

  • y 에 영향을 미칠 수 있는 모든 설명 변수 x들은 y의 값을 예측하는 데 참여시킴.
  • 설명 변수 x 들의 수가 많아지면 관리에 많은 노력이 요구되므로 가능한 범위 내에서 적은 수의 설명 변수를 포함시켜야 함.
  • 두 원칙이 이율 배반적이므로 적절한 설명 변수 선택이 필요함.

 

설명 변수 선택 방법

  • 회귀 모델에서 변수 선택을 위한 판단 기준
    • Cp, AIC, BIC 등이 있으며, 값이 작을 수록 좋음.
방법 설명
모든 가능한 조합 - 모든 가능한 독립 변수들의 조합에 대한 회귀 모형을 고려해 AIC, BIC 의 기준으로 가장 적합한 회귀 모형 선택
- AIC, BIC : 최소 자승법의 `R^{2}`와 비슷한 역할을 하며, 적합성을 측정해주는 지표로, `R^{2}` 는 큰 값이 좋지만, AIC, BIC는 작은 값이 좋음.

*AIC(Akaike Information Criterion), BIC(Bayes Information Criterion)
후진 제거법
(Backward Elimination Method)
독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명 변수를 제거하고, 이때 모형을 선택
전진 선택법
(Forward Selection Method)
절편만 있는 모델에서 출발해 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법
단계별 선택법
(Stepwise Method)
모든 변수가 포함된 모델에서 출발해 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선 시키는 변수를 추가함.

 

유의 확률을 확인해 가며 하나씩 제거하는 후진 제거법

 

  • F 통계량 및 p-value가 유의수준 5% 아래로 통계적으로 유의함.
  • 설명변수 `x1, x2` 유의 확률 값이 유의함.
  • 최종 회귀식 : `y = 52.57735 + 1.46831x1 + 0.66226x2`

 

step 함수를 사용한 후진 제거법

 

  • 후진 제거법 : direction = ‘backward’
  • 전진 선택법 : direction = ‘forward’
  • 단계 선택법 : direction = ‘both

 

step 함수를 사용한 전진 선택법

 

과적합(Overfitting)

과적합의 문제와 해결 방법

  • 주어진 샘플들의 설명 변수종속 변수의 관계를 필요 이상 너무 자세하고 복잡하게 분석
  • 샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음.
  • 해결 방법
    • Feature의 개수 줄이기
    • 정규화(Regularization) 수행
Underfitting   Overfitting

 

정규화(Regularization)

  • 베타(𝜷)값에 제약(Penalty)을 주어 모델에 변화를 주는 것
  • 𝝀 값은 정규화 모형을 조정하는 Hyper Parameter
  • 𝝀 값이 클수록 제약이 많아져 적은 변수가 사용되고, 해석이 쉬워지지만 Underfitting 됨.
  • 𝝀 값이 작아질수록 제약이 적어 많은 변수가 사용되고, 해석이 어려워지며 Overfitting 됨.

 

`L_{1}, L_{2}` Norm

  • Norm 선형대수학에서 벡터의 크기(Magnitude) 또는 길이(Length)를 측정하는 방법
    • `L_{1}` Norm(=Manhattan Norm) : 벡터의 모든 성분의 절대값을 더함.
    • `L_{2}` Norm(=Euclidean Norm) : 출발점에서 도착점까지의 거리를 직선 거리로 측정함.

 

Regularized Linear Regression

① 라쏘 회귀(Lasso Regression)

  • 변수 선택이 가능하며, 변수간 상관 관계가 높으면 성능이 떨어짐.
  • `L_{1}` Norm을 패널티를 가진 선형 회귀 방법
    • 회귀 계수의 절댓값이 클수록 패널티 부여
  • MSE가 최소가 되게 하는 `w, b` 를 찾는 동시에 `w` 의 절대값들의 합이 최소가 되게 해야 함.
  • `w` 의 모든 원소가 0이 되거나 0에 가깝게 되게 해야 함.
    • 불필요한 특성 제거
  • 어떤 특성은 모델을 만들 때 사용되지 않게 됨.

 

장점

  • 제약 조건을 통해 일반화된 모형을 찾음.
  • 가중치들이 0이 되게 함으로써 그에 해당하는 특성들을 제외해줌.
  • 모델에서 가장 중요한 특성이 무엇인지 알게 되는 등 모델 해석력이 좋아짐.

 

② 릿지 회귀(Ridge Regression)

  • `L_{2}` Norm을 사용해 패널티를 주는 방식
  • 변수 선택이 불가능, 변수 간 상관 관계가 높아도 좋은 성능
  • Lasso 는 가중치들이 0이 되지만, Ridge의 가중치들은 0에 가까워질 뿐 0이 되지는 않음.
  • 특성이 많은데 특성의 중요도가 전체적으로 비슷하다면 Ridge 가 좀 더 괜찮은 모델을 찾아줄 것임.

 

③ 엘라스틱넷(Elastic-Net)

  • `L_{1}, L_{2}` Norm Regularization
  • 변수 선택 가능
  • 변수 간 상관 관계를 반영한 정규화

 

데이터 스케일링(Scaling)

  • 데이터 단위의 불일치 문제를 해결하는 방법
  • 분석에 사용되는 변수들에 사용 단위가 다를 때 데이터를 같은 기준으로 만듦.
  • 원 데이터의 분포를 유지하는 정규화 방법

 

정규화(Normalization)

  • 값의 범위를 [0, 1] 로 변환하는 것
  • Min-Max Nomalization
    • `X' = \frac{X - X_{min}}{X_{max} - X_{min}}` 

 

예) 0, 100점일 경우 50점은?

`{50 - 0} / {100} = 0.5`

 

 

표준화(Standardization)

  • 특성의 값이 정규 분포를 갖도록 변환하는 것
  • 평균 0, 표준 편차 1
  • `Z' = \frac{X - μ}{σ}`

 

예) 평균 80, 표준 편차 10일 경우 90점은?

`{90 - 80}/{10} = 1` 

 

 

728x90
그리드형(광고전용)
⚠️AdBlock이 감지되었습니다. 원할한 페이지 표시를 위해 AdBlock을 꺼주세요.⚠️
starrykss
starrykss
별의 공부 블로그 🧑🏻‍💻


📖 Contents 📖