별의 공부 블로그 🧑🏻‍💻
728x90
728x170

데이터 분석 : 통계 분석 - 통계학 개론

통계 분석 개요

  • Population, Parameter, Sample, Statistic
용어 설명
모집단 - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상 (데이터 전체 집합)
- 예) 대통령 후보의 지지율 - 유권자
모수 - 모집단의 특성을 나타내는 수치들
- 모집단의 평균(𝝁), 분산(𝝈²) 같은 수치들을 모수(Parameter)라고 함.
표본 - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling) 한 것
- 추출(Sampling)한 표본으로 모집단의 특성을 추론(inference) 함. (오차 발생)
- 예) 각종 여론조사에 참여한 유권자
통계량 - 표본의 특성을 나타내는 수치들
- 표본의 평균(`\bar{x}`), 분산(`s^{2}`) 같은 수치를 통계량(Statistic)이라고 함.

 

 

표본 추출

확률적 표본추출법의 종류

종류 설명
단순 무작위 추출
(Simple Random Sampling)
- 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출되는 경우
- 모집단의 개체 수 `N`, 표본 수 `n` 일 때 개별 개체가 선택될 확률은 `n/N` 임.
계통 추출
(Systematic Sampling)
- 모집단 개체에 1, 2,…,N 이라는 일련번호를 부여한 후, 첫 번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택함.
- 1 ~ 100 번호 부여 후, 10개 선택한다면, [1, 11, 21, 31, ... , 91] 선택
층화 추출
(Stratified Sampling)
- 모집단을 서로 겹치지 않게 몇 개의 집단 또는 층(Strata)으로 나누고, 각 집단 내에서 원하는 크기의 표본을 단순 무작위추출법으로 추출함.
- : 성별, 나이대, 지역 등 차이가 존재하는 그룹
군집 추출
(Clustering Sampling)
▪ 모집단을 차이가 없는 여러 개의 집단(Cluster)로 나눔.
- (예) 경상대학 내에 경영학과 경제학과
- 이들 집단 중 몇 개를 선택 한 후, 선택된 집단 내에서 필요한 만큼의 표본을 임으로 선택함.
  • 비확률 표본 추출법은 특정 표본이 선정될 확률을 알 수 없어 통계학에서 사용할 수 없음.

 

척도의 종류

척도 설명
명목 척도
(Nominal Scale)
- 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적
- 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시함.
- 성별, 혈액형, 출생지 등
서열(순위) 척도
(Ordinal Scale)
- 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음.
- 항목들 간에 서열이나 순위가 존재
- 금,은,동메달, 선호도, 만족도(Likert 척도) 등
등간 척도(구간 척도)
(Interval Scale)
- 순위를 부여하되 순위 사이의 간격이 동일하여 양적인 비교가 가능함.
- 절대 0점이 존재하지 않음.
- 온도계 수치, 물가지수 등
비율 척도
(Ratio Scale)
- 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도
- 몸무게, 나이, 형제의 수, 직장까지 거리

※ 절대 0점 : '없음'을 의미함. (無)
- 온도의 0은 상대 0점으로 없음이 아니라 영상, 영하의 중간 지점을 나타냄.

 

집중화 경향 측정

  • 집중화 경향(Central Tendency) 측정에 사용되는 값들
설명
평균(Mean) 값 들의 무게 중심이 어디인지를 나타내는 값, 산술 평균
중앙값(Median) 자료를 크기 순서대로 배열했을 때, 중앙에 위치하게 되는 값
최빈값(Mode) 어떤 값이 가장 많이 관찰되는지 나타낸 값

 

평균양 꼬리 값의 크기가 변할 때 영향을 크게 받지만, 중앙값은 그러한 변화에 영향을 거의 받지 않음.

 

데이터의 퍼짐 정도 측정

  • 데이터 집합이 얼마나 퍼져 있는지를 알아보는데 사용하는 값들
설명
산포도
(Dispersion)
- 자료의 변량들이 흩어져 있는 정도를 하나의 수로 나타낸 값
- 산포도가 크면 변량들이 평균으로부터 멀리 흩어져 있음, 변동성이 커짐.
- 산포도가 작으면 변량들이 평균 주위에 밀집, 변동성이 작아짐.
- 범위, 사분위수 범위, 분산, 표준 편차, 절대 편차, 변동 계수
편차
(Deviation)
- 어떤 자료의 변량에서 평균을 뺀 값 (편차 = 변량 – 평균)
- 편차의 총합은 항상 0
- 편차의 절댓값이 클수록 그 변량은 평균에서 멀리 떨어져 있고, 편차의 절댓값이 작을수록 평균에 가까이 있음.
분산(`s^{2}`)
(Variance)
- 편차의 제곱의 합을 `n-1`로 나눈 것
- 데이터 집합이 얼마나 퍼져 있는지 알아볼 수 있는 수치
- 평균이 같아도 분산은 다를 수 있음.

표준편차(`s`)
(Standard Deviation)
- 자료의 산포도를 나타내는 수치
- 분산의 양의 제곱근
- 평균으로부터 각 데이터의 관찰 값까지의 평균거리

 

분산(Variance)의 중요성

  • 평균은 같지만 분산은 다른 두 확률 분포
- 빨간색 분포 : 100의 평균값과 100의 분산 값
- 파란색 분포 : 100의 평균값과 2500의 분산 값
- SD : 표준편차
- 분산이 클수록 '집단의 평균값의 차이'가 무의미해짐.
- 집단 내 분산이 작아질수록 평균의 차이가 분명해짐.

 

분산, 표준편차

  • 분산, 표준편차의 이해
- 특정도시의 10가구를 표본으로 추출해 자녀수를 조사한 결과가 0, 0, 0, 1, 1, 2, 2, 3, 3, 3 일 때,
- 표본 평균 : 1.5, 표본 분산 : 1.61, 표본 표준편차 : 1.27이 나옴. 
- 특정도시의 각 가구는 평균 1.5명의 자녀를 가지고, 각 가구는 약 1.27명의 자녀를 더하거나 뺀 범위 안에 있을 것으로 예상

 

변동 계수(CV, Coefficient of Variation)

  • 단위가 다른 두 그룹 또는 단위는 같지만 평균차이가 클 때의 산포 비교에 사용함.
- A학생이 평균 3시간 공부하고 표준편차는 0.4이었고, B학생은 평균 6시간 공부하고 표준편차가 0.9 이었다면 어떤 학생이 꾸준하게 공부했을까?
-  `CV = \frac{S}{\bar{x}}` `A = 0.4/3 = 0.133, B = 0.9/6 = 0.15` 이므로 변동계수가 작은 A가 더 꾸준히 공부함.
- 이때, B학생의 표준편차가 0.8 이라면 A, B 학생의 변동계수가 같아짐. 즉 공부시간 평균에 대한 표준편차의 비율이 CV임.
- 관측되는 자료가 모두 양수일 때 사용

 

통계 기본 용어

용어 설명
표본점
(Sample Point)
- 어떤 행위를 했을 때 나올 수 있는 값
- 주사위 굴리는 행위를 했다면 1, 2, 3, 4, 5, 6 중 하나
표본공간
(Sample Space)
- 모든 표본점의 집합
- 주사위 굴리는 행위에 대한 표본공간 `S = {1,2,3,4,5,6}`
사건
(Event)
- 표본점의 특정한 집합
- 주사위를 한 번 굴렸을 때 홀수가 나오는 사건을 A라고 하면 `A = {1, 3, 5}`
확률
(Probability)
- 사건이 일어날 수 있는 가능성을 수로 나타낸 것
- 어떤 사건을 A라고 했을 때, A가 발생할 확률은 `P(A)`와 같이 표기함.
- 확률 = 사건 / 표본공간
- 확률 값 : `0 ≤ P(A) ≤ 1`

 

사건의 종류

사건 설명
독립 사건
(Independent Event)
- `A` 의 발생이 `B` 가 발생할 확률을 바꾸지 않는 사건
- 두 사건 `A, B` 가 독립이면 `P(B|A)=P(B), P(A|B) = P(A), P(A∩B) = P(A)·P(B)` 성립
- 예) 주사위 던져서 나오는 눈의 값과 동전을 던져 나오는 앞/뒤 사건
- 예) 서로 다른 사람이 총을 쏘아 과녁에 명중할 사건

배반 사건
(Exclusive Event)
- 교집합이 공집합인 사건
- 한쪽이 일어나면 다른 쪽이 일어나지 않을 때의 두 사건
- `P(A∩B) = 0, P(AUB) = P(A) + P(B)`
- 예) 동전 하나를 던져 앞면 나오는 사건, 뒷면 나오는 사건
종속 사건
(Dependent Event)
- 두 사건 `A` 와 `B` 에서 한 사건의 결과가 다른 사건에 영향을 주는 사건
- 예) 음주와 사고 사건
- `P(A∩B) = P(A|B) · P(B)`

 

조건부 확률(Conditional Probability)

  • 사건 `B` 가 발생했다는 조건 아래서 사건 `A` 가 발생할 조건부 확률
  • `P(A|B) = P(A∩B) / P(B)`, 단 `P(B) > 0`
  • 두 사건 `A, B` 가 독립 사건인 경우 : `P(B|A) = P(B), P(A|B) = P(A), P(A∩B) = P(A)P(B)`

 

확률 계산 문제

Q. 동전 3개를 동시에 던져서 앞면이 한번 나올 확률은?

전체 경우의 수 8개에서 앞면이 한 번 나오는 경우는 ‘앞뒤뒤, 뒤앞뒤, 뒤뒤앞’ 이므로 `3/8` 이 정답이다.

 

Q. 햄버거집에서는 고객들의 취향을 조사한 결과 75%는 겨자를 사용하고, 80%는 케찹을 사용하며, 65%는 이들 두 가지를 사용한다는 사실을 발견했다. 겨자 사용자가 케찹을 사용할 확률은?
(사건A : 고객은 겨자를 사용한다, 사건B : 고객은 케찹을 사용한다)

`P(B|A) = {P(B∩A)} / {P(A)} =` (둘 다 사용하는 사용자) / (겨자 사용자) `= 0.65 / 0.75 = 0.87`

 

Q. `P(A)=0.3, P(B)=0.4` 이며 서로 독립일 때 `P(B|A)` ?

`A, B` 가 독립사건일 때, `P(B|A) = P(B)` 이다, 따라서 `0.4` 이 정답이다.

 

확률 분포(Probability Distribution)

용어 설명
분포
(Distribution)
일정한 범위 안에 흩어져 퍼져 있는 정도
확률 변수
(Probability Variance)
- Random Variable
- 확률 현상에 기인해 결과값이 확률적으로 정해지는 변수
- 확률 현상 : 어떤 결과들이 나올지 알지만, 가능한 결과들 중 어떤 결과가 나올지 모르는 현상
확률 분포
(Probability Distribution)
어떤 확률 변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응 관계로 표시하는 것
이산형 확률 분포
(Discrete Probability Distribution)
- Discrete(별개의)
- 확률 변수가 몇 개의 한정된 가능한 값을 가지는 분포
- 각 사건은 서로 독립이어야 함.
- 예) 이항 분포, 베르누이 분포, 기하 분포, 포아송 분포 등
연속형 확률 분포
(Continuous Probability Distribution)
- Continuous
- 확률 변수의 가능한 값이 무한 개이며 사실상 셀 수 없을 때
- 예) 정규 분포, 지수 분포, 연속 균일 분포, 카이 제곱 분포, F 분포 등

 

확률변수와 확률분포의 예
  • 확률변수 : 동전을 2개 던질 때 앞면이 나온 횟수
  • 확률 분포 (이산형 확률 분포)
앞면 횟수 0 1 2
확률 `1/4` `1/2` `1/4` `1`

 

이산형 확률 분포

① 베르누이 분포

  • 실험 결과 두 가지 중의 하나로 나오는 시행의 결과를 `0` 또는 `1` 값으로 대응시키는 확률변수 `X` 에 대해 아래 식을 만족하는 확률변수 `X`가 따르는 확률분포
  • 모수가 하나이며 서로 반복되는 사건이 일어나는 실험의 반복적 실행 확률 분포로 나타낸 것
`P(X = 0) = p, P(X = 1) = q`      `(0 ≤ p ≤ 1, q = 1 - p)`

 

  • 베르누이 분포의 예
- 동전을 던져서 앞면이 나올 확률 : `p = 1/2, q = 1/2`
- 주사위를 던져서 4의 눈이 나올 확률 : `p = 1/6, q = 5/6`
- 주사위를 던져서 4, 5의 눈이 나올 확률 : `p = 1/3, q = 2/3`

 

② 이항 분포

  • 서로 독립된 베르누이 시행을 `n` 회 반복할 때 성공한 횟수를 `x` 라 하면, 성공한 `x` 의 확률 분포를 말함.
  • 확률 변수 `K` 가 `n, p` 두 개의 모수를 갖으며, `K~B(n, p)` 로 표기함.
  • `n = 1` 일 때 이항 분포가 베르누이 분포임.
  • 이항 분포의 기댓값 : `E(x) = np`
  • 이항 분포의 분산 : `V(x) = np(1 - p)`
  • 이항 분포의 예
- 동전을 50번 던져서 앞면이 나올 경우는? : `n = 50p = 1/2`
- 주사위를 10번 던져서 나오는 눈이 5일 경우는? : `n = 10, p = 1/6`
- 타율 3할인 타자가 100번 타석에 들어서면 안타를 얼마나 칠 것인가? : `n = 100, p = 0.3`

 

③ 기하 분포

  • 베르누이 시행에서 처음 성공까지 시도한 횟수 `X` 의 분포, 지지 집합 `(x) = {1, 2, 3, ...}`
  • ② 베르누이 시행에서 처음 성공할 때까지 실패한 횟수 `Y = X - 1`의 분포, 지지집합 `(x) = {0, 1, 2, ...}` 
  • 성공 확률 `p` 인 베르누이 시행에 대해, `x` 번 시행 후 첫 번째 성공을 얻을 확률, `X ~ G(p)` 로 표기
  • `P(X = x) = (1-p)^{x-1}p`    `(x = 1, 2, 3, ...)`
  • 실패 횟수에 대해서는 `P(Y = x) = (1-p)^{x}p`    `(x = 0, 1, 2, ...)` 
  • 기하 분포의 예
A 야구선수의 홈런 칠 확률이 5% 일 때, 이 선수가 `x` 번째 타석에서 홈런 칠 확률 분포?
x 1 2 3 4 5 6 ...
확률 0.0500 0.0475 0.0451 0.0428 0.0407 0.0387 ...

 

④ 포아송 분포(Poisson Distribution)

  • 단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지를 표현하는 분포
  • 특정 기간 동안 사건(Events) 발생의 확률을 구할 때 쓰임.
  • `X~Pois(np)`
  • `λ` : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값, `P(X = x) = \frac{e^{-λ}λ^{x}}{x!}`
  • 포아송 분포의 예
- 어느 AS센터에 1시간당 평균 120건의 전화가 온다. 이때 1분 동안 걸려오는 전화 요청이 4건 이하일 확률은?
- 어느 가게에 1시간당 평균 8명의 손님이 온다. 이때, 1시간 동안 손님이 10명 올 확률은?
- 확률은 `x = λ`에서 최대이며, `x`가 커질수록 0에 접근함.

포아송 분포

 

기댓값

  • 확률 변수 `X` 의 가능한 모든 값들의 가중 평균
이산적 확률 변수 기댓값 `E(X) = ∑ x \cdot f(x)`
연속적 확률 변수 기댓값 `E(X) = ∫ x \cdot f(x)`
- 주사위 1개를 반복해서 던질 때 나타나는 기댓값
`= 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3.5`

 

728x90

 

연속형 확률 분포

① 정규 분포(Normal Distribution)

  • 가우스 분포라고도 하며, 수집된 자료의 분포를 근사하는데 자주 사용함.
  • 평균과 표준편차(`\sigma`)에 대해 모양이 결정되고 `N(μ, σ^{2})`로 표기함.
  • 평균 0, 표준편차/분산 1인 정규 분포 `N(0, 1)` 를 표준 정규 분포, `z` 분포라고 함.
  • 예) 키, 몸무게, 시험 점수 등 거의 대부분의 측정값이 정규분포를 따름.
  • `z` 분포의 평균 주위로 표준편차의 1배 범위에 있을 확률 68%, 2배 범위 안 95%, 3배 범위 안 99.7%.

 

확률 밀도 함수(Probability Densitiy Function, PDF)

  • 특정 구간에 속할 확률을 계산하기 위한 함수
  • 확률 밀도 함수, `f(x)`와 구간 `[a, b]`에 대해 확률변수 `X` 가 구간에 포함될 확률 `P(a < X < b) = \int_{a}^{b} f(x)dx`
  • 확률밀도 함수는 다음의 두 조건을 만족함.
    1. ① 모든 실수 값 `x` 에 대해 `f(x) ≥ 0`
    2. ② `\int_{-∞}^{∞} f(x)dx = 1`

확률 밀도 함수

 

3 시그마 규칙

  • 약 68%의 값들이 평균에서 양쪽으로 1 표준 편차 범위`(μ±σ)` 에 존재
  • 약 95%의 값들이 평균에서 양쪽으로 2 표준 편차 범위`(μ±2σ)` 에 존재
  • 거의 모든 값들(실제로는 99.7%)이 평균에서 양쪽으로 3 표준 편차 범위`(μ±3σ)` 에 존재

 

정규 분포의 당위성

  • 대부분의 측정값을 정규 분포로 가정하는 이유는 "정규 분포의 당위성” 때문이다.
특성 설명
이항 분포의 근사 시행횟수 `N` 이 커질 때, 이항 분포 `B(n, p)` 는 평균 `Np`, 분산 `Npq` 인 정규 분포와 `N(Np, Npq)` 와 거의 같아짐.
중심 극한 정리 - 표본의 크기가 `N` 인 확률 표본의 표본 평균은 `N`이 충분히 크면 근사적으로 정규 분포를 따르게 됨.
- 모집단의 분포와 상관없이 표본의 크기가 30이상이 되면 `N` 이 커짐에 따라 표본 평균의 분포가 정규 분포에 근사해짐.
오차의 법칙 오차(Error) ∶ ε = x - μ
MLE(Maximum Likelihood Estimator) : 실제 값일 가능성이 가장 높은 값
- 실제 값의 MLE가 측정값의 평균이라면, 오차는 정규 분포를 따른다 → 오차의 법칙

 

 

이항 분포의 근사

  • 주사위를 던져 4가 나오는 횟수의 이항 분포 vs. 정규 분포

- 시행 횟수 `N`이 커질 때, `B(N, p)` 는 `N(Np, Npq)` 와 거의 같아짐.
- 평균 `Np`, 분산 `Npq`인 정규 분포와 거의 같아짐.
- `N = 600, p = 1/6, q = 5/6` 일 때 → `N(100, 83.3)`

 

중심 극한 정리

  • 주사위 던지기의 확률 분포
    • `n = 30` 만 되어도 정규 분포의 모양을 보이는 것을 확인할 수 있음.

- 횟수 `n` 이 커지면 `N(μ, \frac{σ^{2}}{n})` 을 따름.
- `n = 100, μ = 3.5, σ^{2} = 2.92` 인 경우, `N(3.5, 0.029)` 의 정규 분포가 됨.

 

② 균등 분포(Uniform Distribution)

종류 설명
이산 균등 분포 - 확률 분포 함수가 정의된 모든 곳에서 값이 일정한 분포
- 확률 변수가 `n`개의 값을 가질 수 있다면, `k_{i}` 일 확률이 `1/n` 임. (예: 주사위 던지기)

연속 균등 분포 - 연속 확률 분포로 분포가 특정 범위 내에서 균등하게 나타나 있을 경우
- 두 개의 매개변수 `a, b` 를 받으며, `[a, b]` 범위에서 균등한 확률을 가짐.
- 𝓤`(a, b)` 로 나타내며, 𝓤`(0, 1)` 인 경우 표준 연속 균등 분포 라고 함.

 

③ 지수 분포(Exponential Distribution)

  • 사건이 서로 독립적일 때 다음 사건이 일어날 때까지 대기 시간지수 분포를 따름.
  • [참고] 일정 시간 동안 발생하는 사건의 횟수는 포아송 분포를 따름.
  • 지수 분포포아송은 `λ` 를 사용함.

 

  • 예) 전자 제품의 5년간 고장횟수가 평균 1회일 때, 1년 안에 고장 날 확률
- `λ` ∶ 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값
- `λ` : 5년에 1번 고장이므로 1년에 0.2번 고장 즉, `λ = 1/5 = 0.2`

확률 밀도 함수 `f(x; λ) = λe^{-λx} = 0.2e^{-0.2x}`
확률 `P(0 ≤ x ≤ 1) = \int_{0}^{1} f(x)dx`
`\int_{0}^{1}0.2e^{-0.2x}dx = [-e^{-0.2x}]_{0}^{1} = 1 - e^{-0.2} = 0.18`
pexp(q=1, rate = 0.2, lower.tail=TRUE)​

 

④ t -분포(t-Distribution)

  • 정규 분포는 표본의 수가 적으면 신뢰도가 낮아짐. (`n` 이 30개 미만인 경우)
  • 표본을 많이 뽑지 못하는 경우에 대한 대응책으로 예측 범위가 넓은 분포를 사용하며, 이것이 t-분포임.
  • t-분포는 표본의 개수에 따라 그래프의 모양이 변함.
    • 표본의 개수가 많아질 수록 정규분포와 비슷하며, 적을 수록 옆으로 퍼짐.
    • 표본의 개수가 적을수록 신뢰도가 낮아지기 때문에 예측 범위를 넓히기 위해 옆으로 퍼지게 됨.
  •  t-분포는 표본의 수가 30개 미만일 때 사용하며, ‘신뢰구간’, '가설검정'에 사용함.
  • 그래프의 x축 좌표를 t 값이라 부르며, t 분포표를 사용해 구하고 검정에 사용함.


t 분포표

 

⑤ 카이제곱 분포(`χ^{2}`)

  • 분산의 특징을 확률 분포로 만든 것으로, 카이(𝝌)는 평균 0, 분산 1인 표준 정규 분포를 의미함.
  • 카이제곱(`χ^{2}`)은 표준 정규 분포를 제곱한다는 의미가 내포되어 있음.
  • 자유도(`df`, 미지수의 개수) `v`인 카이제곱 분포(`χ^{2}`) 를 `v`개 합한 것의 분포
  • `X_{1}, X_{2}, ..., X_{v}` 가 표준 정규 분포를 따를 때, `Q = X_{1}^{2} + X_{2}^{2} + ... + X_{ㅍ}^{2}`    `Q~χ^{2}(v)` 
  • `χ^{2}(v)` 의 평균 : `v`, 분산: `2v`
  • 신뢰 구간, 가설 검정에 사용하며, 그래프의 x축 좌표를 카이제곱값이라 부르며, 카이제곱 분포표를 사용해 구하고 검정에 사용함.
v = df의 카이제곱 분포의 확률 밀도 함수
  • 0이상의 값만 가질 수 있으며, 오른쪽 꼬리가 긴 비대칭 모양
  • 0의 오른쪽 부분에 분포가 많고, 0에서 멀어질 수록 분포 감소
  • 표본의 수가 많아지면 옆으로 넓적한 정규 분포 형태가 됨.
  • 카이제곱 분포의 특징이 곧 분산(치우침 정도)의 특징임.

 

⑥ F 분포

  • 카이제곱 분포와 같이 분산을 다룰 때 사용하는 분포
  • 카이제곱 분포는 한 집단의 분산, F 분포는 두 집단의 분산을 다룸.
  • 두 집단의 분산이 크기가 서로 같은지 또는 다른지 비교하는데 사용함.
  • 보통 나눗셈을 활용해 두 집단의 분산을 비교함
    • 나누었을 때 1이면 두 집단의 크기가 같음으로 판단
  • 카이제곱과 비슷하게 비대칭 모양이며, 양수만 존재함.
  • 두 분산의 나눗셈을 확률 분포로 나타낸 것이 바로 F 분포임.
  • 표본의 수가 많아지면 1을 중심으로 정규 분포 모양이 됨.
  • 분산 분석에 F 분포를 사용하며, 그래프 x축 좌표인 `F` 값을 활용하는데 F 분포표를 사용해 구함.

 

연속형 확률 분포 모델 선택

 

통계적 추론의 분류

모집단에 대한 가정 여부에 따른 통계적 추론의 분류

모수적 추론
(Parametric Inference)
모집단에 특정 분포를 가정하고 모수에 대해 추론함.
비모수적 추론
(Non-parametric Inference)
모집단에 대해 특정 분포 가정을 하지 않음.

 

추론 목적에 따른 통계적 추론의 분류

추정
(Estimation)
- 통계량을 사용하여 모집단의 모수를 구체적으로 추측하는 과정
- 점추정(Point Estimation) : 하나의 값으로 모수의 값이 얼마인지 추측함.
- 구간 추정(Interval Estimation) : 모수를 포함할 것으로 기대되는 구간을 확률적으로 구함.
가설 검정
(Testing Hypothesis)
모수에 대한 가설을 세우고 그 가설의 옳고 그름을 확률적으로 판정하는 방법론

 

모수 처리 방식에 따른 통계적 추론의 분류

프리퀀티스트/빈도주의
(Frequentist)
- 얼만큼 빈번하게 특정한 사건이 반복되어 발생하는가를 관찰하고 가설을 세우고 모델을 만들어서 검증
- 확률은 장기적으로 일어나는 사건의 빈도라고 주장
- 모수(parameter, 우리가 알아내고자 하는 값, 평균, 분산 등) : (우리가 모르는) 고정 된 상수
베이지안
(Bayesian)
- (고정된) 데이터의 관점에서 파라미터에 대한 신념의 변화를 분석
- 확률은 사건 발생에 대한 믿음 또는 척도(주관적)
- 모수는 확률적으로 변하는 수(확률 변수)
- 사전지식의 확실성/불확실성과 관련

 

표준 편차(Standard Deviation)

  • 자료가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 대표적 수치
  • 한 표본에서 전체 개체가 가지는 값들의 차이가 얼마나 큰지 나타냄.
  • 편차(관측값 – 평균)

 

표준 오차(Standard Error, SE)

  • 표본 집단의 평균값이 실제 모집단의 평균값과 얼마나 차이가 있는지 나타냄. 
  • 오차(추정값 - 참값)
  • 모집단에서 샘플을 무한 번 뽑아서 각 샘플마다 평균을 구했을 때, 그 평균들의 표준 편차표준 오차라 할 수 있음.
  • 표본 평균이 모평균과 얼마나 떨어져 있는가를 나타냄 (`n` 이 클수록 작은 값)
  • 모평균에 대해 추론할 때 표본 평균표준 오차를 사용함.

 

  • 표본을 샘플링 할 때, 모집단을 대표할 수 있는 전형적인 구성 요소를 선택하지 못함으로써 발생하는 오차
  • 표본의 크기를 증가시키고, 표본 선택 방법을 엄격히 하여 줄일 수 있음.

 

오차 한계

  • 추정(Estimation)을 할 때, 모평균 추정구간의 중심으로부터 최대한 허용할 최대 허용 오차
  • 추정 문제에서 표본 오차를 구하라는 것은 ‘오차 한계’를 구하라는 것과 같음.
  • 오차 한계는 임계값(Critical Value)표준 오차(SE)를 곱한 값
    • 임계값 :
      • 표준 정규 분포 : z값
      • t 분포 : t값
      • 카이제곱 분포 : 카이제곱값
    • 표본오차 = 오차한계 = 임계값 `× \frac{σ}{\sqrt{n}}`
  • 표준 정규 분포에서 표본 오차 = `Z × \frac{σ}{\sqrt{n}} \approx Z × \frac{s}{\sqrt{n}}`

 

추정량(Estimator)

  • 추정이란 표본의 통계량(평균, 분산, 표준편차)를 가지고 모집단의 모수를 추측하여 결정하는 것
  • 모수를 추정하기 위한 관찰 가능한 표본의 식 또는 표본의 함수

▪ 추정값(Estimate) : 표본의 식 또는 함수에 실제 관찰치를 대입하여 계산한 값

 

좋은 추정량 판단 기준

기준 설명
일치성
(Consistency)
표본의 크기가 커짐에 따라 표본 오차가 작아져야 함.

비편향성, 불편성
(Unbiasedness)
- 편향(Bias) = 추정량의 기댓값 – 실제값(=모수의 값) = `E(\hat{θ}) - θ`
- 추정량의 기댓값이 모수의 값과 같아야 함. (편향 == 0)
효율성
(Efficiency)
- 추정량의 분산이 될 수 있는 대로 작아야 함. (최소 분산 추정량)
- MSE(Mean Square Error)가 작아야 함.

 

통계적 추정

점 추정(Point Estimation)

  • 통계량 하나를 구하고 그것을 가지고 모수를 추정하는 방법
  • ‘모수가 특정한 값일 것’이라고 추정하는 것
  • 예) A과목 수강 전체 학생 중 50명을 뽑아 조사한 결과 기말 점수가 80점 이었다면, 50명 뿐 아니라 나머지 A과목을 수강한 학생들의 점수도 80점 정도로 추정하는 것

 

점 추정량 구하는 방법

  • 적률법 : 표본의 기댓값을 통해 모수를 추정하는 방법
  • 최대 가능도 추정법(최대우도법) : 함수를 미분해서 기울기가 0인 위치에 존재하는 MLE(Maximum Likelihood Estimator)를 찾는 방법
  • 최소 제곱법 : 함수값과 측정값의 차이인 오차를 제곱한 합이 최소가 되는 함수를 구하는 방법

 

구간 추정(Interval Estimation)

  • 점추정의 정확성을 보완하는 방법
  • 통계량을 제시하는 것은 같지만 신뢰구간을 만들어서 추정하는 것

 

신뢰 구간

  • 모수가 포함되리라고 기대되는 '범위'

 

신뢰 수준

  • 모수값이 정해져 있을 때, 다수 신뢰 구간 중 모수값을 포함하는 신뢰 구간이 존재할 확률
  • 신뢰수준 95% 의미 : n번 반복 추출하여 산정하는 신뢰 구간들 중에서 평균적으로 95%는 모수 값을 포함하고 있을 것이라는 의미
  • 예)
    • 신뢰수준 95%에서 투표자의 35%~45%가 A후보를 지지하고 있다.
      • 95%는 신뢰 수준, 35%~45%는 신뢰 구간이다.
    • 정치인 지지율 조사에서 A후보는 40%, B후보는 25%의 지지율을 얻었다. 신뢰 수준 95%에서 표본 오차는 3.1%포인트이다.
      • 동일한 형태의 여론조사를 100번 실시했을 경우에 95번은 A후보가 40%에서 ±3.1% 인 36.9% ~ 43.1%, B후보는 25%에서 ±3.1% 인 21.9% ~ 28.1% 사이의 지지율을 얻을 것으로 기대된다.

 

신뢰 구간

 

  • 99% 신뢰 수준에 대한 신뢰 구간이 95% 신뢰 수준에 대한 신뢰 구간보다 긺.
  • 표본의 크기가 커지면 신뢰 구간의 길이는 줄어듦.

 

신뢰 구간의 길이

  • 신뢰도 95% 신뢰 구간의 길이
    • `l = 2 \times 1.96 \times \frac{σ}{\sqrt{n}}`
      • `1.96 \times \frac{σ}{\sqrt{n}}` : 표본 오차
  • 신뢰도 99% 신뢰 구간의 길이
    • `l = 2 \times 2.58 \times \frac{σ}{\sqrt{n}}`
      • `2.58 \times \frac{σ}{\sqrt{n}}` : 표본 오차
  • 표본의 크기 `n` 이 클 경우 `σ` 대신 `s` 사용 가능

 

가설 검정(Statistical Hypothesis Testing)

  • 모집단에 대한 어떤 가설을 설정한 뒤에 표본 관찰을 통해 그 가설의 채택 여부를 결정하는 통계적 추론 방법

 

귀무 가설(`H_{0}`) (Null Hypothesis)

  • 가설 검정의 대상이 되는 가설
  • 연구자가 부정하고자 하는 가설
  • 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것(기각)이 예상되는 가설

 

대립 가설(`H_{1}`) (Anti Hypothesis)

  • 귀무 가설이 기각될 때 받아들여지는 가설
  • 연구자가 연구를 통해 입증 또는 증명되기를 기대하는 예상이나 주장

 

예1) 범죄 사건에서 용의자가 있을 때 형사의 가설
- 귀무 가설 : 용의자는 무죄이다.
- 대립 가설 : 용의자가 범죄를 저질렀다.

예2) 성적 관련 선생님의 가설
- 귀무 가설 : 남학생과 여학생의 평균은 같다.
- 대립 가설 : 남학생과 여학생의 평균은 다르다

 

기각역(Critical Region)

  • 검정 통계량(t-value)의 분포에서 유의 수준의 크기에 해당하는 영역
  • 계산한 검정 통계량의 유의성(귀무 가설의 기각)을 판정하는 기준

 

제 1종 오류(α Error)

  • 귀무 가설참인데 기각하게 되는 오류

 

제 2종 오류(β Error)

  • 귀무 가설 거짓인데 채택하게 되는 오류
  • 두 가지 오류가 작을수록 바람직함.
  • 두 가지를 동시에 줄일 수 없기 때문에 제 1종 오류를 범할 확률의 최대 허용치를 미리 어떤 특정값(유의 수준)으로 지정해 놓고 제 2종 오류의 확률을 가장 작게 해주는 검정 방법을 사용함.

 

유의 수준(α) (Significance Level)

  • 제 1종 오류의 최대 허용 한계
  • 유의 수준 0.05(5%) : 100번 실험에서 1종 오류 범하는 최대 허용 한계가 5번

 

유의 확률(=p-Value) (Probability Value)

  • 0 ≤ p-value ≤ 1
  • 1종 오류를 범할 확률
  • 귀무 가설을 지지하는 정도
  • 귀무 가설이 사실일 때, 기각하는 1종 오류 시 우리가 내린 판정이 잘못되었을 확률
  • 검정 통계량들은 거의 대부분이 귀무 가설을 가정하고 얻게 되는 값
  • 검정 통계량에 관한 확률로, 극단적인 표본 값이 나올 확률
  • p-value가 작을 수록 그 정도가 약하다고 보며, p-value < α 귀무 가설을 기각, 대립 가설을 채택함.
  • p-value가 0.05(5%) : 귀무 가설을 기각했을 때 기각 결정이 잘못될 확률이 5%임.

 

귀무 가설을 이용한 가설 검증 프로세스

 

 

모수적, 비모수적 추론(Inference)

모수적 추론

  • 모집단에 특정 분포를 가정하고 분포의 특성을 결정하는 모수에 대해 추론하는 방법
  • 모수로는 평균, 분산 등을 사용
  • 자료가 정규분포, 등간척도, 비율척도 인 경우 (온도, 물가지수, 몸무게, 자녀수 …)

 

모수적 검정

  • 검정하고자 하는 모집단의 분포에 대해 가정을 하고, 그 가정하에서 검정 통계량과 검정 통계량의 분포를 유도해 검정을 실시함.
1) 가정된 분포의 모수에 대해 가설 설정
2) 관측된 자료를 이용해 구한 표본 평균, 표본 분산 등을 이용해 검정 실시

 

모수적 통계의 전제 조건

  • 표본의 모집단이 정규 분포를 이루어야 하며, 집단 내의 분산은 같아야 함.
  • 변인(=변수) 등간척도나 비율척도로 측정되어야 함. (아니면 비모수 통계 사용)

 

모수 검정 방법

  • T-Test
  • Paired T Test
  • ANOVA Test
  • z분포, t분포, F분포, 카이스퀘어 분포

 

모수 검정 방법 사용 예

  • 모평균과 표본 평균과의 차이 : z 분포, t 분포
  • 표본 평균 간의 차이 : z 분포, t 분포
  • 모분산과 표본 분산과의 차이 : F 분포, 카이제곱(=카이스퀘어)분포
  • 표본 분산 간의 차이 : F 분포, 카이제곱분포

 

T-검정(T-Test)

  • 평균값이 올바른지, 두 집단의 평균 차이가 있는지를 검증하는 방법으로 t값을 사용함.
  • t값이 커질수록 p-value는 작아지며, 집단간 유의한 차이를 보일 가능성이 높아짐.
T-검정 방법 설명
One Sample T-Test  - 단일 표본의 평균 검정을 위한 방법
- 예) S사 USB의 평균 수명은 20000 시간이다
Paired T-Test
(대응표본 T-검정)
- 동일 개체에 어떤 처리를 하기 전, 후의 자료를 얻을 때 차이 값에 대한 평균 검정을 위한 방법
- 예) 매일 1시간 한달 걸으면 2Kg이 빠진다. (걷기 수행 전/수행 후)
- 가능한 동일한 특성을 갖는 두 개체에 서로 다른 처리를 하여 그 처리의 효과를 비교하는 방법(Matching)
- 예) X질병 환자들을 두 집단으로 나누어 A, B 약을 투약해 약의 효과 비교
Two Sample T-Test
(독립표본 T-검정)
- 서로 다른 두 그룹의 평균을 비교하여 두 표본의 차이가 있는지 검정하는 방법
- 귀무 가설 - 두 집단의 평균 차이 값이 0이다
- 예) 2학년과 3학년의 결석률은 같다

 

자유도(Degree of Freedom)

  • 통계적 추정에서 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수
  •  `n` 개 데이터를 이용해 어떤 통계량 `A` 를 계산하고자 할 때 필요한 다른 통계량 `B` 가 있다면, `B` 는 `A` 를 계산하기 전에 고정된 값을 가져야 하고 이것이 자유도에서 제외됨.
  • 다른 통계량을 한 개 사용한 크기가 `n` 인 표본의 자유도 : `n - 1`, 관측값(`x_{1}, x_{2}, ..., x_{n}`)
  • 표본 평균의 자유도 : `n`
  • 표본 분산에서 자유도 : `n - 1`

- `\bar{x}` : 산술 평균은 통계량! 하나의 자료값이 이미 정해져 있는 것과 같은 효과를 가져옴.

 

- 𝟏 𝟑 𝟓 𝟕 𝟗 데이터는 합계가 25이고, 평균이 5이다.
- 이때, 숫자 하나를 모르더라도 평균을 알면 그 숫자를 찾아낼 수 있다.
- 즉, 표본 평균 값을 알 고 있으면 전체 자료 중 자유롭게 값을 취할 수 있는 관찰치의 개수는 4개이다. `df = n - 1`

 

One Sample Test

예 : 임금의 평균이 100이다.

  • df = 2999 : n = df + 1, 데이터의 수 3000개
  • 유의수준 5%에서 평균 wage=100 이라는 귀무 가설은 기각됨
  • 95% 신뢰구간 : 110.2098 ~ 113.1974
  • 귀무 가설에서 설정한 평균이 신뢰 구간내에 존재하지 않음.

 

Paired T-Test (대응 표본 T-검정)

예 : 수면 유도제 데이터를 통한 '두 집단의 평균이 같다'는 가설에 대한 Paired T-Test

  • paired=TRUE : Paired T-Test, 짝을 이루는 데이터인 경우 분석 전 등분산성 검정 필요 없음.
  • df = 9 : 그룹별 데이터의 수 10개 → 분석 전 정규성 검정 실시
  • p-value 가 0.002833 으로 두 집단의 평균이 같다는 귀무 가설을 기각할 수 있음.
  • 신뢰 구간에 0이 포함되지 않음.

 

Two Sample T-Test (독립 표본 T-검정)

예 : 수면 유도제 데이터를 통한 '집단 간 평균이 같다'는 가설에 대한 T-Test

  • var.equal=TRUE : 두 집단의 모분산이 같다는 등분산성 만족 → 분석 전 등분산성 검정 실시
  • df = 18 : 그룹이 2개이므로 데이터의 수 20개 → 분석 전 정규성 검정 실시
  • p-value 가 0.07919 로 두 집단의 평균이 같다는 귀무가설을 기각할 수 없음.
  • 신뢰 구간에 0이 포함되므로 두 집단 간 평균에 차이가 없다고 해석할 수 있음.

 

데이터의 정규성 검정

종류 설명
Q-Q Plot - 그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법
- 대각선 참조선을 따라 값들이 분포하게 되면 정규성을 만족한다고 할 수 있음.
Histogram 구간별 돗수를 그래프로 표시하여 시각적으로 정규 분포를 확인하는 방법
Shapiro-Wilk Test - 오차항이 정규분포를 따르는지 알아보는 검정
- 귀무 가설정규 분포를 따른다로 p-value가 0.05보다 크면 정규성을 가정하게 됨.
- 회귀 분석에서 모든 독립변수에 대해 종속변수가 정규분포를 따르는지 알아보는 방법
Kolmogorov-Smirnov Test
(K-S Test)
- 두 모집단의 분포가 같은 지 검정하는 것
- p-value가 0.05보다 크면 정규성을 가정하게 됨.

 

비모수적 추론

  • 모집단에 대해 특정 분포 가정을 하지 않음.
  • 모수 자체보다 분포 형태에 관한 검정을 실시함.
  • 표본 수가 적고, 명목척도, 서열척도 인 경우 (성별, 혈액형, 만족도, 메달)

 

 

비모수적 검정

  • 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 검정 방법
  • 모수 자체보다 분포 형태에 관한 검정을 실시함.
  • 가설을 “분포의 형태가 동일하다”, “분포의 형태가 동일하지 않다”와 같이 분포 형태에 대해 설정함.
  • 관측 값들의 순위나 두 관측 값 사이의 부호 등을 이용해 검정
  • 모집단의 특성을 몇 개의 모수로 결정하기 어려우며 수 많은 모수가 필요할 수 있음.
  • 모수적 방법보다 훨씬 단순함.
    • 민감성을 잃을 수 있음.

 

비모수적 검정의 종류

  • 명목 척도 기준
    • 카이스퀘어 검정(Chi-square Test)
    • McNemar Test
    • Cochran Test
  • 서열 척도 기준
    • Kolmogorov-Smirnov Test
    • Sign Test
    • Wilcoxon Signed Rank Test
    • Friedman Test
    • Mann-Whitney U Test
    • Kruskal-Wallis H Test

 

모수/비모수적 추론 방법

비교 대상 집단수 관계 비모수 - 명목 척도 비모수 - 서열 척도 모수
1   카이스퀘어 검정 Kolmogorov-Smirnov Test One Sample T Test
2 독립 Crosstab Mann-Whitney U Test Two Sample T Test
대응 자료 McNemar Test Wilcoxon Signed-Rank Test
Sign Test
Paired T Test
k (다변량) 독립   Kruskal-Wallis H Test ANOVA Test (분산 분석)
대응 자료 Cochran Test Friedman Test  

 

카이스퀘어 검정

  • 한 개 범주형 변수와 각 그룹 별 비율과 특정 상수비가 같은지 검정하는 적합도 검정
  • 각 집단이 서로 유사한 성향을 갖는지 분석하는 동질성 검정
  • 두 개 범주형 변수가 서로 독립인지 검정하는 독립성 검정
  • 카이스퀘어 검정 가설 예
- 적합도 검정 (한 개 범주형 변수, 알려진 사실) : 교배 실험으로 얻은 완두콩 비율이 멘델의 법칙 9:3:3:1을 따르는 지 검정으로, 기존에 알려진 기준이 존재
- 동질성 검정 (부모집단, 범주형 변수) : 부모집단(Subpopulation)에 대해 열 변수의 분포가 동질한지 검정, 성별에 따라 음료 선호가 동질한지에 대한 검정
- 독립성 검정 (두 개 범주형 변수) : 도로형태(국도, 특별광역시도, 고속도로)와 교통사고 피해정도(사망, 중상, 경상)의 관련성 검정

 

부호 검정(Sign Test)

  • 표본들이 서로 관련되어 있는 경우, 짝지어진 두 개의 관찰치들의 크고 작음을 +와 –로 표시하여 그 개수를 가지고 두 그룹의 분포 차이가 있는가에 대한 가설을 검증하는 방법
  • 부호 검정 가설 예
- 귀무 가설 : 두 생산 라인의 일별 생산량 중 불량품 수의 분포는 동일하다.
- 대립 가설 : 두 생산 라인의 일별 생산량 중 불량품 수의 분포는 동일하지 않다.

 

R의 기초 통계 연산

기초 통계 함수 비고
평균 중심값 mean(x)  
분산 var(x)  
중앙값 median(x) 평균보다 이상치에 덜 민감
  sum(x)  
변동 계수(CV) 흩어짐 정도 표준편차/평균 - 측정단위가 서로 다른 데이터 비교시 사용
- 변동 계수 크다 == 편차가 크다
IQR IQR(x) 3사분위수 - 1사분위수
범위 range(x) 최소, 최댓값 출력
왜도 skewness(x)  
첨도 kurtosis(x)  
사분위수 중심 위치 quantile(x)  
자연로그 값 log(x)  
공분산 cov(x, y)  
상관 계수 cor(x, y)  

na.rm=T 옵션은 mean, range, sd  수치형 자료NA 값이 있으면 반드시 사용해야 함.

728x90
그리드형(광고전용)
⚠️AdBlock이 감지되었습니다. 원할한 페이지 표시를 위해 AdBlock을 꺼주세요.⚠️
starrykss
starrykss
별의 공부 블로그 🧑🏻‍💻


📖 Contents 📖