728x90
728x170
데이터 분석 : 통계 분석 - 시계열 예측
시계열 자료(Time Series)
- 시간의 흐름에 따라 관측된 데이터
- 시계열 분석을 위해서는 정상성을 만족해야 함.
정상성(Stationary)
- 시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것
- 미래는 확률적으로 과거와 동일하다는 것
정상 시계열의 조건
- 평균은 모든 시점(시간 t)에 대해 일정하다.
- 분산은 모든 시점(시간 t)에 대해 일정하다.
- 공분산은 시점(시간 t) 에 의존하지 않고, 단지 시차에만 의존한다.
정상 시계열 전환
정상 시계열로 전환하는 방법
- 비정상시계열 자료는 정상성을 만족하도록 데이터를 정상 시계열로 만든 후 시계열 분석을 수행함.
- 평균이 일정하지 않은 경우 : 원계열에 차분 사용
- 계절성을 갖는 비정상 시계열 : 계절 차분 사용
- 분산이 일정하지 않은 경우 : 원계열에 자연 로그(변환) 사용
차분
- 현 시점의 자료 값에서 전 시점의 자료 값을 빼 주는 것 의미함.
시계열 모형
AR 모형 자기 회귀 모형
- AR(p) : 현 시점의 자료가 p 시점 전의 유한 개의 과거 자료로 설명될 수 있음.
- 현 시점의 시계열 자료에 과거 1시점 이전의 자료만 영향을 주면 이를 1차 자기 회귀 모형이라고 하고 AR(1) 라고 함.
MA 모형 이동 평균 모형
- 최근 데이터의 평균을 예측치로 사용하는 방법
- 각 과거치는 동일 가중치가 주어짐.
- 현시점의 자료가 유한 개의 과거 백색 잡음(정상 시계열)의 선형 결합으로 표현되었기 때문에 항상 정상성을 만족함.
- MA(p) : 과거 p시점 이전 오차들에서 현재항의 상태를 추론함.
ARIMA 모형 자기회귀 누적 이동 평균 모형
- 현재와 추세간의 관계를 정의한 것
- 많은 시계열 자료가 ARIMA 모형을 따름.
- ARIMA 모형은 비정상시계열 모형이며 차분이나 변환을 통해 AR, MA, ARMA 모형으로 정상화 할 수 있음.
- ARIMA(p, d, q)
- p : AR모형 차수
- d : 차분
- q : MA모형 차수
- ARIMA(1, 2, 3) 이라면 2번 차분해서 ARMA 모형이 될 수 있음.
- ARIMA(0, 1, 3) : IMA(1, 3) 모형이고 이것을 1번 차분하면 MA(3) 모형이 됨.
- ARIMA(2, 3, 0) : ARI(2, 3) 모형이고, 이것을 3번 차분하면 AR(2) 모형이 됨.
ACF, PACF, 백색 잡음(White Noise)
자기 상관 함수(Auto-Correlation Function, ACF)
- 시계열 데이터의 자기 상관성을 파악하기 위한 함수
- 시계열의 관측치 `Y_{t}` 와 `Y_{t-k}` 간 상관 계수를 `k` 의 함수 형태로 표시한 것 (`k` : 시간 단위)
- -1 ≤ autocorr(`Y_{t}`, `Y_{t-k}`) ≤ 1
- `k` 가 커질 수록 ACF는 0으로 수렴함.
부분 자기 상관 함수(Partial ACF, PACF)
- `Y_{t}` 와 `Y_{t-k}` 중간에 있는 값들의 영향을 제외시킨 `Y_{t}` 와 `Y_{t-k}` 사이의 직접적 상관 관계를 파악하기 위한 함수
백색 잡음(White Noise)
- 시계열 자료 중 자기상관이 전혀 없는 특별한 경우
- 시계열의 평균이 0, 분산이 일정한 값, 자기공분산이 0인 경우
- 현재 값이 미래 예측에 전혀 도움이 되지 못함.
- 회귀 분석의 오차항과 비슷한 개념
시계열 모형
자기 회귀(AR) | 이동 평균(MA) | 자기 회귀 이동 평균(ARMA) | |
자기 상관 함수 | 지수적 감소 | q+1 차항부터 절단 모양 | q+1 차항부터 절단 모양 |
부분 자기 상관 함수 | p+1 차항부터 절단 모양 | 지수적 감소 | p+1 차항부터 절단 모양 |
분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
분해 요인
요인 | 설명 |
추세 요인 (Trend Factor) |
자료의 그림을 그렸을 때 그 형태가 오르거나 내리는 등 자료가 어떤 특정한 형태를 취할 때 |
계절 요인 (Seasonal Factor) |
계절에 따라, 고정된 주기에 따라 자료가 변화하는 경우 |
순환 요인 (Cyclical Factor) |
물가 상승률, 급격한 인구 증가 등의 이유로 알려지지 않은 주기를 가지고 자료가 변화하는 경우 |
불규칙 요인 (Irregular Factor) |
위 세 가지 요인으로 설명할 수 없는 회귀 분석에서 오차에 해당하는 요인에 의해 발생하는 경우 |
728x90
그리드형(광고전용)
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 데이터분석준전문가 단원별 내용 정리 (0) | 2022.08.28 |
---|---|
[ADsP] 데이터 분석 : 정형 데이터 마이닝 (0) | 2022.07.03 |
[ADsP] 데이터 분석 : 통계 분석 - 기초 통계 분석 (0) | 2022.07.02 |
[ADsP] 데이터 분석 : 통계 분석 - 상관 관계를 이용하는 다변량 분석 (0) | 2022.07.02 |
[ADsP] 데이터 분석 : 통계 분석 - 통계학 개론 (0) | 2022.07.01 |
[ADsP] 데이터 분석 : R 기초와 데이터 마트 (0) | 2022.06.27 |
[ADsP] 데이터 분석 기획 : 분석 마스터 플랜 (0) | 2022.06.25 |
[ADsP] 데이터 분석 기획 : 데이터 분석 기획의 이해 (0) | 2022.06.25 |