별의 공부 블로그 🧑🏻‍💻

🗒️ Data Science (8)

728x90
  1. 2022.07.02 [ADsP] 데이터 분석 : 통계 분석 - 시계열 예측

    데이터 분석 : 통계 분석 - 시계열 예측 시계열 자료(Time Series) 시간의 흐름에 따라 관측된 데이터 시계열 분석을 위해서는 정상성을 만족해야 함. 정상성(Stationary) 시계열의 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것 미래는 확률적으로 과거와 동일하다는 것 정상 시계열의 조건 평균은 모든 시점(시간 t)에 대해 일정하다. 분산은 모든 시점(시간 t)에 대해 일정하다. 공분산은 시점(시간 t) 에 의존하지 않고, 단지 시차에만 의존한다. 정상 시계열 전환 정상 시계열로 전환하는 방법 비정상시계열 자료는 정상성을 만족하도록 데이터를 정상 시계열로 만든 후 시계열 분석을 수행함. 평균이 일정하지 않은 경우 : 원계열에 차분 사용 계절성을 갖는 비정상 시계열 : 계절 차..

  2. 2022.07.02 [ADsP] 데이터 분석 : 통계 분석 - 기초 통계 분석

    데이터 분석 : 통계 분석 - 기초 통계 분석 회귀 분석(Regression Analysis) 변수와 변수 사이의 관계를 알아보기 위한 통계적 분석 방법 독립 변수의 값에 의해 종속 변수의 값을 예측하기 위함. 일반 선형 회귀는 종속 변수가 연속형 변수일 때 가능함. 이산형(범주형) → 명목, 서열척도 연속형 → 구간, 비율척도 용어 설명 독립 변수 (Independaent Variable) - 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수 - 설명 변수라고도 함. - 입력 값이나 원인을 나타내는 변수 - y = f(x) 에서 x에 해당하는 것 종속 변수 (Subordination Variable - 독립 변수의 영향을 받아 값이 변화하는 수 - 분석의 대상이 되는 변수 - 결과물이나 효과를 나타..

  3. 2022.07.02 [ADsP] 데이터 분석 : 통계 분석 - 상관 관계를 이용하는 다변량 분석

    데이터 분석 : 통계 분석 - 상관 관계를 이용하는 다변량 분석 상관 분석 상관 계수의 이해 상관 계수는 두 변수의 관련성의 정도를 의미함. (-1 ~ 1의 값으로 나타냄) 두 변수의 상관 관계가 존재하지 않을 경우 상관 계수는 `0` 임. 상관 관계가 높다고 인과 관계가 있다고 할 수는 없음. 피어슨 상관계수와 스피어만 상관계수가 있음. 피어슨 상관계수는 두 변수 간의 선형적인 크기만 측정 가능함. 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있음. R의 cor.test() 함수를 사용해 상관 계수 검정을 수행하고, 유의성 검정을 판단할 수 있음. 귀무 가설 : '상관계수가 0이다.' 대립 가설 : '상관계수가 0이 아니다.' 스피어만(Spearman) 상관 계수 대상 자료는 서열 척..

  4. 2022.07.01 [ADsP] 데이터 분석 : 통계 분석 - 통계학 개론

    데이터 분석 : 통계 분석 - 통계학 개론 통계 분석 개요 Population, Parameter, Sample, Statistic 용어 설명 모집단 - 잘 정의된 연구목적과 이와 연계된 명확한 연구대상 (데이터 전체 집합) - 예) 대통령 후보의 지지율 - 유권자 모수 - 모집단의 특성을 나타내는 수치들 - 모집단의 평균(𝝁), 분산(𝝈²) 같은 수치들을 모수(Parameter)라고 함. 표본 - 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling) 한 것 - 추출(Sampling)한 표본으로 모집단의 특성을 추론(inference) 함. (오차 발생) - 예) 각종 여론조사에 참여한 유권자 통계량 - 표본의 특성을 나타내는 수치들 - 표본의 평균(`\bar{x}`), 분산..

  5. 2022.06.24 [ADsP] 데이터 이해 : 가치 창조를 위한 데이터 사이언스와 전략 인사이트

    데이터 이해 : 가치 창조를 위한 데이터 사이언스와 전략 인사이트 빅데이터 열풍 IT 솔루션은 "공포 마케팅"이 잘 통하는 영역 도입만 하면 모든 문제를 한번에 해소할 것처럼 강조하다 나중에는 합류하지 못하면 위험에 처할지도 모른다는 공포 분위기 조성! 빅데이터 열풍 또한 유사한 패턴과 흐름을 갖음. 거액의 투자를 하지만, 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 첫 번째 물음부터 다시 해야 하는 사태가 벌어짐. 기분 분석 프로젝트를 포장해 놓은 것이 많음. 성공적인 인터넷 기업 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공함. 성공하지 못한 인터넷 기업 데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고 성과를 만들어 내는 체계가 없었음. 빅데이터 분석 빅..

  6. 2022.06.24 [ADsP] 데이터 이해 : 데이터의 가치와 미래

    데이터 이해 : 데이터의 가치와 미래 빅데이터란? 빅데이터의 정의 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 데이터의 양(Volume) 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상 빅데이터 - 4V ROI(Return On Investment, 투자자본수익률) 관점에서 보는 빅데이터 요소 설명 Volume - 데이터의 크기 - 생성되는 모든 데이터를 수집 Variety - 데이터의 다양성 - 정형화된 데이터를 넘어 텍..

  7. 2022.05.24 [Pandas] 판다스(Pandas) 개요

    판다스(Pandas) 개요 판다스(Pandas) Panel Data System의 약어 파이썬으로 빅데이터를 처리하고 분석하는 데 가장 빈번하게 사용하며, 데이터 전처리에사 큰 비중을 차지하는 라이브러리 수치 테이블과 시계열(Time Series)을 처리하는 데이터 구조와 연산 방법을 제공한다. 2008년 초, Wes McKinney에 의해 금융 데이터를 계량 분석하기 위해 개발됐다. 2015년, 비영리단체 NumFOCUS에 의해 오픈소스로 관리되기 시작하였다. 공식 홈페이지 : https://pandas.pydata.org/ 판다스(Pandas)와 넘파이(NumPy) 판다스는 패널 데이터(Panel Data) 구조를 제공하기 위해 넘파이(NumPy) 위에 구성되도록 개발되었으므로 넘파이에서 쉽게 사용할..

  8. 2022.03.12 주피터 노트북(Jupyter Notebook)

    주피터 노트북(Jupyter Notebook) 아나콘다(Anaconda) 데이터 과학과 머신 러닝에 대한 작업을 하기 위한 오픈 소스 가장 많이 사용되는 데이터 과학 플랫폼 Anaconda Distribution과 기업용인 Anaconda Enterprise로 구분 파이썬 및 R에 대한 1,400개 이상의 패키지 제공 노트북 코드 및 풍부한 텍스트 요소를 포함하는 문서 실시간 데이터 분석 및 설명 결과를 가져오는 장소 쥬피터 노트북에 의해 문서가 생산됨. 주요 기능 코드, 방정식, 시각화 및 설명문의 텍스트를 포함하는 문서를 생성하고 공유하도록 하는 오픈 소스의 웹 어플리케이션 email, Dropbox, GitHub 및 Jupyter Notebook Viewer 를 이용하여 공유 PDF, HTML, i..

728x90


📖 Contents 📖