별의 공부 블로그 🧑🏻‍💻

🗒️ pandas (8)

728x90
  1. 2022.05.31 [Pandas] 수학 계산

    수학 계산 넘파이와 판다스 라이브러리는 과학 계산을 포함하는 데이터 분석에서 중요하게 사용된다. 넘파이는 ndarray 객체의 요소를 빠르게 계산할 수 있도록 강력한 기능을 가진 많은 함수를 제공한다. 넘파이와 판다스는 같은 플랫폼에서 설계되었으므로 넘파이의 함수들을 판다스에서도 그대로 사용할 수 있다. 판다스에서는 이러한 함수들을 사용해 메타 데이터를 제외한 시리즈와 데이터프레임의 데이터 구조에서 수학 계산을 쉽게 할 수 있다. 통계 함수 통계 함수에는 min(), max(), std(), var(), median(), count(), sum(), cumsum(), count(), prod() 등의 함수 외에도 pct_change(), cov(), corr(), rank() 함수가 있다. 퍼센트 변화율..

  2. 2022.05.30 [Pandas] 데이터의 그룹 연산

    데이터의 그룹 연산 데이터의 그룹 연산은 원본 데이터 세트 객체를 그룹별로 분할(Split)하고 분할된 각 그룹에 함수를 적용(Apply)하고 결과를 통합(Combine)하는 연산을 수행한다. 이를 하나의 용어로 Split-Apply-Combine 이라 한다. 대다수의 경우 데이터를 여러 집합(Sets)으로 분할하고, 분할된 각 부분 집합에 함수와 같은 기능을 적용한다. 또는 분할하지 않더라도 여러 데이터 세트의 값들을 원하는 조건에 따라 어떤 인덱스나 라벨에 하나의 값으로 변환하는 형태로써 데이터를 합치는데, 이를 그룹 연산이라고 한다. groupby() 는 원본 데이터를 개별 그룹으로 나누어 이 그룹들에 특정 연산을 수행하고 수행 결과를 나타내는 각 그룹들을 합치기 위한 메소드이다. 예를 들어, 초등..

  3. 2022.05.29 [Pandas] 데이터 가공

    데이터 가공 분석하려는 원본 데이터는 사용자가 원하는 형태가 아니며, 활용하기 어려운 구조이기 때문에 전처리 과정이 필요하다. 데이터를 원하는 형태로 변형해 분석하기 쉽게 만드는 것은 빅데이터 분석의 궁극적인 목적, 즉 데이터 활용을 극대화하는 작업이며 시각화 전 단계로써 매우 중요한 과정이다. 판다스는 우리가 원하는 데이터 세트를 구성할 수 있도록 인덱스의 다양한 종류의 로직과 선형 대수 기능을 포함하는 시리즈와 데이터프레임을 쉽게 결합하는 여러 방법을 제공한다. 이 방법들을 이용해 서로 다른 데이터 세트를 가공하면 새로운 가치를 창출할 수 있다. 데이터 이어 붙이기 판다스의 concat() 함수를 이용하면 시리즈와 데이터프레임을 이어 붙일 수 있다. 특히 같은 길이의 행이나 열을 따라 데이터를 이어 ..

  4. 2022.05.27 [Pandas] 데이터 타입과 입출력

    데이터 타입과 입출력 판다스에서 제공하는 함수들을 이용해 직접 데이터를 읽고 출력할 수 있다. 판다스에서 데이터를 입력하고 출력하는 함수들의 세트를 I/O API 라고 한다. 판다스 I/O API를 이용해 다루는 데이터 타입은 텍스트 파일, 이진 데이터 그리고 SQL인 데이터베이스가 있다. 형식 데이터 타입 읽기 함수 쓰기 함수 텍스트 CSV read_csv to_csv JSON read_json to_json HTML read_html to_html Local Clipboard read_clipboard to_clipboard 이진 데이터 MS 액셀 read_excel to_excel HDF5 read_hdf to_hdf Feather read_feather to_feather Parquet read_..

  5. 2022.05.27 [Pandas] 데이터 처리

    데이터 처리 판다스 객체에서 데이터 세트를 서브세트로 설정하거나 서브세트를 얻으려면 축을 라벨 처리해야 한다. 라벨 처리는 데이터 분석, 시각화, 양방향 디스플레이 기능에서 중요한 과정이며, 데이터를 자동 정렬하고 명시적으로 표현한다. 데이터 선택 데이터는 라벨(Label), 위치(Position), 호출(Call)을 이용해 선택할 수 있다. ① 라벨로 데이터 선택 라벨을 이용한 데이터 선택은 임의의 축을 따라서 범위를 나누는 일관성 있는 방법으로써 loc 속성을 사용한다. loc 속성에 입력할 수 있는 것들 1 또는 a 와 같은 단일 라벨 ['a', 'b', 'c'] 와 같은 리스트나 라벨들의 배열 a:f 와 같은 슬라이스 객체 불리언 배열 호출 함수 loc 속성은 데이터의 인덱스 타입이 일치하지 않으..

  6. 2022.05.25 [Pandas] 판다스의 주요 기능

    판다스의 주요 기능 head 와 tail 메소드를 사용하여 시리즈나 데이터프레임의 내용을 살펴볼 수 있다. >>> ser = pd.Series(np.random.randn(1000)) >>> ser.head() 0 0.800680 1 -1.002317 2 0.808993 3 0.648255 4 -1.096188 dtype: float64 >>> ser.tail(3) 997 0.905623 998 -0.383506 999 -0.104021 dtype: float64 판다스는 메타데이터에 접근하도록 많은 속성을 가지고 있다. shape 속성으로 객체의 축 차원을 알 수 있다. 축 라벨을 확인하기 위해 시리즈에는 index, 데이터프레임의 행에는 index, 그리고 열에는 columns 속성을 사용할 수 있다..

  7. 2022.05.24 [Pandas] 판다스 데이터 구조 1

    판다스 데이터 구조 판다스는 계층적으로 넘파이(NumPy) 바로 위에 위치하며, 시리즈(Series)와 데이터프레임(DataFrame) 데이터 구조를 지원함으로써 데이터를 빠르게 처리한다. 차원 이름 설명 1 시리즈(Series) 라벨 표시된 1차원의 동일한 형태의 배열 2 데이터프레임(DataFrame) - 동일하지 않은 형태의 열을 가짐. - 라벨 표시된 2차원의, 크기 변동이 가능한 테이블형 구조 판다스 데이터 구조는 저차원 데이터를 유연하게 포함하는 컨테이너이다. 따라서 데이터프레임은 시리즈의 컨테이너이고, 시리즈는 스칼라의 컨테이너이다. 딕셔너리 데이터에서 적용하는 방법을 이용해 이들 컨테이너에 객체들을 넣거나 지울 수 있다. 판다스를 사용하기 위해 다음의 모듈을 임포트(Import) 한다. #..

  8. 2022.05.24 [Pandas] 판다스(Pandas) 개요

    판다스(Pandas) 개요 판다스(Pandas) Panel Data System의 약어 파이썬으로 빅데이터를 처리하고 분석하는 데 가장 빈번하게 사용하며, 데이터 전처리에사 큰 비중을 차지하는 라이브러리 수치 테이블과 시계열(Time Series)을 처리하는 데이터 구조와 연산 방법을 제공한다. 2008년 초, Wes McKinney에 의해 금융 데이터를 계량 분석하기 위해 개발됐다. 2015년, 비영리단체 NumFOCUS에 의해 오픈소스로 관리되기 시작하였다. 공식 홈페이지 : https://pandas.pydata.org/ 판다스(Pandas)와 넘파이(NumPy) 판다스는 패널 데이터(Panel Data) 구조를 제공하기 위해 넘파이(NumPy) 위에 구성되도록 개발되었으므로 넘파이에서 쉽게 사용할..

728x90


📖 Contents 📖