별의 공부 블로그 🧑🏻‍💻

🗒️ 데이터프레임 (4)

728x90
  1. 2022.05.30 [Pandas] 데이터의 그룹 연산

    데이터의 그룹 연산 데이터의 그룹 연산은 원본 데이터 세트 객체를 그룹별로 분할(Split)하고 분할된 각 그룹에 함수를 적용(Apply)하고 결과를 통합(Combine)하는 연산을 수행한다. 이를 하나의 용어로 Split-Apply-Combine 이라 한다. 대다수의 경우 데이터를 여러 집합(Sets)으로 분할하고, 분할된 각 부분 집합에 함수와 같은 기능을 적용한다. 또는 분할하지 않더라도 여러 데이터 세트의 값들을 원하는 조건에 따라 어떤 인덱스나 라벨에 하나의 값으로 변환하는 형태로써 데이터를 합치는데, 이를 그룹 연산이라고 한다. groupby() 는 원본 데이터를 개별 그룹으로 나누어 이 그룹들에 특정 연산을 수행하고 수행 결과를 나타내는 각 그룹들을 합치기 위한 메소드이다. 예를 들어, 초등..

  2. 2022.05.27 [Pandas] 데이터 처리

    데이터 처리 판다스 객체에서 데이터 세트를 서브세트로 설정하거나 서브세트를 얻으려면 축을 라벨 처리해야 한다. 라벨 처리는 데이터 분석, 시각화, 양방향 디스플레이 기능에서 중요한 과정이며, 데이터를 자동 정렬하고 명시적으로 표현한다. 데이터 선택 데이터는 라벨(Label), 위치(Position), 호출(Call)을 이용해 선택할 수 있다. ① 라벨로 데이터 선택 라벨을 이용한 데이터 선택은 임의의 축을 따라서 범위를 나누는 일관성 있는 방법으로써 loc 속성을 사용한다. loc 속성에 입력할 수 있는 것들 1 또는 a 와 같은 단일 라벨 ['a', 'b', 'c'] 와 같은 리스트나 라벨들의 배열 a:f 와 같은 슬라이스 객체 불리언 배열 호출 함수 loc 속성은 데이터의 인덱스 타입이 일치하지 않으..

  3. 2022.05.25 [Pandas] 판다스의 주요 기능

    판다스의 주요 기능 head 와 tail 메소드를 사용하여 시리즈나 데이터프레임의 내용을 살펴볼 수 있다. >>> ser = pd.Series(np.random.randn(1000)) >>> ser.head() 0 0.800680 1 -1.002317 2 0.808993 3 0.648255 4 -1.096188 dtype: float64 >>> ser.tail(3) 997 0.905623 998 -0.383506 999 -0.104021 dtype: float64 판다스는 메타데이터에 접근하도록 많은 속성을 가지고 있다. shape 속성으로 객체의 축 차원을 알 수 있다. 축 라벨을 확인하기 위해 시리즈에는 index, 데이터프레임의 행에는 index, 그리고 열에는 columns 속성을 사용할 수 있다..

  4. 2022.05.24 [Pandas] 판다스 데이터 구조 1

    판다스 데이터 구조 판다스는 계층적으로 넘파이(NumPy) 바로 위에 위치하며, 시리즈(Series)와 데이터프레임(DataFrame) 데이터 구조를 지원함으로써 데이터를 빠르게 처리한다. 차원 이름 설명 1 시리즈(Series) 라벨 표시된 1차원의 동일한 형태의 배열 2 데이터프레임(DataFrame) - 동일하지 않은 형태의 열을 가짐. - 라벨 표시된 2차원의, 크기 변동이 가능한 테이블형 구조 판다스 데이터 구조는 저차원 데이터를 유연하게 포함하는 컨테이너이다. 따라서 데이터프레임은 시리즈의 컨테이너이고, 시리즈는 스칼라의 컨테이너이다. 딕셔너리 데이터에서 적용하는 방법을 이용해 이들 컨테이너에 객체들을 넣거나 지울 수 있다. 판다스를 사용하기 위해 다음의 모듈을 임포트(Import) 한다. #..

728x90


📖 Contents 📖