서비스 기획자의 성장기록

[Pandas] Pandas 라이브러리 / Series, DataFrame 생성 본문

Python/Pandas

[Pandas] Pandas 라이브러리 / Series, DataFrame 생성

Jenny Noh 2023. 11. 10. 19:56

1. Pandas 라이브러리 개요

Pandas는 데이터 조작과 분석을 위해 파이썬으로 작성된 sw 라이브러리입니다. 

Pandas는 엑셀과 같이 데이터 테이블에 대한 연산과 조작을 할 수 있는 기능을 제공합니다. 

주로 머신러닝에서 데이터 전처리를 하기 위한 도구로 사용됩니다.

 

 

 

2. Pandas 불러오기

Pandas는 보통 Numpy와 함께 불러와서 사용합니다.

Numpy는 np로, Pandas는 pd라는 별칭으로 불러와서 사용합니다. 

 

 

 

3. Pandas 자료구조

Pandas에는 다음과 같은 세 가지 자료구조가 있습니다.

 

 (1) Series  

Series 객체는 데이터 프레임이서 column을 구성하는 객체입니다.

Index와 value 값을 가지는 1차원의 데이터 구조입니다.

 

  Series 생성하기  

Series는 두 가지 방법으로 생성할 수 있습니다.

 

① 리스트 형태로 값 전달하기

: pd.Series(list, index)

Series에 담을 값을 리스트로 선언하고 pd.Series()에 리스트를 넣어 series 객체를 생성합니다.

우선은 별도의 index 파라미터를 전달하지 않았기 때문에, 인덱스 값은 default 값인 0~data length까지 순차적으로 생성됩니다.

index 파라미터로 인덱스 값을 설정할 수도 있습니다.

이때, index는 리스트의 형태로 전달합니다.

 

 

② 딕셔너리 형태로 값 전달하기

: pd.Series(dictionary)

딕셔너리로 값을 전달할 수도 있습니다.

이때, 딕셔너리의 key값이 index 값이 되기 때문에 별도로 index 파라미터를 전달해 줄 필요는 없습니다.

 

 

 

 

 (2) DataFrame  

  DataFrame 생성하기 

데이터프레임도 마찬가지로 리스트 또는 딕셔너리를 전달하는 두 가지 방식으로 생성할 수 있습니다.

이 때, 데이터프레임은 2차원의 구조이기 때문에 이중 리스트 형태로 전달합니다.

 

① 이중 리스트 형태로 값 전달하기

: pd.DataFrame(list, index)

 

이중 리스트인 menu 객체를 생성해서 이를 데이터 프레임의 값으로 전달해 주었습니다.

Series와 마찬가지로 index 파라미터를 전달해 줄 수 있습니다. (default 값은 0에서부터 순차적으로 부여)

이 때, columns 파라미터에 각 열의 이름을 리스트로 전달하면 위와 같이 열에도 이름을 붙일 수 있습니다.

 

 

 

② 딕셔너리 형태로 값 전달하기

: pd.DataFrame(dictionary, index)

딕셔너리 형태로 값을 전달할 수도 있습니다.

이때, 딕셔너리의 key 값은 열의 이름인 columns 파라미터로 전달됩니다.

별도로 index 파라미터에 행 이름을 전달해 줄 수 있습니다. 

 

 

 

 

 

 (3) Index  

Index 객체는 Series와 DataFrame의 인덱스를 구성하는 요소로, indexcolumns로 구성되어있습니다.

생성한 데이터프레임의 index와 columns 속성을 확인해 보면 둘 다 Index 클래스의 객체인 것을 확인할 수 있습니다.