본문 바로가기

그 외 코드/Python

Pandas를 이용한 데이터 전처리 방법 - 파일 읽기, 누락값 처리

728x90
반응형

Pandas

from pandas import DataFrame, Series
import pandas as pd

텍스트 파일 읽기

pandas의 read_csv 메소드를 사용하면 텍스트파일을 읽어들여 2차원 데이터 객체인 DataFrame으로 생성할 수 있
다.

concrete = pd.read_csv('concrete_na.csv')

   

   

 

concrete # 표 확인

정보 조회

DataFrame은 번호가지고 색인을 하지 않음.
array 이름이 붙어있어서 key 처럼 사용하면 됨.

  • 내용 일부분 보기
concrete.head()

 

concrete.tail()

 

concrete.iloc[:3]

 

concrete.iloc[-3:]

 

  • 설명
concrete.describe()

  

  • 요약정보
concrete.info()

 

concrete.plot()

누락 값 처리

  • 임의로 2번, 3번 행의 모든 데이터가 누락 값이 되도록 변경
import numpy as np
concrete.iloc[2:4] = np.nan

 

  • 누락값의 개수 확인
concrete.isnull().sum(0)

 

concrete.head() #누락값이 NaN으로 표시 된 것을 볼 수 있다.

  • 누락값이 모든 열에 있을 때 데이터를 버림
concrete.dropna(0, how='all', inplace=True)

 

  • 누락값을 특정 값으로 채움
concrete.fillna(100) #숫자가 아닌 문자로도 채울 수 있다.

 

 

  • 누락값을 평균값으로 채움
concrete.mean(0) #평균값 보기

 

concrete.fillna(concrete.mean(0)).head()

 

 

728x90
반응형