[Python] Missing Data(NA, NaN) 결측값 처리
안녕하세요. 우주신 입니다. 데이터 분석에 있어 가장 중요한 과정은 결측값 및 특이값을 얼마나 잘 처리하는지의 유무에 달려 있다고 생각하는데요, 오늘은 pandas를 이용하여 NA, NaN 데이터를 처리하는 가장 기본적인 몇가지 방법을 포스팅 하겠습니다. df.dropna(), df.fillna() 우선, 결측값이나 특이값을 처리하는 3가지 방법이 있습니다. 1. 무시한다 2. 제거한다 3. 다른 값으로 대체한다 먼저, pandas와 numpy를 이용해 NaN 값이 포함된 데이터프레임을 만들었습니다. import pandas as pd import numpy as np df = pd.DataFrame([[1, np.nan, 2, np.nan], [3, np.nan, 4, 5], [5, 6, 7, np.n..
2017. 12. 6.
[Python] 데이터프레임 관련 기본 함수(shape, dtypes, axes, T, index, ix[], columns)
안녕하세요. 우주신 입니다. 오늘을 데이터프레임과 관련하여 기본 함수들에 대해 포스팅 해보겠습니다. shape, dtypes, axes, T, index, ix[], columns 우선, pandas를 활용하여 df1 데이터프레임을 만들었습니다. 1. shape: 행과 열의 개수를 튜플로 반환 형식: dataframe명.shape 3행 3열을 튜플로 반환한 것을 확인할 수 있습니다. 2. dtypes: 열을 기준으로 데이터 형태 반환 형식: dataframe명.dtypes저는 모든 데이터를 문자로 만들었기에 object가 반환 됐습니다. 3. axes: 행과 열의 이름을 리스트로 반환 형식: dataframe명.axes행의 이름이 먼저 반환되고 열의 이름이 반환된 것을 확인할 수 있습니다. 4. T: 전..
2017. 9. 10.