실습/python
pandas 데이터 처리 및 csv 입출력
gldmg
2018. 7. 15. 15:37
pip install pandas
로 간단히 설치 가능
pandas는 DataFrame 이라는 객체를 통해, 데이터들을 처리함.
### 기본 사용법 ###
import pandas as pd # np, tf처럼 대개 pd라고 사용 # DataFrame 생성 코드. 인자로 초기화값과 인덱스 값을 넣어주면 해당 크기만큼 초기화된 df를 얻을 수 있음 # 보통 DataFrame은 df라고 줄여서 표현 df = pd.DataFrame(columns=['ID', 'value']) # 데이터 삽입 예시. python의 append와는 다르게 반환값으로 다시 갱신해줘야함 df = df.append({'ID':'hi', 'value':50}, ignore_index=True) # 다양한 연산자 제공. append와 마찬가지로 반환값을 통해 갱신이 필요함 df.mean(), df/10, df.round(2) # df 분할 id_df = df.iloc[:, 0] value_df = df.iloc[:, 1:] # df 병합. DB에서 배운 join 등의 연산도 가능함. 검색하면 다나옴 df = pd.concat([label_df, value_df], axis=1, sort=False) # df 객체의 value들을 numpy 배열로 반환해줌 df.values
### csv 파일 처리 ###
# csv 파일 로드 예시. index_col은 0번째(첫번째) 줄의 값들을 column id로 사용하겠다는 의미. # index_col 값을 0으로 줘야할 때는 굳이 안써줘도 알아서 잘됨 (예시를 위해 넣음) df = pd.read_csv(os.path.join(dataDir, 'train.csv'), low_memory=False, index_col=0) # df로부터 csv파일 저장. # header는 column들의 id 값 표시 여부 # index는 row들의 id 값 표시 여부 df.to_csv("filename.csv", mode='a', header=True, index=False)