R

[R] 엑셀 데이터 불러오기, 저장하기 (CSV파일)

JKyun 2017. 2. 11. 13:03

안녕하세요. 우주신입니다!

오늘은 외부 파일을 불러오고 저장하는 방법에 대해 정리해보겠습니다.


R로 작업할 때는 외부 데이터를 불러와야 하는 경우가 정말 많습니다.


특히, R은 통계 컴퓨팅 및 그래픽을 위한 언어이기에 엑셀(Excel) 파일을 불러올 때가 많은데,


외부 데이터를 불러오고 저장하는 여러가지 방법 중 가장 쉬운 방법인 CSV파일에 대해 배워보겠습니다.


CSV는 Comma Seperated Value의 약자로서 , 몇 가지 필드를 콤마(,)로 구분한 텍스트 데이터 및 텍스트 파일입니다.


이러한 CSV 파일을 사용함으로써 많은 양의 데이터를 줄일 수 있는데, 


이는 CSV가 단순 텍스트 형식으로 저장되기에 모든 서식은 제거되고 그 값만이 저장되기 때문이죠.


EXCEL의 모든 파일은 csv로 저장이 가능하며 저장할 때 형식만 .csv로 바꿔주면 됩니다.




1. CSV파일로 저장하기


저번 시간에 만들었던 store.df 데이터프레임을 외부 파일에 저장해보겠습니다.

우선, setwd( ) 함수를 통해서 작업폴더를 먼저 지정해줘야하는 것 깜빡하지 마십쇼!


write.csv(store.df, file="store-df.csv", row.names = FALSE

-store.df: 데이터프레임 이름

-file="store-df.csv": 파일명 설정하기

-row.names = FASLE: 행의 이름을 생략 (TRUE를 했을 시 1, 2, 3, 4, 5가 하나의 데이터로써 저장이 됩니다)


그 후, 작업폴더를 들어가면 .csv 형식 파일로 저장되어 있는 것을 확인할 수 있습니다.



파일을 열어보면, 데이터프레임이 그대로 저장된 것을 볼 수 있습니다.




2. CSV파일 불러오기


이번에는 read.csv( )함수를 써서 People 파일을 불러오겠습니다.


데이터는 밑과 같은 형태 입니다.



DF라는 변수에 People 파일을 불러왔습니다.


read.csv('People.csv', header = TRUE, stringsAsFactors = FALSE, na.strings = "")

-'People.csv': 불러올 파일명

-header=TRUE: 변수명으로 사용 (Name, Age, Color가 변수명이 되는 것)

-stringsAsFactor=FALSE: 문자형 데이터를 요인(factor)로 인식하지 않음

-na.strings="": 결측값을 표시 ("", ".", NA 등이 있음)



불러오는 파일만 같고 모든 조건을 반대로 해봤습니다.


-header=FALSE: 변수명으로 사용하지 않음 (V1, V2, V3라는 새로운 변수명이 생김)

-stringsAsFactor=TRUE: str(DF1)을 보면 모든 데이터가 요인(factor)로 인식됨

-na.strings="": 이 조건이 생략됨으로써 결측값이데이터를 확인하면 빈칸으로 표시됨





수고하셨습니다.