안녕하세요. 우주신입니다!
오늘은 외부 파일을 불러오고 저장하는 방법에 대해 정리해보겠습니다.
R로 작업할 때는 외부 데이터를 불러와야 하는 경우가 정말 많습니다.
특히, R은 통계 컴퓨팅 및 그래픽을 위한 언어이기에 엑셀(Excel) 파일을 불러올 때가 많은데,
외부 데이터를 불러오고 저장하는 여러가지 방법 중 가장 쉬운 방법인 CSV파일에 대해 배워보겠습니다.
CSV는 Comma Seperated Value의 약자로서 , 몇 가지 필드를 콤마(,)로 구분한 텍스트 데이터 및 텍스트 파일입니다.
이러한 CSV 파일을 사용함으로써 많은 양의 데이터를 줄일 수 있는데,
이는 CSV가 단순 텍스트 형식으로 저장되기에 모든 서식은 제거되고 그 값만이 저장되기 때문이죠.
EXCEL의 모든 파일은 csv로 저장이 가능하며 저장할 때 형식만 .csv로 바꿔주면 됩니다.
1. CSV파일로 저장하기
저번 시간에 만들었던 store.df 데이터프레임을 외부 파일에 저장해보겠습니다.
우선, setwd( ) 함수를 통해서 작업폴더를 먼저 지정해줘야하는 것 깜빡하지 마십쇼!
write.csv(store.df, file="store-df.csv", row.names = FALSE
-store.df: 데이터프레임 이름
-file="store-df.csv": 파일명 설정하기
-row.names = FASLE: 행의 이름을 생략 (TRUE를 했을 시 1, 2, 3, 4, 5가 하나의 데이터로써 저장이 됩니다)
그 후, 작업폴더를 들어가면 .csv 형식 파일로 저장되어 있는 것을 확인할 수 있습니다.
파일을 열어보면, 데이터프레임이 그대로 저장된 것을 볼 수 있습니다.
2. CSV파일 불러오기
이번에는 read.csv( )함수를 써서 People 파일을 불러오겠습니다.
데이터는 밑과 같은 형태 입니다.
DF라는 변수에 People 파일을 불러왔습니다.
read.csv('People.csv', header = TRUE, stringsAsFactors = FALSE, na.strings = "")
-'People.csv': 불러올 파일명
-header=TRUE: 변수명으로 사용 (Name, Age, Color가 변수명이 되는 것)
-stringsAsFactor=FALSE: 문자형 데이터를 요인(factor)로 인식하지 않음
-na.strings="": 결측값을 표시 ("", ".", NA 등이 있음)
불러오는 파일만 같고 모든 조건을 반대로 해봤습니다.
-header=FALSE: 변수명으로 사용하지 않음 (V1, V2, V3라는 새로운 변수명이 생김)
-stringsAsFactor=TRUE: str(DF1)을 보면 모든 데이터가 요인(factor)로 인식됨
-na.strings="": 이 조건이 생략됨으로써 결측값이데이터를 확인하면 빈칸으로 표시됨
끝
수고하셨습니다.
'R' 카테고리의 다른 글
[R] 기술통계(Descriptive Statistics) 함수 시각화 (0) | 2017.02.18 |
---|---|
[R] 기술통계(Descriptive Statistics) 함수 (0) | 2017.02.11 |
[R] 데이터프레임(DataFrame) 변수명 변경, 변수 선택 및 정렬 (5) | 2017.02.07 |
[R] 데이터프레임(DataFrame) 생성, 변수 추가, 결합 및 인덱싱 (4) | 2017.02.07 |
[R] 행렬(Matrix) 기본함수 및 인덱싱 (0) | 2017.02.01 |
댓글