[R] 행(row), 열(column) 이름, 순서 변경 및 맞추기
안녕하세요. 우주신 입니다. 이번 포스팅에서는 행(row), 열(column) 이름, 순서 변경 및 맞추기에 대해 정리해보겠습니다. 행, 열 맞추기는 서로 다른 데이터셋 중 행이나 열 이름이 같은 것을 뽑아낸다고 생각하면 될 것 같습니다. 예를 들어, 서로 겹치는 주식 종목을 선택하거나 제외 시키는 경우 유용하게 사용할 수 있습니다. 1. 행(row), 열(Column) 이름 지정 우선, 설명을 위해 행렬(matrix)을 만들었습니다. (데이터프레임도 같은 원리로 적용됩니다.) 행, 열 이름을 지정하는 방법은 아주 간단합니다.colnames(), rownames() 함수를 활용하면 되는데, colnames(행렬) = c(' ') 형식으로 입력하면 됩니다.m1 을 보면 이름이 지정된 것을 확인할 수 있습니..
2017. 5. 17.
[R] 정렬, 순위 함수 sort(), rank(), order() 비교
안녕하세요. 우주신입니다. 이번 포스팅에서는 정렬, 순위 함수 sort(), rank(), order()를 비교해보겠습니다. 데이터를 처리할 때 활용도가 높은 함수들인데 가끔 혼동될 때가 있죠... 이번 기회에 싹 정리해보겠습니다. 우선, 샘플 데이터 20개를 만든 후, 설명을 위해 마지막에 NA 값을 추가했습니다. 1. sort() 예제를 보면서 이해하는 것이 수월하니 예제부터 바로 보겠습니다.sort(a) 출력 결과, 절대값을 오름차순으로 정렬했습니다.내림차순으로 정렬하고 싶을 때는 decreasing = T 옵션을 추가하면 됩니다. sort()함수는 자동으로 NA 값을 제외 시킨 후 정렬을 하기 때문에, NA 값을 표시하고 싶다면 na.last 옵션을 추가하면 됩니다.na.last = TRUE인 경..
2017. 4. 5.
[R] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 상관계수의 검정]
안녕하세요. 우주신입니다. 이번 포스팅과 다음 포스팅에서는 매우 중요한 상관분석(correlation analysis)과 회귀분석(regression analysis)에 대해 정리해보겠습니다. plot(), corrplot(), cov(), cor(), cor.test() 우리는 종종 어떤 두 사건 간의 연관성을 분석해야 할 경우가 많습니다. 둘 또는 그 이상의 변수들이 서로 관련성을 가지고 변화할 때 그 관계를 분석하는데 사용되는 방법 중에서 가장 잘 알려진 것이 상관분석(correlation analysis)과 회귀분석(regression analysis)입니다. GDP와 기대수명 간의 관계, 키와 몸무게 간의 관계 등을 예로 들 수 있는데 여기에서 두 사건, 즉 두 변수 간의 선형적 관계를 상관(c..
2017. 3. 1.
[R] 비교연산자, 논리연산자
안녕하세요. 우주신입니다. 오늘은 비교연산자와 논리 연산자에 대해 배워보겠습니다. >, =, 3만 TRUE가 나온 것을 알 수 있습니다. 같은 원리로, X가 Y보다 값이 작다면 TRUE가 아니라면 FALSE가 결과값으로 출력됩니다. Z는 구성요소가 하나임에도 X와 비교연산이 되는 것을 볼 수 있습니다. 이러한 경우에는, Z가 X의 길이에 자동으로 맞추어(4, 4, 4, 4, 4, 4) 비교연산이 이루어 집니다. 부등호 '>='는 '왼쪽항이 오른쪽 항보다 크거나 같다'는 뜻입니다. 반대로, 부등호 '
2017. 2. 25.
[R] NA, NULL, NaN, Inf, -Inf 구분 및 처리
안녕하세요. 우주신입니다! 데이터를 다루기 전에 항상 데이터 구조를 먼저 살펴보고 그 다음 결측값 및 특이값들을 처리해줘야 합니다. 오늘은 이 골칫덩어리들(NA, NULL, NaN, Inf, -Inf 등)에 대해 정리해보겠습니다. is.na(), is.nan(), is.infinite(), is.finite(), colSums(), na.rm=T, na.omit(), complete.cases() 1. NA, NULL, NaN, Inf 구분 우선, 설명을 위해 인위적인 데이터프레임을 하나 만들어보았습니다. -X 변수에는 NA 를 넣었습니다. NA는 Not Available의 약자로써 결측값 입니다. -Y 변수에는 NULL 을 넣었습니다. 그러나 데이터프레임을 보면 NULL이 들어가있지 않습니다. NULL..
2017. 2. 20.
[R] 기술통계(Descriptive Statistics) 함수
안녕하세요. 우주신입니다. 이번 포스팅과 다음 포스팅 두번 나누어 기술통계(Descriptive Statistics) 함수에 대해 다뤄보겠습니다. 기술통계는 관측한 데이터를 도표로 정리하거나 통계량(예: 평균, 분산, 상관계수, 주성분정준변량)으로 정리하는 것으로서 관측한 현상의 특징을 기술한다.[출처: 네이버 지식백과] 먼저, 데이터를 확인하는 함수들 부터 살펴보고head( ), tail( ), some( ), str( )데이터를 요약하는 방법을 보겠습니다.min( ), max( ), mean( ), median( ), var( ), sd( ), range( ), quantile( ), summary( ), apply( ) 그 외 attach( ), detach( ) 함수에 대해 배워보겠습니다. 1. ..
2017. 2. 11.
[R] 데이터프레임(DataFrame) 변수명 변경, 변수 선택 및 정렬
안녕하세요. 우주신입니다. 이전 포스팅에 이어 오늘은 데이터프레임 변수명 변경, 변수 선택 및 정렬에 대해 정리해보겠습니다. 우선, 매장 번호, 수입, 방문자수, 매니저로 구성된 데이터프레임을 하나 만들어보겠습니다. 1. 데이터프레임 변수명 변경 변수명 변경에는 두 가지 방법이 있습니다. 첫번째는 names( ) 함수를 사용해서 변경.names(dataframe) 이 두 명령어만 입력하면 패키지 안의 함수들을 사용할 수 있습니다. V1, V2, V3, V4 변수명이 다시 바뀐 것을 확인할 수 있죠? 2. 데이터프레임 변수 선택 데이터프레임을 사용하다보면 특정 변수를 선별해야 하는 경우가 많습니다.먼저, index[which( )] 함수에 대해 알아보겠습니다.dataframe[which(조건, 변수선택)]..
2017. 2. 7.