본문 바로가기

데이터프레임8

[Python] 데이터프레임 병합 (.merge) 안녕하세요. 우주신 입니다. 이번에는 pandas의 merge()를 이용해 데이터프레임끼리 병합하는 방법에 대해 알아보겠습니다. 우선, import pandas as pd를 통해 pandas를 가져왔습니다.지난 포스팅의 데이터프레임 결합에서 이용했던 데이터프레임을 그대로 쓰겠습니다. df1과 df2는 인덱스만 다를 뿐 값이 다 같고, df3는 df1과 달리 3번째 열이 'Color_Num'입니다. 1. pd.merge(데이터프레임, 데이터프레임) 인덱스만 다르고 값이 같은 df1과 df2를 병합 시켜보겠습니다. 위의 출력 결과를 보면, 인덱스와 상관 없이 병합이 되고, 같은 값들은 중복 표기가 되지 않습니다. 2. pd.merge(데이터프레임, 데이터프레임, on = ' ') 이번에는 특정 열을 지정하여.. 2017. 11. 28.
[Python] 데이터프레임 결합 (.concat, .append) 안녕하세요. 우주신 입니다. 파이썬에서 데이터프레임을 합치는 여러가지 방법이 있지만, 오늘은 concat, append 두 가지 함수에 대해 포스팅 해보겠습니다. 두 데이터프레임을 합치고 싶은데 의도대로 합쳐지지도 않고, 계속해서 에러가 나기도 할텐데, 기본 기능부터 확실히 짚고 넘어가면 여러 방면으로 활용할 수 있을 것 입니다. pandas부터 import 하고 시작~ import pandas as pd 1. pd.concat() concat은 연결의 뜻을 가진 concatenation의 줄임말 입니다. 사용하는 방법은 아주 간단 합니다. pd.concat( [데이터프레임, 데이터프레임] ) 여기서 데이터프레임은 두 개 이상도 가능합니다만, 꼭 [] 안에 넣어주셔야 에러 안 납니다~ 먼저, 쉽게 이해하.. 2017. 11. 27.
[Python] 데이터프레임 관련 기본 함수(shape, dtypes, axes, T, index, ix[], columns) 안녕하세요. 우주신 입니다. 오늘을 데이터프레임과 관련하여 기본 함수들에 대해 포스팅 해보겠습니다. shape, dtypes, axes, T, index, ix[], columns 우선, pandas를 활용하여 df1 데이터프레임을 만들었습니다. 1. shape: 행과 열의 개수를 튜플로 반환 형식: dataframe명.shape 3행 3열을 튜플로 반환한 것을 확인할 수 있습니다. 2. dtypes: 열을 기준으로 데이터 형태 반환 형식: dataframe명.dtypes저는 모든 데이터를 문자로 만들었기에 object가 반환 됐습니다. 3. axes: 행과 열의 이름을 리스트로 반환 형식: dataframe명.axes행의 이름이 먼저 반환되고 열의 이름이 반환된 것을 확인할 수 있습니다. 4. T: 전.. 2017. 9. 10.
[Python] 데이터프레임 만들기 (pandas 활용) 안녕하세요. 우주신 입니다. 오랜만에 블로그 글을 남깁니다. 이것저것 바빠 활동을 잘하지 못 했네요. 앞으로 더 많은 포스팅 하겠습니다. 오늘은 pandas를 활용하여 데이터프레임을 생성하는 방법을 보겠습니다. 데이터 분석을 한다면 R로 하는 경우가 많았는데, pandas가 등장한 뒤로 파이썬에서도 쉽게 데이터를 다룰 수 있게 되어 많은 사랑을 받고 있어요! 먼저, pandas 모듈을 가져오고, DataFrame 기능을 간단히 df로 정의했습니다. df(data= )의 데이터 입력 자리에 딕셔너리를 활용하여 df1 데이터프레임을 만들어봤습니다. 아주 깔끔하게 데이터프레임이 생성된 것을 확인할 수 있습니다. 자, 이제 열의 순서를 바꿔보겠습니다. 단순히, columns= 옵션을 활용하여 [] 리스트 안에 .. 2017. 9. 6.
[R] 엑셀 데이터 불러오기, 저장하기 (CSV파일) 안녕하세요. 우주신입니다!오늘은 외부 파일을 불러오고 저장하는 방법에 대해 정리해보겠습니다. R로 작업할 때는 외부 데이터를 불러와야 하는 경우가 정말 많습니다. 특히, R은 통계 컴퓨팅 및 그래픽을 위한 언어이기에 엑셀(Excel) 파일을 불러올 때가 많은데, 외부 데이터를 불러오고 저장하는 여러가지 방법 중 가장 쉬운 방법인 CSV파일에 대해 배워보겠습니다. CSV는 Comma Seperated Value의 약자로서 , 몇 가지 필드를 콤마(,)로 구분한 텍스트 데이터 및 텍스트 파일입니다. 이러한 CSV 파일을 사용함으로써 많은 양의 데이터를 줄일 수 있는데, 이는 CSV가 단순 텍스트 형식으로 저장되기에 모든 서식은 제거되고 그 값만이 저장되기 때문이죠. EXCEL의 모든 파일은 csv로 저장이 .. 2017. 2. 11.
[R] 데이터프레임(DataFrame) 변수명 변경, 변수 선택 및 정렬 안녕하세요. 우주신입니다. 이전 포스팅에 이어 오늘은 데이터프레임 변수명 변경, 변수 선택 및 정렬에 대해 정리해보겠습니다. 우선, 매장 번호, 수입, 방문자수, 매니저로 구성된 데이터프레임을 하나 만들어보겠습니다. 1. 데이터프레임 변수명 변경 변수명 변경에는 두 가지 방법이 있습니다. 첫번째는 names( ) 함수를 사용해서 변경.names(dataframe) 이 두 명령어만 입력하면 패키지 안의 함수들을 사용할 수 있습니다. V1, V2, V3, V4 변수명이 다시 바뀐 것을 확인할 수 있죠? 2. 데이터프레임 변수 선택 데이터프레임을 사용하다보면 특정 변수를 선별해야 하는 경우가 많습니다.먼저, index[which( )] 함수에 대해 알아보겠습니다.dataframe[which(조건, 변수선택)].. 2017. 2. 7.
[R] 데이터프레임(DataFrame) 생성, 변수 추가, 결합 및 인덱싱 안녕하세요. 우주신 입니다. 블로그를 시작한지 아직 한달도 안 됐지만 몇몇분들이 방문해주시니 너무 신기하고 감사하네요!! 새삼 21세기 정보화 사회에 살고 있구나 깨닫고 인터넷의 위엄을 느끼기도 합니다. 공부하는 데 조금이라도 도움이 되기를 바라는 마음으로 오늘은 데이터프레임에 대해 정리해보겠습니다. 데이터프레임(DataFrame)은 R에서 가장 많이 쓰이는 데이터 구조라 정말 중요합니다! 다른 데이터구조와는 달리 데이터 유형에 국한받지 않고 2차원 형태의 데이터 구조를 생성할 수 있기 때문이죠. 1. 데이터프레임(DataFrame) 생성 우선, xNum, xLog, xChar 변수들을 가지고 df 라는 데이터프레임을 생성했습니다. 데이터프레임을 만들 땐, data.frame( ) 함수를 사용하면 되는 .. 2017. 2. 7.
[R] 데이터 구조 (벡터, 요인, 행렬, 배열, 데이터프레임, 리스트) 안녕하세요! 우주신입니다. 오늘은 R 데이터 구조에 대해 배워보겠습니다. 정말 중요한 부분입니다. 지금 잘 짚고 넘어가지 않는다면, 나중에 머리털 다 빠집니다. 이론적으로 한번 보시고, 꼭 직접 해보시길 부탁드립니다. R 데이터 구조는 1. 벡터 2. 요인 3. 행렬 4. 배열 5. 데이터프레임 6. 리스트로 나뉩니다. 찬찬히 하나씩 보겠습니다. 1. 백터 (Vector) 앞 시간에서 잠시 언급했지만 벡터는 동일한 유형의 데이터로 구성되어 있는 1차원 데이터 구조입니다.숫자형은 숫자형끼리, 문자형은 문자형끼리, 논리형은 논리형끼리. 2. 요인 (Factor) 요인형은 범주형의 데이터 입니다.( 1, 2, 3은 숫자이지만, 첫번째, 두번째, 세번째는 범주형이다 ) 범주형으로 만들기 위해선 먼저, 범주 카테.. 2017. 1. 25.