본문 바로가기

데이터6

[Python] 금융(주가) 데이터 불러오기 안녕하세요 우주신 입니다. 오늘은 pandas를 이용하여 웹에서 주가 데이터를 가져오는 방법에 대해 포스팅 하겠습니다. datetime.datetime(), pandas_datareader.DataReader(), pd.date_range(), quandl.get() 우선, 필요한 패키지를 다 다운 받습니다.그 후, pandas_datareader의 DataReader를 이용해 웹에서 주가 데이터를 다운 받겠습니다. 1. pandas_datareader.DataReader(ticker, online_source, start, end) 삼성전자 티커를 넣고 yahoo 웹에서 2010년 1월 1일부터 2016년 12월 31일까지 데이터를 데이터프레임 df에 입력했습니다.여기서 online_source는 ya.. 2017. 12. 5.
[R] 누적(Cumulative)과 관련된 함수 안녕하세요. 우주신입니다. 이번 포스팅에서는 누적과 관련된 함수에 대해 정리해보겠습니다. cumsum(), cumprod(), cummax(), cummin() 익숙해지시면 유용하게 사용되는 무척 간단한 함수들 입니다. 1. 누적 합 (Cumulative Sum) 1부터 10까지 값을 벡터 a에 넣었습니다.모두가 아는 함수로 sum()을 통해 a의 구성값들 합을 구했습니다. 그러나, 여기서 각 누적 합을 나타내려면 어떻게 해야할까요? 흔히들 while(), for() 등 반복문 함수를 통해 표현하려 시도하겠지만, cumsum() 함수 하나면 다 해결됩니다. (결과 값은 다른 형태로 표시 됩니다) 데이터프레임으로 응용해보겠습니다.벡터 b, c를 만든 후, 데이터프레임 df를 생성했습니다.b의 누적 합을 c.. 2017. 3. 23.
[R] 회귀분석(Regression Analysis) [회귀식 추정, 회귀모형 검정, 적합도 파악] 안녕하세요. 우주신입니다. 저번 상관분석 포스팅에 이어 이번에는 회귀분석(Regression Analysis)에 대해 정리해보겠습니다. 상관분석은 변수들이 서로 얼마나 밀접하게 직선적인 관계를 가지고 있는지를 분석하는 통계적 기법이며 회귀분석은 한 개 또는 그 이상의 변수들(독립변수)에 대하여 다른 한 변수(종속변수) 사이의 관계를 수학적인 모형을 이용하여 설명하고 예측하는 분석기법 입니다. 쉽게 말하자면, 상관분석에서는 산점도의 점들의 분포를 통해 일정한 패턴을 확인한 후, 상관계수를 구하여 두 변수 간의 선형관계를 알 수 있었습니다. 여기서 더 나아가, 이 일정한 패턴을 활용하여 무엇인가를 예측하는 분석을 회귀분석이라고 보시면 됩니다. '회귀분석'하면 이름도 생소하고 낯설 수 있지만, R 코드와 함께.. 2017. 3. 9.
[R] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 상관계수의 검정] 안녕하세요. 우주신입니다. 이번 포스팅과 다음 포스팅에서는 매우 중요한 상관분석(correlation analysis)과 회귀분석(regression analysis)에 대해 정리해보겠습니다. plot(), corrplot(), cov(), cor(), cor.test() 우리는 종종 어떤 두 사건 간의 연관성을 분석해야 할 경우가 많습니다. 둘 또는 그 이상의 변수들이 서로 관련성을 가지고 변화할 때 그 관계를 분석하는데 사용되는 방법 중에서 가장 잘 알려진 것이 상관분석(correlation analysis)과 회귀분석(regression analysis)입니다. GDP와 기대수명 간의 관계, 키와 몸무게 간의 관계 등을 예로 들 수 있는데 여기에서 두 사건, 즉 두 변수 간의 선형적 관계를 상관(c.. 2017. 3. 1.
[R] 비교연산자, 논리연산자 안녕하세요. 우주신입니다. 오늘은 비교연산자와 논리 연산자에 대해 배워보겠습니다. >, =, 3만 TRUE가 나온 것을 알 수 있습니다. 같은 원리로, X가 Y보다 값이 작다면 TRUE가 아니라면 FALSE가 결과값으로 출력됩니다. Z는 구성요소가 하나임에도 X와 비교연산이 되는 것을 볼 수 있습니다. 이러한 경우에는, Z가 X의 길이에 자동으로 맞추어(4, 4, 4, 4, 4, 4) 비교연산이 이루어 집니다. 부등호 '>='는 '왼쪽항이 오른쪽 항보다 크거나 같다'는 뜻입니다. 반대로, 부등호 ' 2017. 2. 25.
[R] 엑셀 데이터 불러오기, 저장하기 (CSV파일) 안녕하세요. 우주신입니다!오늘은 외부 파일을 불러오고 저장하는 방법에 대해 정리해보겠습니다. R로 작업할 때는 외부 데이터를 불러와야 하는 경우가 정말 많습니다. 특히, R은 통계 컴퓨팅 및 그래픽을 위한 언어이기에 엑셀(Excel) 파일을 불러올 때가 많은데, 외부 데이터를 불러오고 저장하는 여러가지 방법 중 가장 쉬운 방법인 CSV파일에 대해 배워보겠습니다. CSV는 Comma Seperated Value의 약자로서 , 몇 가지 필드를 콤마(,)로 구분한 텍스트 데이터 및 텍스트 파일입니다. 이러한 CSV 파일을 사용함으로써 많은 양의 데이터를 줄일 수 있는데, 이는 CSV가 단순 텍스트 형식으로 저장되기에 모든 서식은 제거되고 그 값만이 저장되기 때문이죠. EXCEL의 모든 파일은 csv로 저장이 .. 2017. 2. 11.