본문 바로가기

데이터과학

예측방법론 - 고용률, 실업률 2000년 1월 ~ 2012년 12월 실업률의 원계열과 계절조정계열에 대한 다음 물음에 답하시오. 문제1) 실업률이 무엇인지 기술하시오. (5점) 1. 자료수집 * 실업률이란? - '경제활동인구'에서 '실업자'가 차지하는 비율을 말한다. - '경제활동인구'는 만 14세 이상 인구 중 조사기간 동안 재화나 용역을 생산하기 위해 노동을 제공할 의사와 능력이 있는 사람을 말한다. - '실업자'는 15세(만 14세) 이상 인구중 조사대상주간(매월 15일이 낀 한주간)에 일을 하지 않고, 업체에 이력서를 내는 등 적극적인 구직활동을 하며, 일거리가 생기는 동시에 일을 할 수 있는 사람을 말한다. - 실업률(%) = (실업자수/경제활동인구) x 100 한국의 실업률은 비경제활동인구를 포함시키지 않는다는 점에서 현실.. 더보기
시사기획 창 - 빅 데이터 빅 데이터 (Big Data) 세상을 바꾸다 너무 많은 것들을 전달하려고 해서 정확한 메세지 전달은 되지 않았다는 생각이 들었다. 나름대로 정리한 요약문과 몇 가지 머릿속에 떠오르는 것들을 정리해 보았다. Facebook 한 달 사진 업로드 30억 건 Tweet 메시지 하루 1억건 캐롤린 맥그리거 : 의료기기들은 수많은 데이터를 뿜어내지만, 여전히 수기로 신생아의 자료를 기록하고 있었다. 자신의 아기가 미숙아로 태어나, 세상의 빛을 보지하고 잃게 되면서 이 일을 하기 시작했다. 아기를 통해 나타나는 많은 데이터를 통해서 치명적 감염 징후패턴을 발견했고, 기존의 수기로 측정했던방식보다 약 24시간 빠르게 판단할 수 있었다. 유로 바이넷 : 좁은 공간에 많은 사람들이 모이는 현상. 즉 사람들의 집단적인 움직.. 더보기
LSA (Latent Semantic Analysis) http://blog.sragent.pe.kr/entry/Latent-Semantic-AnalysisLSA http://en.wikipedia.org/wiki/Singular_value_decomposition http://stat.ethz.ch/R-manual/R-patched/library/base/html/svd.html 문서들을 N개의 차원(단어)로 이루어진 M개의 문서 행렬로 보고, SVD(Singular Value Decomposition)를 이용, 단어(T) * 가중치(S) * 문서(D) 로 분해(Decomposition). 가중치(S) 행렬은 좌측상단에서부터 우측하단으로 갈수록 그 값은 점점 작아지는 특성을 가지므로 높은 가중치를 가진 상위의 100~150 정도의 K값으로 정하고 차원을 축.. 더보기
THINK QUARTERLY Think Quarterly - The Data Issue View more documents from Ibrahim Cesar 경영자의 통찰 - 사이먼 로저스, 보다폰 중요한 것은 데이터가 통하게 하는 겁니다... 데이터는 그의 직감에 정보를 제공할 뿐, 그의 직감 자체를 지배하지는 않습니다. 데이터에 직감이 더해지면 막강한 힘을 발휘할 수 있습니다. 로렌스는 "데이터는 그 자체만으로는 무기력하다."라고 결론 짓습니다. 성공이란? 한 시간을 투자해도 더 낫게 만들 수 없으면 성공이라고 생각해요. 가장 최근에 정신줄을 놓아 본 일은? 창의적인 면에서는 항상 그러려고 노력해요. 금전적으로는 한 번도 그런 적이 없고요, 장난치는 걸로 따지자면 매일 정신줄을 놓고 살죠. 탐색적 데이터 분석 기법이라는 것도 나.. 더보기
Strata 2011: Hilary Mason, "What Data Tells Us" 올해 초 Strata2011 컨퍼런스에서 '힐러리 메이슨' 언니가 발표한 키노트입니다. 감상하시죠~ http://strataconf.com/strata2011/public/schedule/detail/17956 1. timelessness - stream, robustness 2. data storage - store - query - operate * with real time * get result before i forget 3. education - how do i become a data person 4. imagination - bit.ly 5. data type - nursistic? : news with view of mine not the other person - sement of da.. 더보기
그래서 행렬을 쓰면 뭐가 좋은거죠? 이제는 좀 더 실용적인 측면을 고려해보려고 합니다. 어디에다 쓰는 물건인가? -_-;;; 먼저 행렬의 곱셈은 어떻게 하는지 한번 보도록 하겠습니다. 행렬의 곱셈은 아래와 같은 방법을 통해서 수행합니다. 행 X 열 !! 위키피디어에 좋은 그림이 있어서 발췌했습니다. Matrix Multiplication In mathematics, matrix multiplication is the operation of multiplying a matrix with either a scalar or another matrix. This article gives an overview of the various ways to perform matrix multiplication. 이제는 좀 더 실질적인 예를 들자면, 행렬의.. 더보기
그러면 행렬과 선형대수는 무슨 관계죠? 지난 글에 이어서 이번에는 선형대수에 대한 정리를 간략하게 하고 있습니다. "'알기쉬운 선형대수'라는 책에서는 연립1차 대수적 방정식과 이들의 해는 '선행대수'라는 과정에서 공부하게 됩니다." 라고 되어있네요... '선행대수'라는 말은 일반적으로 잘 쓰지 않는 용어 같습니다. 오히려 '선형대수'라는 표현이 더 많이 사용되고 있는 것 같고요. 어쨌거나 의미상으로 '선형대수'라는 것은 Linear Algebra 즉, 1차원 대수학만을 의미하는 것 같긴 합니다. '선행대수'라고 하는 것은 오타같기도 합니다. 선형대수학이란? 선형대수학(線形代數學)은 벡터 공간, 벡터, 선형 변환, 행렬, 연립 선형 방정식 등을 연구하는 대수학의 한 분야이다. 현대 선형대수학은 그 중에서도 벡터 공간이 주 연구 대상이다. 추상대.. 더보기
행렬이 뭐죠? 이번에는 행렬에 대한 공부를 하고 있습니다. 솔직히 학부를 도시공학과를 전공했다는 이유로 공업수학 및 기타 수학에 관한 것은 전무합니다. 대학을 진학할 때에 수학을 하지 않는 다는 이유로 도시공학과를 진학했다면 믿으시겠습니까? :-) 어쨌든 지금은 무지하게 후회하고 있습니다. 솔직히 다시 정석을 보기에는 부담스럽고 해서 우연히 서점에서 보게된 교학사에서 출간된 '수학공식 활용사전'이라는 책으로 수학의 목마름을 달래고 있습니다. 행렬? 수 또는 문자를 직사각형 모양으로 나열하여 양쪽을 괄호로 묶어서 나타낸 것을 행렬이라 하고, 그 각각의 수 또는 문자를 행렬의 성분이라 한다. 또는 수의 직사각형배열이다. 그 배열된 수를 그 행렬의 성분(entries)이라 한다. 꼭 숫자가 오지 않아도 괜찮은 것일까요? 수.. 더보기
확률분포 (1) 이번에는 '확률분포'라는 개념에 대한 내용인데요, 영어로는 Probability Distribution, 한글로 풀어쓴다고 해도 그다지 직관적이지는 못한 개념인 것 같습니다. 내 나름대로 생각하는 정의는 다음과 같습니다. 확률분포란? 세상의 모든 일(사건)이 일어나는 것에 대하여 수학적인 관점에서 보게된다면 확률로 표현할 수 있을 겁니다. 즉 동전을 던졌을 때에 앞면이 나올 확률 또는 성별이 남성이고 나이가 얼마일 때에 신장 또는 몸무게 등이 어느정도 구간에 있을 확률으로 말입니다. 즉, 이러한 사건이 얼마나 공평하게 발생하는지 또는 그렇지 못한 지에 대한 정보를 수치로 표현하는 것이라 생각합니다. 이러한 표현을 할 때에 몸무게, 신장 등과 같이 연속적인 자료의 경우에는 '연속형분포' 동전 던지기와 같이.. 더보기
엑셀 데이터베이스 기능과 해 찾기 이번 강좌에서는 아무래도 엑셀 중심적으로 진행되는 듯 하는군요, 엑셀에 생각보다 많은 기능들이 있습니다. 그리고 관련도구를 사용하면, 일반적인 통계정보는 쉽게 추출할 수도 있군요... 하지만, 언제 이러한 값들을 실무에서 얼마나 잘 사용할 수 있을지는 저도 잘 모르겠습니다. -_-;; 엑셀을 통한 데이터 분석법 - '데이터 분석' 메뉴 사용 '기술통계법'평균, 표준 오차, 중앙값, 최빈값, 표준 편차, 분산, 첨도, 왜도, 범위, 최소값, 최대값, 합, 관측수간단한 클릭 몇 번으로 파워풀한 기능을 그대로 사용할 수 있습니다. '히스토그램'계급과 빈도수에 따른 히스토그램을 표현할 수 있습니다.데이터의 분포도 편중되는 현상 등을 파악할 수 있습니다. '줄기-잎 그림' (stem-leaf plot)연속된 데이.. 더보기