본문 바로가기

데이터과학/big data

시사기획 창 - 빅 데이터

빅 데이터 (Big Data) 세상을 바꾸다


 너무 많은 것들을 전달하려고 해서 정확한 메세지 전달은 되지 않았다는 생각이 들었다. 나름대로 정리한 요약문과 몇 가지 머릿속에 떠오르는 것들을 정리해 보았다.

Facebook 한 달 사진 업로드 30억 건
Tweet 메시지 하루 1억건

캐롤린 맥그리거
 : 의료기기들은 수많은 데이터를 뿜어내지만, 여전히 수기로 신생아의 자료를 기록하고 있었다. 자신의 아기가 미숙아로 태어나, 세상의 빛을 보지하고 잃게 되면서 이 일을 하기 시작했다. 아기를 통해 나타나는 많은 데이터를 통해서 치명적 감염 징후패턴을 발견했고, 기존의 수기로 측정했던방식보다 약 24시간 빠르게 판단할 수 있었다.

유로 바이넷
 : 좁은 공간에 많은 사람들이 모이는 현상. 즉 사람들의 집단적인 움직임을 실시간으로 분석하여 단위 면적당 사람들의 수와 사건 사고의 발생률

한스 로슬링 - 갭마인더
 : 감정이나 가정에 치우치지 않고 데이터를 통한 판단해야 하며, 전체적인 데이터의 모습을 볼 필요가 있다. 인구 연령대 별 한국의 인구의 변화의 추이(projection)를 통해 통찰을 얻을 수 있었다.

송길영 - 다음소프트
 : 최근 3년간 트위터 소셜분석을 통해 '마시는 것'에 대한  술에서 커피로 이동한 것을 알 수 있었고, 카페는 "좋다+예쁘다". 그리고 "유명한 -> 조용한" 카페가 점점 선호도가 높아지고 있다. 소셜분석을 통한 통찰

크리스토퍼 오스본
 : 모바일 통신 데이터를 통해 새로운 지도를 그리고 새로운 미국의 지도를 볼 수 있었다. 10년 전부터 차량의 도심진입을 막기 위한 혼잡통행료(congestion charge) 징수 프로젝트를 실행했고, 결국 차량은 줄고, 자전거가 늘었다

제프리 히어 - 스탠포드대
 : 바트가의 범죄(절도, 강력범죄, 매춘, 마약범 등)의 실시간 변화를 알 수 있는 시스템을 구축하였고, 서로 다른 종류의 범죄의 관련성은 있는지, 밤에는 어떤 범죄가 일어나는지를 알 수 있다. (높은 지대에서 낮은 지대로 내려갈 수록 범죄가 높아지더라). 샌프란시스코는 2009년 부터 범죄, 부동산 등의 100가지 묶음을 일반에 공개하여 이사 혹은 다양한 정보에 활용할 수 있게했다

한스 로슬링
 : 1인당 국민 소득, 기대수명, 시간에 따른 변화와 사회적 현상분석을 통한 (현대, 경재위기 등) 국가의 성장을 통찰. 반면, 10만 명당 자살 수의 시간에 따른 변화는 남한, 러시아는 높게 나타나고 일본과 미국은 낮다. 결구 급속한 성장에 따른 개개인의 부담으로 보여진다.
 : 일본, 한국의 출산율이 낮은 이유는 여성의 사회적 기회가 적기 때문이며, 스웨덴은 이러한 투자를 통해서 점점 나아지고 있다

송길영
 : 한국사람 : 공감 > 배려 > 실천 : 구체적인 계획과 실행에 옮기는 것

데이빗 쉐플러, 밥 조웰, 존 이와타, 폴 블룸, 피터밀러, 이상호, 조성준, 송길영, 송진오, 김경서 등


그들이 아주 복잡하거나 어려운 알고리즘을 써서 성공한 것은 아니다.
 * 단순한 데이터에 대한 깊은 고찰
 * 해당 분야와 연관된 다양한 정보, 데이터들과의 결합
 * 종합적인 혹은 전체적인 관점에서 데이터를 보는 습관
 * 무엇 보다도 논리적으로 표현하는 능력과 실행에 옮기는 실천력


 우리는 '빅 데이터' 시대에 살아가고 있다고 하는데... 나는 '빅'이라는 표현이 그리 와닫지 않는다. 어떤 경우에 '빅'이라는 수식어를 붙일 수 있다는 말인지... 다만, 과거에도 '데이터'는 존재했으며, 데이터가 양적으로 충분히 커서 얻을 수 있는 장점을 누리지 못 했다는 생각이 들었다. 지금처럼 여러 측면(볼륨, 속도, 다양성)에서 큰 데이터가 아니었다는 의미이다.

 현재는 감당하기 힘들정도의 많은 데이터들이 생겨나고 있으며, 이러한 데이터를 처리할 platform, algorithm 또한 등장하고 있다. 결국 데이터의 크기가 커지면서 담을 수 있는 그릇도 같이 커지고, 과거의 기술들이 새롭게 개발되거나 더욱 정교해지고 있다. 그리고 이러한 기술의 발전에 따라 과거에 할 수 없거나 혹은 어려웠던 것들이 가능해질 수 있다.

 결국, 실시간으로 생성되는 데이터를 처리할 만한 platform, 그 위에서 돌아가는 algorithm 그리고 해당 분야의 깊은 지식, 통찰력을 통한analysis technique 등에 지속적인 노력과 투자가 가장 중요한 부분이라 생각한다.

 이러한 3가지 요소를 모두 갖추기란 정말 쉽지 않으며, 처음부터 '빅'을 다룰 필요는 없다고 생각하며, 작지만 분석하는 능력을 키우고, 그 크기를 조금씩 키워가면서 플랫폼과 알고리즘을 갖추어 나가면 된다고 생각한다.