본문 바로가기

삶/단상

로그를 통해서 데이터 분석을 이제 시작하려는데

분산 데이터 처리에 있어서 구글이 세상을 평정한 이후로, 오픈소스 진영에서 구글의 대부분 분산 데이터 처리 플랫폼, 서비스에 대한 클론(clone)의 습격이 시작 되었는데.. 최근 10년간 너무 많은 오픈소스가 생겨났고 하나 하나 열거하기에는 어렵고, 쫓아가기도 어려운 상황


그래서 이러 저러한 하둡 에코시스템의 조합을 미리 만들어 주고, 컨설팅 해주는 업체가 가장 잘나가는 2회사가 클라우데라, 호튼웍스가 살아남음.

호튼웍스 http://hortonworks.com/hdp/ 

클라우데라 https://cloudera.com/products/apache-hadoop.html 

두 회사를 비교도 https://www.experfy.com/blog/cloudera-vs-hortonworks-comparing-hadoop-distributions/


그리고 현재 하둡 에코시스템 들에 대해 적당한 이해가 있어야 

오래된 글이지만 그림이 좋아서 http://practicalanalytics.co/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/

심플한 것도 하나 보고 https://dzone.com/articles/ecosystem-hadoop-animal-zoo-0


이 정도 수준에서 맛만 보고, 데이터 분석을 위한 몇가지 선택지가 있을텐데


1. 하둡 에코 시스템 가운데 가장 중요한 2~3가지만 선택해서 적용해 본다.

2. 호튼웍스, 클라우데라 배포판을 그대로 깔아서 쓴다

3. 직접 하나 하나 설치 및 맞춰가면서 원하는 인프라를 조합해서 쓴다.


3번이 가장 좋긴 하지만, 리소스나 기술인력 면에서는 가장 비용이 많이 드는 것이니 어려울 듯, 

여유 자금이 된다면야 AWS, GCP 통해서 2번으로 가는게 제일 좋음.


데이터센터에 구축하는 것을 계획하고 진행할 것이라면 1번으로 fast prototype 후, 2번으로 빠르게 적용하는 것이 현재는 가장 좋은 선택.

단순한 로그 조회를 통해 인사이트를 얻고자 한다면

 구성은 hadoop + logstash + fluentd + elasticsearch + kibana 조합으로 가면 될 듯.