플랫폼, 시각화, 데이터 분석, 기반기술 공유, 시행착오 공유 등으로 구분
현재 나의 위치에서 가장 집중해야만 하는 영역은 "데이터분석, 시각화, 시행착오 공유" 정도가 가장 가깝다고 판단되며, 실제 경험, 데이터 분석의 시행착오, 잘 된 분석 프로세스에 대한 강좌를 주로 들을 예정입니다.
물론 올 해에는 직접 참석은 힘들 것같고, 동영상으로만 참석(?) 할 예정입니다. :-)
Activity Plan @ Strata 2012 Conference
1. 어떤 방법으로 들을 건데?
- 세션 별 체크포인트 매트릭스를 준비하고 채워나가는 방식
l 빅(Volume, Variety, Velocity 관점) 데이터 분석인가? 빅(v3)이라서 성공했나?
l 이번 발표에서는 어떤 방식(데이터크기, 시각화, 알고리즘, 분산, 프로세스, 삽질 등)이 키 포인트인가?
l 현재의 접근 방법이 과거에는 없는 새로운 것인가? 혹은 안되던 것이었나?
l 과거에 잘 하지 못 했던 이유가 뭐지? 그리고 기존의 방식과 다른 점은?
l 데이터의 종류? 어떤 플랫폼? 어떤 프로세스? 어떤 알고리즘 분석 방법? 어떤 결과?
l 그들이 겪었던 시행착오(배울 점)의 핵심은?
2. 한 번 다녀왔으니 뭔가 달라야 하지 않나?
- 특정 강좌에서 듣고자 하는 체크포인트를 명확히 하고 강좌에 임한다 (1번의 체크포인트 매트릭스 필수)
- 절대로 제목에 낚여서 들어가지 않는다.
- 만약 10분 정도 들어도 아니다 싶으면 나와서 다음 후보 강좌로 간다.
- 패널은 패스하자, 어차피 안 들린다.
- 강의 시간은 짧은데 너무 제목과 요약이 거창하면 일단 패스
- 궁금한 점들을 미리 영어로 영작해서 간다. 안 그러면 업체들과 대화할 때에 형식적인 대화만 오갈 뿐.
3. 그러면 어떤 결과를 얻을 수 있는데?
- 우리의 데이터 환경에 비추어 보았을 때의 MMOG(L1, L2, AION, B&S 등) 에 있어서 적절한 예제?
- 우리와 다른 점(플랫폼, 프로세스, 인력, 기술 등)은? 놓치고 있었던 점은?
- 향후 우리가 가야 할 방향을 결정하고 움직이는 데에 참고
4. 느낌은?
- 강좌의 수나 분야가 상당히 늘었으며, 초심자/중급자/고급자 카테고리를 나눈 점은 칭찬할 만 함
- 여자 강사들이 늘었다는 점도... 바람직 한 듯 합니다. ^^
5. 주로 어떤 강좌들이 있나?
- 영문순서로 제목 나열했으며 (*)는 듣고 싶은 강좌 (+)는 2차후보, (-)는 동영상 후보
Array Theory vs. Set Theory in Managing Data |
- set > relational > array 순으로 변화, 적용가능한 예제 소개 |
(*) Beautiful Vectors: Emerging Geospatial technologies in the browser (Google) |
- 엔터프라이즈 스케일의 서버 사이드 시각화 기술을 소개하고 데모 |
Big Data: Wall Street Style |
- 대용량 고객 데이터 분석을 통한 정보제공 |
Big Data = Bigger Metadata |
- 빅 데이터에는 데이터를 큐레이팅, 수집, 검증 등의 다루는 전문가가 필요하다 |
Building a Data Narrative: Discovering Haight Street |
- 지도 시각화 관련 경험 공유 |
Beyond Map/Reduce: Getting Creative With Parallel Processing |
- YARN, Mesos 에 관한 소개 ML, BSP 등 |
Beyond Map/Reduce: Getting Creative With Parallel Processing |
- 소셜 데이터를 금융 서비스, 응급 대응, 브랜드 분석 등에 적절히 활용하는 실용예제 소개 |
Corpus Bootstrapping with NLTK |
- 영어 코퍼스로 영국어 감성분석기 만들기 |
Crafting Meaningful Data Experiences |
- UX와 DataViz와의 통합에 관한 내용 |
Changing Data Standards from Wall street to DC and Beyond |
- 금융기관의 고객분석은 회사의 리스크를 줄이고, 안정성을 높이는데 크게 기여한다 |
(*) Designing Data Visualizations Workshop |
- 시각화 부트캠프, 연필 부터 시각화 설계까지 훑어줌 |
(*) Effective Data Visualization |
- 시각화 도구의 선택에 관한 내용과 자신들의 시행착오 공유 : http://datamarket.com/support/ |
Exploring the Stories Behind the Data |
- 시각화 스토리텔링 |
(*) From Knowing "What" To Understanding "Why" |
- Correlation 분석에서 Causation 분석까지 |
* 이 시점에 이 사람에게 이 광고를 보여주었을 효과와 돈을 투자 하는 이유 |
* 광고에 대한 성공적인 인과관계의 효과를 검증하는 방법에 대한 내용 |
* KDD 컵 2007~2009년 3년 수상 Claudia Perlich 만나고 싶다 |
(*) Hadoop Analytics in Financial Services |
- 구체적인 예는 관심없지만, 그 분야에서 어떤 방식으로 적용했는지 참고할 필요 있음 |
Hadoop Data Warehousing with Hive |
- Hive 설치/사용법 및 개괄설명이 반 이상 많은 것을 얻기에는 부족 예상 |
* 다만, 스키마 및 일부 테크닉에 대한 3번째 파트는 동영상을 통해서 참고 |
(+)Hadoop + JavaScript: what we learned (Microsoft) |
- light weight javascript, html5 를 통한 hadoop access |
- 누구나 들어도 도움이 될 만한 강좌지만 나중에 들어도 크게 다르지 않을 팁 같은 느낌 |
(*)Hadoop Analytics in Financial Services |
- 금융계에서는 하둡과 같은 도구가 급부상 한다 |
- 하둡위에 BI를 위한 도전과 사용자 케이스 소개 |
(*) I Didn't Know You Could Do All that with Hadoop (MapR) |
- 하둡으로 이런 것들이 가능하네 |
Introduction to Apache Hadoop |
- 소개에서도 나와있듯이 초심자를 위한 강좌 |
Introduction to R for Data Mining |
- R이라는 분야에 대해서 생소할 것을 가정한 듯 처음부터 끝까지 맛배기로 예상 |
Large scale web mining |
- 너무 많은 내용을 담고 있으므로 깊은 정보획득 어려울 것으로 예상 |
(+)Mapping social media networks (with no coding) using NodeXL |
- http://nodexl.codeplex.com/ : 네트워크 & 엑셀 & 시각화 |
(-)Petabyte Scale, Automated Support for Remote Devices (NetApp) |
- hadoop, hbase 등을 통한 petabyte 저장/쿼리/분석 인프라 소개 |
Rich Sports Data and Augmented Reality |
- 스포츠 디지털 레코드 및 증강현실 데이터의 분석 |
(+)Roll Your Own Front End: A Survey of Creative Coding Frameworks |
- 다양한 시각화 개발 프레임워크에 대한 소개 |
Sketching with Data |
(+)SQL and NoSQL Are Two Sides Of The Same Coin |
- NoSQL의 가장 일반적인 형태인 키밸류 저장의 수학적인 데이터 모델을 소개 |
* NoSQL 대신에 coSQL이라고 칭하는데, 일단 궁금함 |
- 다만, 너무 어려울 것 같아 일단 동영상으로 보는 편이 낳을 듯 |
(*) Science of Visualization |
- 타블로는 그냥 봐야함, 2011년도 타블로 동영상도 꽤 괜찮았으며, 시사하는 바가 컸음 (데이터 프로세스에 대한 내용이었던 것으로 기억) |
Social Network Analysis Isn't Just For People |
- 소셜분석을 Gephi라는 그래픽툴을 이용하여 시각화 |
(*) Survival Analysis for Cache Time-to-Live Optimization |
- 호텔찾기 검색에서 TTL 최적화를 통한 예측모델 |
The Future of Hadoop: Becoming an Enterprise Standard |
- 하둡의 미래 |
(*) The Model and the Train Wreck: A Training Data How-to |
- 알고리즘이 아니라 데이터 중심의 제품 추천 시스템 |
- 추천의 키포인트가 무엇이었나 요 체크 |
(*) The Importance of Importance: An Introduction to Feature Selection |
- 특질선택 및 기계학습을 통한 예측모델 |
- 개념 설명만으로 지나갈 확률이 높은데 조금 들어보고 결정 |
(*) Understanding Social Contagion |
- 사회적 감염(감성, 행위 등의 전파)을 소셜네트워크 통계를 통한 데이터 분석과 기계학습, 오픈소스 도구 |
- 소셜 감염에 대한 기본 소개, 실세계에서의 소셜감염에 대한 예제 |
Using Map/Reduce To Speed Analysis of Video Surveillance |
- 맵리듀스를 통한 동영상을 스냅샷으로 세그먼트하고 분석 |
Video Graphics - Engaging and Informing |
Visualizing Geo Data |
- 지리 데이터의 시각화에 대한 소개 |