Strata 2012 Activity Plan

플랫폼, 시각화, 데이터 분석, 기반기술 공유, 시행착오 공유 등으로 구분

현재 나의 위치에서 가장 집중해야만 하는 영역은 "데이터분석, 시각화, 시행착오 공유" 정도가 가장 가깝다고 판단되며, 실제 경험, 데이터 분석의 시행착오, 잘 된 분석 프로세스에 대한 강좌를 주로 들을 예정입니다.

물론 올 해에는 직접 참석은 힘들 것같고, 동영상으로만 참석(?) 할 예정입니다. :-)

Activity Plan @ Strata 2012 Conference

1. 어떤 방법으로 들을 건데?

- 세션 별 체크포인트 매트릭스를 준비하고 채워나가는 방식

l 빅(Volume, Variety, Velocity 관점) 데이터 분석인가? 빅(v3)이라서 성공했나?

l 이번 발표에서는 어떤 방식(데이터크기, 시각화, 알고리즘, 분산, 프로세스, 삽질 등)이 키 포인트인가?

l 현재의 접근 방법이 과거에는 없는 새로운 것인가? 혹은 안되던 것이었나?

l 과거에 잘 하지 못 했던 이유가 뭐지? 그리고 기존의 방식과 다른 점은?

l 데이터의 종류? 어떤 플랫폼? 어떤 프로세스? 어떤 알고리즘 분석 방법? 어떤 결과?

l 그들이 겪었던 시행착오(배울 점)의 핵심은?

2. 한 번 다녀왔으니 뭔가 달라야 하지 않나?

- 특정 강좌에서 듣고자 하는 체크포인트를 명확히 하고 강좌에 임한다 (1번의 체크포인트 매트릭스 필수)

- 절대로 제목에 낚여서 들어가지 않는다.

- 만약 10분 정도 들어도 아니다 싶으면 나와서 다음 후보 강좌로 간다.

- 패널은 패스하자, 어차피 안 들린다.

- 강의 시간은 짧은데 너무 제목과 요약이 거창하면 일단 패스

- 궁금한 점들을 미리 영어로 영작해서 간다. 안 그러면 업체들과 대화할 때에 형식적인 대화만 오갈 뿐.

3. 그러면 어떤 결과를 얻을 수 있는데?

- 우리의 데이터 환경에 비추어 보았을 때의 MMOG(L1, L2, AION, B&S 등) 에 있어서 적절한 예제?

- 우리와 다른 점(플랫폼, 프로세스, 인력, 기술 등)은? 놓치고 있었던 점은?

- 향후 우리가 가야 할 방향을 결정하고 움직이는 데에 참고

4. 느낌은?

- 강좌의 수나 분야가 상당히 늘었으며, 초심자/중급자/고급자 카테고리를 나눈 점은 칭찬할 만 함

- 여자 강사들이 늘었다는 점도... 바람직 한 듯 합니다. ^^

5. 주로 어떤 강좌들이 있나?

- 영문순서로 제목 나열했으며 (*)는 듣고 싶은 강좌 (+)는 2차후보, (-)는 동영상 후보

Array Theory vs. Set Theory in Managing Data

- set > relational > array 순으로 변화, 적용가능한 예제 소개

(*) Beautiful Vectors: Emerging Geospatial technologies in the browser (Google)

- 엔터프라이즈 스케일의 서버 사이드 시각화 기술을 소개하고 데모

Big Data: Wall Street Style

- 대용량 고객 데이터 분석을 통한 정보제공

Big Data = Bigger Metadata

- 빅 데이터에는 데이터를 큐레이팅, 수집, 검증 등의 다루는 전문가가 필요하다

Building a Data Narrative: Discovering Haight Street

- 지도 시각화 관련 경험 공유

Beyond Map/Reduce: Getting Creative With Parallel Processing

- YARN, Mesos 에 관한 소개 ML, BSP 등

Beyond Map/Reduce: Getting Creative With Parallel Processing

- 소셜 데이터를 금융 서비스, 응급 대응, 브랜드 분석 등에 적절히 활용하는 실용예제 소개

Corpus Bootstrapping with NLTK

- 영어 코퍼스로 영국어 감성분석기 만들기

Crafting Meaningful Data Experiences

- UX와 DataViz와의 통합에 관한 내용

Changing Data Standards from Wall street to DC and Beyond

- 금융기관의 고객분석은 회사의 리스크를 줄이고, 안정성을 높이는데 크게 기여한다

(*) Designing Data Visualizations Workshop

- 시각화 부트캠프, 연필 부터 시각화 설계까지 훑어줌

(*) Effective Data Visualization

- 시각화 도구의 선택에 관한 내용과 자신들의 시행착오 공유 : http://datamarket.com/support/

Exploring the Stories Behind the Data

- 시각화 스토리텔링

(*) From Knowing "What" To Understanding "Why"

- Correlation 분석에서 Causation 분석까지

* 이 시점에 이 사람에게 이 광고를 보여주었을 효과와 돈을 투자 하는 이유

* 광고에 대한 성공적인 인과관계의 효과를 검증하는 방법에 대한 내용

* KDD 컵 2007~2009년 3년 수상 Claudia Perlich 만나고 싶다

(*) Hadoop Analytics in Financial Services

- 구체적인 예는 관심없지만, 그 분야에서 어떤 방식으로 적용했는지 참고할 필요 있음

Hadoop Data Warehousing with Hive

- Hive 설치/사용법 및 개괄설명이 반 이상 많은 것을 얻기에는 부족 예상

* 다만, 스키마 및 일부 테크닉에 대한 3번째 파트는 동영상을 통해서 참고

(+)Hadoop + JavaScript: what we learned (Microsoft)

- light weight javascript, html5 를 통한 hadoop access

- 누구나 들어도 도움이 될 만한 강좌지만 나중에 들어도 크게 다르지 않을 팁 같은 느낌

(*)Hadoop Analytics in Financial Services

- 금융계에서는 하둡과 같은 도구가 급부상 한다

- 하둡위에 BI를 위한 도전과 사용자 케이스 소개

(*) I Didn't Know You Could Do All that with Hadoop (MapR)

- 하둡으로 이런 것들이 가능하네

Introduction to Apache Hadoop

- 소개에서도 나와있듯이 초심자를 위한 강좌

Introduction to R for Data Mining

- R이라는 분야에 대해서 생소할 것을 가정한 듯 처음부터 끝까지 맛배기로 예상

Large scale web mining

- 너무 많은 내용을 담고 있으므로 깊은 정보획득 어려울 것으로 예상

(+)Mapping social media networks (with no coding) using NodeXL

- http://nodexl.codeplex.com/ : 네트워크 & 엑셀 & 시각화

(-)Petabyte Scale, Automated Support for Remote Devices (NetApp)

- hadoop, hbase 등을 통한 petabyte 저장/쿼리/분석 인프라 소개

Rich Sports Data and Augmented Reality

- 스포츠 디지털 레코드 및 증강현실 데이터의 분석

(+)Roll Your Own Front End: A Survey of Creative Coding Frameworks

- 다양한 시각화 개발 프레임워크에 대한 소개

Sketching with Data

(+)SQL and NoSQL Are Two Sides Of The Same Coin

- NoSQL의 가장 일반적인 형태인 키밸류 저장의 수학적인 데이터 모델을 소개

* NoSQL 대신에 coSQL이라고 칭하는데, 일단 궁금함

- 다만, 너무 어려울 것 같아 일단 동영상으로 보는 편이 낳을 듯

(*) Science of Visualization

- 타블로는 그냥 봐야함, 2011년도 타블로 동영상도 꽤 괜찮았으며, 시사하는 바가 컸음

(데이터 프로세스에 대한 내용이었던 것으로 기억)

Social Network Analysis Isn't Just For People

- 소셜분석을 Gephi라는 그래픽툴을 이용하여 시각화

(*) Survival Analysis for Cache Time-to-Live Optimization

- 호텔찾기 검색에서 TTL 최적화를 통한 예측모델

The Future of Hadoop: Becoming an Enterprise Standard

- 하둡의 미래

(*) The Model and the Train Wreck: A Training Data How-to

- 알고리즘이 아니라 데이터 중심의 제품 추천 시스템

- 추천의 키포인트가 무엇이었나 요 체크

(*) The Importance of Importance: An Introduction to Feature Selection

- 특질선택 및 기계학습을 통한 예측모델

- 개념 설명만으로 지나갈 확률이 높은데 조금 들어보고 결정

(*) Understanding Social Contagion

- 사회적 감염(감성, 행위 등의 전파)을 소셜네트워크 통계를 통한 데이터 분석과 기계학습, 오픈소스 도구

- 소셜 감염에 대한 기본 소개, 실세계에서의 소셜감염에 대한 예제

Using Map/Reduce To Speed Analysis of Video Surveillance

- 맵리듀스를 통한 동영상을 스냅샷으로 세그먼트하고 분석

Video Graphics - Engaging and Informing

Visualizing Geo Data

- 지리 데이터의 시각화에 대한 소개

data mining for information retrieval

Strata 2012 Activity Plan

티스토리툴바