"모두의 연구소" 김성필 연구원님께서 작년 말에 출간하신 책인데요, "머신러닝에서 컨벌루션 신경망까지" 라는 부재로 나왔습니다.

번역서만 가득한 딥러닝 분야에 단비같은 책이라 할 수 있습니다. :-)

김승일 연구소장님의 깨알같은 추천사가 눈에 들어옵니다.


“딥러닝은 우리 연구소 스터디 중 가장 인기 있는 주제입니다. 하지만 초보자와 전문가 사이에는 여전히 상당한 격차가 존재하는 것도 사실입니다. 이 책은 딥러닝을 대략적으로 이해한 초보자들이 더 깊게, 하지만 너무 힘들지 않게 한 단계 올라서는 데 좋은 길잡이가 되어줄 것입니다. 특히 컨벌루션 신경망의 설명은 압권입니다.” - 김승일 모두의 연구소 소장


 작년부터 "머신 러닝" 스터디를 "모두연"에서 하고 있는데, 여전히 어렵네요.. 아무튼 머신러닝을 빠싹하게 알아야 "딥 러닝"을 할 수 있는 것은 아니고, (개인적인 생각) 일부 관련된 분야만 속성으로 공부하더라도 충분히 적응할 수 있을 것 같다는 생각에 올 해에는 "딥 러닝" 쪽에 관심을 두고 책을 둘러보는 중입니다.


 목차는 "머신 러닝" - "인공신경망" - "딥 러닝" 순으로 구성되어 있고, 코드는 GitHub에 있네요, MATLAB 코드이므로, 평가판 라이센스를 받으면 1개월은 사용할 수 있으니 공부하는 데에 큰 문제는 없을 것 같습니다. MATLAB에 아직 익숙치 않으시다면, 이번 기회에 공부를 해보는 것도 좋겠습니다.

 


CHAPTER 1 머신러닝

1.1  머신러닝과 딥러닝

1.2  머신러닝이란

1.3  머신러닝의 난제

1.4  과적합

1.5  과적합과 싸우기

1.6  머신러닝의 종류

1.7  분류와 회귀

1.7  요약

 

CHAPTER 2 신경망

2.1  서론

2.2  신경망의 노드 

2.3  신경망의 계층 구조 

2.4  신경망의 지도학습 

2.5  단층 신경망의 학습: 델타 규칙 

2.6  델타 규칙의 일반 형태

2.7  SGD, 배치, 미니 배치

2.8  예제: 델타 규칙

2.9  단층 신경망의 한계

2.10 요약

 

CHAPTER 3 다층 신경망의 학습

3.1  서론

3.2  역전파 알고리즘

3.3  예제

3.4  비용함수와 학습 규칙

3.5  예제

3.6  요약 

 

CHAPTER 4 신경망과 분류

4.1  서론

4.2  이진 분류 

4.3  다범주 분류

4.4  예제: 다범주 분류 

4.5  요약

 

CHAPTER 5 딥러닝

5.1  서론

5.2  심층 신경망의 성능 개선

5.3  예제

5.4  요약

 

CHAPTER 6 컨벌루션 신경망

6.1  서론

6.2  컨브넷의 구조

6.3  컨벌루션 계층

6.4  풀링 계층

6.5  예제: MNIST

6.6  요약



"머신 러닝" 쪽으로는 공부를 하고 있지만, "딥 러닝" 쪽은 초보자라 아주 적절한 책이라 생각하고 있는데요, 조만간 리뷰 글을 올려 보겠습니다.



References.

모두의 연구소 : http://www.modulabs.co.kr/

모두연 페북 : https://www.facebook.com/groups/modulabs/

Github : https://github.com/philbooks/Deep-Learning-for-Beginners


저작자 표시
신고


http://zhongyaonan.com/hadoop-tutorial/setting-up-hadoop-2-6-on-mac-osx-yosemite.html


http://withsmilo.github.io/bigdata/2016/06/01/setup-hadoop-2.7.2-on-osx/

$ brew tap homebrew/versions $ brew install protobuf250 $ brew link --force --overwrite protobuf250 $ protoc --version libprotoc 2.5.0 $ brew install cmake $ wget http://www.eu.apache.org/dist/hadoop/common/hadoop-2.7.1/hadoop-2.7.1-src.tar.gz $ tar xvf hadoop-2.7.1-src.tar.gz $ cd hadoop-2.7.1-src $ mvn package -Pdist,native -DskipTests -Dtar $ mv $HADOOP_HOME/lib/native $HADOOP_HOME/lib/native.bak $ cd $HADOOP_HOME/lib $ ln $HADOOP_HOME/lib/native native Add the following lines in the hadoop-env.sh and yarn-env.sh export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native export HADOOP_OPTS="${HADOOP_OPTS} -Djava.library.path=$HADOOP_HOME/lib/native"

http://stackoverflow.com/questions/20586920/hadoop-connecting-to-resourcemanager-failed

INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032. Already tried 0 time(s); 
retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
<property>
<name>yarn.resourcemanager.address</name>
<value>127.0.0.1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>127.0.0.1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>127.0.0.1:8031</value>
</property>


http://stackoverflow.com/questions/19943766/hadoop-unable-to-load-native-hadoop-library-for-your-platform-warning

http://stackoverflow.com/questions/20144371/hadoop-2-2-0-setup-pseudo-distributed-mode-error-warn-util-nativecodeloader


저작자 표시
신고

분산 데이터 처리에 있어서 구글이 세상을 평정한 이후로, 오픈소스 진영에서 구글의 대부분 분산 데이터 처리 플랫폼, 서비스에 대한 클론(clone)의 습격이 시작 되었는데.. 최근 10년간 너무 많은 오픈소스가 생겨났고 하나 하나 열거하기에는 어렵고, 쫓아가기도 어려운 상황


그래서 이러 저러한 하둡 에코시스템의 조합을 미리 만들어 주고, 컨설팅 해주는 업체가 가장 잘나가는 2회사가 클라우데라, 호튼웍스가 살아남음.

호튼웍스 http://hortonworks.com/hdp/ 

클라우데라 https://cloudera.com/products/apache-hadoop.html 

두 회사를 비교도 https://www.experfy.com/blog/cloudera-vs-hortonworks-comparing-hadoop-distributions/


그리고 현재 하둡 에코시스템 들에 대해 적당한 이해가 있어야 

오래된 글이지만 그림이 좋아서 http://practicalanalytics.co/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/

심플한 것도 하나 보고 https://dzone.com/articles/ecosystem-hadoop-animal-zoo-0


이 정도 수준에서 맛만 보고, 데이터 분석을 위한 몇가지 선택지가 있을텐데


1. 하둡 에코 시스템 가운데 가장 중요한 2~3가지만 선택해서 적용해 본다.

2. 호튼웍스, 클라우데라 배포판을 그대로 깔아서 쓴다

3. 직접 하나 하나 설치 및 맞춰가면서 원하는 인프라를 조합해서 쓴다.


3번이 가장 좋긴 하지만, 리소스나 기술인력 면에서는 가장 비용이 많이 드는 것이니 어려울 듯, 

여유 자금이 된다면야 AWS, GCP 통해서 2번으로 가는게 제일 좋음.


데이터센터에 구축하는 것을 계획하고 진행할 것이라면 1번으로 fast prototype 후, 2번으로 빠르게 적용하는 것이 현재는 가장 좋은 선택.

단순한 로그 조회를 통해 인사이트를 얻고자 한다면

 구성은 hadoop + logstash + fluentd + elasticsearch + kibana 조합으로 가면 될 듯.


저작자 표시
신고

+ Recent posts