본문 바로가기

all categories

한국 하둡 커뮤니티 두 번째 모임을 다녀왔습니다 한국 하둡 커뮤니티 구글 그룹스 첫 번째 세션은 한재선 박사님께서 (NexR) 'Naive Bayes Classifier를 이용한 Spam Filtering의 MapReduce 구현' 이라는 주제로 강연을 해주셨습니다. 실제 돌아가는 환경에서 시연도 해주셨고요.. 물론 MapReduce 시연이라면 아시는 분들은 다 아시겠지만, MapReduce결과 로그와 vi 로 결과 파일을 읽는 것 밖에는 없지만 말입니다. 이러한 부분 외에도 기계학습을 분산환경에서 쉽게 운영할 수 있는 플랫폼을 개발하고 계신다는 소식과 더불어, 조만간 그러한 서비스 환경을 일반인에게도 공개한다는 언급도 하셨습니다. 가상화를 통하여 제한된 환경이긴 합니다만, 분산환경을 접하기 힘든 개발자 입장에서는 희소식이 아닐 수 없겠습니다. 또, .. 더보기
그래서 행렬을 쓰면 뭐가 좋은거죠? 이제는 좀 더 실용적인 측면을 고려해보려고 합니다. 어디에다 쓰는 물건인가? -_-;;; 먼저 행렬의 곱셈은 어떻게 하는지 한번 보도록 하겠습니다. 행렬의 곱셈은 아래와 같은 방법을 통해서 수행합니다. 행 X 열 !! 위키피디어에 좋은 그림이 있어서 발췌했습니다. Matrix Multiplication In mathematics, matrix multiplication is the operation of multiplying a matrix with either a scalar or another matrix. This article gives an overview of the various ways to perform matrix multiplication. 이제는 좀 더 실질적인 예를 들자면, 행렬의.. 더보기
그러면 행렬과 선형대수는 무슨 관계죠? 지난 글에 이어서 이번에는 선형대수에 대한 정리를 간략하게 하고 있습니다. "'알기쉬운 선형대수'라는 책에서는 연립1차 대수적 방정식과 이들의 해는 '선행대수'라는 과정에서 공부하게 됩니다." 라고 되어있네요... '선행대수'라는 말은 일반적으로 잘 쓰지 않는 용어 같습니다. 오히려 '선형대수'라는 표현이 더 많이 사용되고 있는 것 같고요. 어쨌거나 의미상으로 '선형대수'라는 것은 Linear Algebra 즉, 1차원 대수학만을 의미하는 것 같긴 합니다. '선행대수'라고 하는 것은 오타같기도 합니다. 선형대수학이란? 선형대수학(線形代數學)은 벡터 공간, 벡터, 선형 변환, 행렬, 연립 선형 방정식 등을 연구하는 대수학의 한 분야이다. 현대 선형대수학은 그 중에서도 벡터 공간이 주 연구 대상이다. 추상대.. 더보기
행렬이 뭐죠? 이번에는 행렬에 대한 공부를 하고 있습니다. 솔직히 학부를 도시공학과를 전공했다는 이유로 공업수학 및 기타 수학에 관한 것은 전무합니다. 대학을 진학할 때에 수학을 하지 않는 다는 이유로 도시공학과를 진학했다면 믿으시겠습니까? :-) 어쨌든 지금은 무지하게 후회하고 있습니다. 솔직히 다시 정석을 보기에는 부담스럽고 해서 우연히 서점에서 보게된 교학사에서 출간된 '수학공식 활용사전'이라는 책으로 수학의 목마름을 달래고 있습니다. 행렬? 수 또는 문자를 직사각형 모양으로 나열하여 양쪽을 괄호로 묶어서 나타낸 것을 행렬이라 하고, 그 각각의 수 또는 문자를 행렬의 성분이라 한다. 또는 수의 직사각형배열이다. 그 배열된 수를 그 행렬의 성분(entries)이라 한다. 꼭 숫자가 오지 않아도 괜찮은 것일까요? 수.. 더보기
'검색 기술 컨퍼런스'가 오는 9월 2일 개최된다고 합니다. 검색 기술 컨퍼런스 이번에는 세션 자체도 흥미로운 부분도 있거니와, 제가 개인적으로 알고 계시는 분들이 몇 분이나 세션에 참석하고 계셔서 꼭 가봐야 할 것 같습니다. :-) 제가 보고 싶은 트랙은 거의 1번에 몰려있는 것 같네요, 마지막 세션에서는 '의미기반 검색엔진...'관련 세션을 듣고는 싶은데요, 아무래도 '강승식'교수님 강좌를 직접 듣고싶다는 생각이 더 많이 들긴 합니다. 어쨌거나 흥미로운 주제들임에는 분명한 것 같습니다. 물론 주최측의 대부분이 검색관련 솔루션 회사인 것으로 보아, 모두 함께 힘을 합쳐서 살아남자 뭐 이렇게 볼 수도 있겠습니다만, 이러한 움직임 자체는 검색시장에 많은 활력소가 될 것 같다는 생각이 듭니다. 발표하시는 분들 중에서 제가 알고 있는 링크를 살짝 추가해 봅니다. 조영환.. 더보기
공부를 한다는 것은... 어떻게 하면 공부를 잘 할 수 있을까? 이러한 질문에 대한 답변을 제대로 할 수 있는 사람들은 얼마나 될까요? 마치 고등학교 때 부터 아니 초등/중학교 때부터 부모님께 들어왔던 그리고 스스로에게 계속 자문해 왔던 것인지도 모르겠습니다. 이러한 자문을 하는 가장 큰 이유 중에 하나가 스스로가 나는 조금 부족한 부분이 있다라는 생각에서 나오는 것이 아닐까 생각합니다. 어쨌거나 가장 중요한 공부에 관한 제 단계는 이러합니다. 공부를 잘 하기 위한 세가지 단계는 첫 번째는 '필요' 또는 '열정'입니다. 동기부여를 할 수 있을 만한 '장치'가 되겠네요, 흔히들 말하는 '비전', '목표' 등일 겁니다. 하지만 이러한 '비전'과 '목표'는 마치 원대한 포부를 가진 사람들 아니면, 큰 회사를 가지고 있는 사람들만의 전.. 더보기
List와 Memory 복사를 이용한 Insertion Sort의 차이... 최근 알고리즘에 대해서 다시 공부하고 있습니다. 한번씩 생각해두지 않으면 너무 쉽게 잊혀지는 것 같습니다. 그래서라도 자꾸 보게되는데요... 오늘은 가장 처음에 나오는 정렬에 관한 실험입니다. java로 구현해보았는데요, 재미있는 부분은 정렬된 변수들을 저장할 때에 그냥 단순히 list에 담아서 반환하면 편하지 않을까 생각했습니다. 왜냐하면 array에 있다면 매번 메모리를 복사해주어야 하는 부담이 있기 때문입니다. 결론부터 말씀드리면 memory-based-insertion-sort 의 완승!!! 랜덤숫자 : list-based-sort : memory-based-sort ( unit: msec) 1000 : 120 : 13 2000 : 1529 : 26 3000 : 6758 : 35 즉, 1000개의.. 더보기
목표달성이 쉬워지는 계속하는 기술 - 계속모드 계속 모드 상세보기 오오하시 에츠오 지음 | 다산라이프 펴냄 작심삼일은 가라! 성공을 결정짓는 '계속하는 기술'! 『계속모드』는 결심한 일을 포기하지 않고 계속해서 실천할 수 있는 방법을 알려준다. 성공한 사람들이 입을 모아 말하는 비결은 '계속'이다. 자신의 목표를 향해 꾸준히 노력하였기 때문에 성공을 이룩하였다. 그들은 계획한 일을 '계속'하기 위해 주변 환경을 개선하고 자신의 감정을 조절했다. 이 책에는 이렇게 목표달성이 쉬워지는 '계속'의 기술, 즉 '계속모드'에 지난 주에 우연히 버스에서 일간지를 폈는데, 제목이 끌리는 책이 있어 덥석 사본 책입니다. 이러한 자기계발서는 일본에서 많이 발간되는 느낌입니다. 책 제목도 전형적인 일본 책 같지요? ^^ 예전에 읽었던 책들에 비해서 임팩트는 좀 적었습.. 더보기
Mahout란 무엇에다 쓰는 물건인고? 저의 최대의 관심사는 현재는 데이터 마이닝을 통한 정보검색을 하는 것인데요, 가장 관심이 가는 아파치 프로젝트는 단연 마하우트(Mahout)입니다. Mahout? A Mahout is a person who drives an elephant (hint: Hadoop's logo is an elephant.) 즉, 코끼리를 다루는 사람이라는 의미입니다. 로고는 여기서 다운로드 받을 수 있는데요 로고를 잘 보시면, 코끼리를 타고 있는 사람이 보이실 겁니다. 물론 코끼리를 다루는 사람이라고 해서 하둡을 대상으로 보다 상위에 있는 프로젝트는 아니라고 얘기하고 있습니다. 제 개인적인 생각으로는 하둡위에서 보다 더 고차원적인(?) 일을 하는 사람이라는 생각이 살짝 들었습니다. ^^ 이리저리 사이트를 둘러보면서 정리.. 더보기
구글이 검색결과 개인화를 선보일 모양입니다. Google's "Edit Search Results" Experiment 구글은 PageRank 이외에도 많은 알고리즘이 적용되었으리라 생각하고 있습니다. 스팸이라던가 성인물, 개인정보 및 중복 등등 말이지요, 하지만 겉으로 드러나는 검색결과 피드백은 사실 없었던 것으로 알고있습니다. 하지만 현재 실험적이긴 하지만 노출된 화면들이 있는데요 내용을 보게되면 Relevance Feedback을 통한 결과 조정 등을 할 수 있고 이러한 일련의 과정을 통해서 랭킹에 반영되는 과정을 보여주고 있습니다. Amit Singhal과의 인터뷰 내용중에도 약간 언급이 되어있습니다만, 로그인된 사용자에 대한 개인화된 검색결과를 제공하게 될 것이라고 합 더보기