본문 바로가기

논문/sentence boundary detection

기계학습 기법을 이용한 문장 경계 인식

와~ 너무 오랜만에 블로그로 다시 돌아온 이 느낌~ 나름 고향에 돌아온 느낌이 듭니다.
그래도 와 주셨던 분들께 '또 그대로네..' 했던 것 같아 많이 부끄럽습니다.

어쨌거나, 최근 두 달간 논문을 준비하느라, 정신줄을 잠시 놓았더니.. 블로그가 황폐해진 느낌입니다. -_-;;; 작년에 했던 실험들을 바탕으로 올 초에 논문 디펜스를 하고, 정리하면 여유로워 질 것이라 생각했는데, 디펜스 할 때에 대박 깨지고, 논문에 대한 큰 줄기가 바뀌는 덕분에 두어달 정말 고생했습니다.

이제는 이런 저런 마무리 작업을 끝내고, 학위논문 제본을 맡긴 상태입니다.
마음이 한결 편해지고, 조금은 허전한 느낌입니다. 아쉽긴 합니다만, 그래도 뿌듯하네요~~

서론이 너무 길었네요... 포스팅 제목이 제 논문의 제목이기도 합니다.
간략히 말씀드리면, 문장의 시작과 끝을 인식하는 것이 제 논문의 주제입니다. 어떻게 보면 "뭐 이런 것도 논문주제로 삼을 수 있을까?" 하고 생각하실지도 모르겠습니다. 대충 해도 어느정도 이상은 나오니 말입니다.

실험한 결과 문장경계를 휴리스틱한 룰을 적용했을 때에도 97%정도 까지는 나왔으니 말입니다. 후훗~ 하지만, 논문을 준비하면서 너무나도 많은 경험을 했고, 소중한 것들을 얻었으니 부끄럽다거나 하는 그런 생각은 없습니다.

언젠가 교수님께서 하셨던 말씀이 생각납니다. " 석사논문은 무언가 새로운 것을 발견하고 연구하기 위해서가 아니라, 논문을 쓰는 방법을 배우는 과정이다. 석사논문이 끝나면 그제서야 연구를 시작할 수 있을 거다... " 라고 말씀하셨습니다.

정말 그런 것 같습니다. 이제서야 첫 발을 내딛는다는 느낌이 들었습니다. 그리고 그런 것의 일환으로 랩실에 계신 박사과정 선배님과 같이 해외저널에 제출할 논문을 같이 준비하게 될지도 모르겠습니다. 물론 현재의 논문과 관련이 있는 내용이기도 합니다.

정말 재미있는 일들이 마구 마구 주변에서 일어나고 있습니다. 요즘처럼 공부가 즐거워진 적이 없었던 것 같습니다. 흐흐흐 원래는 논문에 대해서 조금 더 쓰고 싶었는데... 그냥 pdf 파일을 첨부하기로 했습니다. 하핫

이 파일은 지난 정보처리학회에 제출했던 이전버전의 논문입니다. 디펜스에서 깨지게된 가장 결정적 요인은 문장분리의 후보를 문장부호만으로 했다는 점이었습니다.
invalid-file

기계학습 기법을 이용한 문장경계인식 (학회제출용)

그래서 문장경계의 정의부터 실험까지 다시 썼습니다. 뿌듯 뿌듯!!
invalid-file

기계학습 기법을 이용한 문장경계인식 (학위논문 제출용)


많은 주변 분들께 도움도 받았고, 그리고 공유도 해야겠기에, 이렇게 글 올리구요, 이글루스 블로그에서도 관심을 가지고 계신 분들도 있어서 블로그 포스팅을 해 봅니다.
오늘도 즐거운 하루 되세요~~