본문 바로가기

프로그래밍/python

파이썬 한글 텍스트 마이닝 (KoNLPy) 우선, 이런 훌륭한 도구를 개발해 주신 Lucy Park 님께 심심한 감사를 표합니다. 우선 패키지 매니저 업그레이드 후 파이썬으로 영어와 한국어 텍스트 다루기 페이지에 따라 설치sudo pip install --upgrade pip 도중에 collocation 계산시에 stopwords 관련 오류가 발생하는데 아래와 같이 다운로드 한다.> pythonimport nltknltk.download('stopwords') 마지막 태그 클라우드에서 d3 스크립트 오류가 발생하는데 아래의 사이트에서 다운로드 받아서 로컬에 설치.https://gist.github.com/emeeks/3361332.jshttps://github.com/jasondavies/d3-cloud/blob/master/build/d3.la.. 더보기
파이썬 한글 인코딩 CPC949 인코딩을 UTF-8 변환 S.decode('cpc949').encode('utf-8') 위의 방식으로는 오류문자열을 처리할 수 없으므로 unicode(S, 'cpc949', errors='ignore').encode('utf-8') 더보기
UnicodeDecodeError: 'ascii' codec can't decode certain bytes https://bugs.launchpad.net/ubuntu/+source/python-mysqldb/+bug/57067 http://sourceforge.net/tracker/index.php?func=detail&aid=1521274&group_id=22307&atid=374932 한 동안 저를 괴롭혔던 우분투 상에서 파이썬으로 한글데이터를 MySQLdb에 저장할 때에 발생했던 문제의 원인을 찾았네요 저는 python 2.4 버전을 사용하고 있었구요, 위의 링크에 제공되는 cursor.py 파일을 수정하는 것으로 해결 했습니다. 패치파일의 일부는 아래와 같습니다. - query = query.encode(charset) + if isinstance(query,UnicodeType): + query =.. 더보기
파이썬에서 효율적인 문자열 붙이기 Efficient String Concatenation in Python 파이썬에서 효율적인 문자열 결합 방법 (윗 글의 번역본) 랜덤 문자열을 포함하는 정해진 크기의 파일을 하나 생성하는 간단한 파이썬 프로그램을 하나 짜는데, 생각보다 성능이 나지 않는다는 이유로 이래저래 웹 서핑을 하다가 찾아낸 문서입니다. 일반적인 concatenate(+)를 하게될 경우 파이썬은 문조건 새로운 문자열을 생성하게 됩니다. 즉, 메모리 잡아먹는 귀신이라는 얘기지요, 하지만 list 를 사용하여 append하고, 주기적으로 flush하는 기법으로 접근하게 되면, 종속성도 없을 뿐더러 메모리 및 성능 문제도 부가적으로 해결할 수가 있었습니다. 가장 중요하게 여기는 부분은, '성능>속도>메모리'순으로 실험해 보았습니다. d.. 더보기