검색엔진

지난달에 휴가 내면서까지 원고 데드라인을 맞췄던 ‘R로 하는 Big Data 분석’ 2회 연재를 월간 마소8월호 출간에 맞춰서 공개한다. 1회는 기말고사에 좀 집중하려고 팀원분에게 부탁을 드려서 잘 해결 되었으나 2회는 역시 kmobile 강연하고 거의 겹치는 바람에 집중을 못하고 있다가 결국 휴가내고 하루 집중해서 해결 했다. doSMP와 Rmpi, 그리고 snowfall이라는 멀티코어 분산처리 패키지를 중심으로 설명을 했고, 인터넷에도 [...]

Continue reading about 월간 마소 연재) R로 하는 멀티코어 병렬프로그래밍

고감자 on 6월 21st, 2011

caret에는 최적 모델링 파라메터를 평가해주는 train이라는 함수를 제공하고 있다. 예를 들어 randomForest의 경우에는 mtry라는 변수가 있는데, 이 변수는 트리를 생성할때 랜덤한 몇개의 변수를 후보로 사용해서 분리(split)를 할것인지를 가지고 있어야 한다. 결국 이 ‘몇개’ 라는 이 값이 튜닝 포인트인 것이다. 이를 위해서 10 cross validation 전략으로 각 파라메터 튜닝 값에 대한 10 cross validation 결과를 출력하고자 [...]

Continue reading about parallel model tunning with caret

고감자 on 2월 9th, 2011

아래 글은 책(“Natural Language Processing with Python” )의 예제에 알파벳 bigram feature를 추가해서 실험 한 결과이다. (이 부분에 대한 명시 없이 글을 써놓고 있다가 댓글에서 지적을 받아 수정했다. 코드예제 책을 보며 작성하고 시간이 많이 흐른 뒤에 해당 코드를 사용해서 포스팅을 하다보니 본의아니게 큰 실수를 하고 말았다. 나중에라도 이런 명시가 없어서 벌어질 사태를 생각하면 지적해준 분에게 [...]

Continue reading about 이름만으로 성별 구분

고감자 on 12월 16th, 2010

요즘 루씬 코드 리딩을 하고 있다. 루씬 core 패키지는 예전에 한번 분석 해본 경험이 있어서 이번엔 contrib 패키지를 중점적으로 살펴보고 있다. 그중에서도 spellcheck 모듈은 가장 최근에 성능좋은 라이브러리로 구현한 경험이 있어서 관심이 갔다.  이 패키지 내에서는 Jaro Winkler Distance 라는 짧은 이름에서 사용 가능한 string 비교 클래스가 구현이 되어 있었으며 n-gram 기반의 string 비교 클래스도 [...]

Continue reading about Lucene spellcheck package

고감자 on 10월 2nd, 2010

아래 글은 이번 “야후! 검색어 오타 교정 시스템“을 론치 하면서 일반 사용자들이 이해하기 편한 소개글을 써달라고 해서 써본 글이다. 이 글을 쓸 당시 “글로리아 스튜어트”의 타개 뉴스가 올라왔고, 그분의 이름이 인기쿼리로 올라온게 눈에 띄어서 이를 소재로 삼아 봤다. 야후! 블로그 담당자분이 글을 보기 좋게 편집/수정해 주셔서, 더욱 빛나는거 같다. ——————————————————————————————————————————   “글로리아 스튜어드?” 얼마전 향년 100세의 일기로 [...]

Continue reading about 야후!의 검색어 오타 교정 시스템