검색엔진
From : An Intorduction to Information Retrieval 최근에 논의된 개념들이 어느정도(?) 추가된 가장 최신의 검색엔진 Arcitecture다. 어제 책에 이 그림이 나오는것을 보고 감동을 먹었다.
약 40개의 기념품을 가져갔지만 모두 드리지 못해 죄송합니다.생각보다 많은 분들이 오셔서 다 드리지 못했네요. ^^; 혼자 들고가기 너무 힘들었답니다. 비까지 오는데… 그래도 학생들 기념품 받고 안받고 기분의 차이가 크니 좋은 홍보 했다고 생각합니다. ^^ ps. 오늘 알았던 사실인데 이게 수업이더군요. 무슨과목인지 확인은 못했지만 초빙강사 형식으로 진행이 된걸로 봅니다.
점심시간을 틈타 Language Model의 마지막 포스팅을 해본다. 먼저번 포스팅헤서 P(q|Md)를 구하는게 목적이라는 언급을 했었고, 그 값을 구하기 위한 식을 만들었다. 그럼 문서 기반으로 정확히 식을 구하기 위해 어떻게 해야 할까? 모든 쿼리에 대해서 문서에 대한 t.f(term frequency)를 구하고 문서에 존재하는 모든 텀의 갯수를 dl이라는 변수에 할당을 해서 위와 같은 식으로 model과 쿼리의 확률을 구하는것이다. 그런데 [...]
그동안 좀 봐뒀던 Language Model을 정리하고자 한다.사실 Language Model은 예전에 내가 보던 Information Retrival : Algorithm and Heuristic이라는 책에서 봤었지만, 정리까지는 안해봤다.(난 뭐든 정리가 필요하다.) Language Model이라함은 정보검색을 하다보면 나오는 unigram, bigram trigram이라는 말과 전혀 다르지 않다. 위 자체가 그대로 문서를 표현하는 모델링 방법이 될수 있는것이다. 각 문서 내에서 빈도수 및 여러 factor를 가지고 아래와 [...]
잉카 인터넷이라는 회사에서 처음 검색엔진이라는 것을 만져봤다. 그곳에서 연구했던 것들이 지금에서는 나의 큰 자산으로 작용하고 있는건 부정할 수 없는 사실이다. 안타깝게도 그곳에서 만든 Kimap이라는 Knowledge Map이라는 뜻의 검색엔진은 회사 Product에서 제외가 되어 버렸다. 얼마전까지만 해도 있더니만, 결국 없어지고 말았다. 엔진의 모티베이션이 되는것은 자동분류라는것이였다. 이 엔진팀에 같이 있었던 친구는 현재 대학4학년인데, 그 친구가 첫눈이 나왔던 시절에 [...]