데이터분석
최근 포스트들을 보자면 R 응용 책 하나에 한 챕터로 들어갈 만한 것들이 많았던거 같다. 역시 오늘 포스팅도 마찬가지 코드이다. 사실 개인적으로 띄어쓰기를 잘 못한다. 그냥 워드프로세서에 하자는 대로 그대로 따르는 편이다. 게다가 블로그도 Live Writer를 사용해서 역시 띄어쓰기 검증을 받아왔다. 오늘 만들어본 코드 조각은 최인훈의 광장과 회색인 소설을 코퍼스로 활용 띄어쓰기 알고리즘을 학습해봤다. 자동 띄어쓰기 [...]
금일 zdnet에서 개최하는 ACC 컨퍼런스에서 발표를 했으며 약속대로 발표자료를 공유하고자 한다. 처음으로 발표에 대한 호응을 발표하면서 피부로 느낄 수 있었다(발표중에 ppt를 사진찍으시는 분들까지 있었으니…). 오늘 얻은 교훈은 다른 어떤 곳에서도 얻을 수 없는 경험들을 공유하는 게 가장 좋은 발표 주제 접근 방법이라는 생각을 해본다. 물론 내가 공유 가능한 범위에서 이지만… 처음 어떤 것을 핵심 주제로 [...]
I’d introduced pagerank about R cran package dependencies. But could not draw full network by using igraph efficiently. One visitor of my blog recommended to use cytoscape to plot full SNA. This is result network plot. You can get a file which Edge List of R cran dependencies.
Continue reading about SNA plot about all R package dependencies.
최근 텍스트 마이닝을 통한 SNA 분석이 유행인듯 해서 예제 하나를 공유하고자 한다. 이 예제는 모 대학교 교수님이 코드 얼개를 부탁해서 만들어본 코드 조각이다(도와 드릴 때 공개 가능에 대해서 이미 말씀을 드렸으니 문제 없으리라 본다). 여타 다른 텍스트 마이닝 툴에서 SNA를 하는것의 원리에 대해서는 잘 모르지만 대략 예상을 해보자면 한 문장에서 나오는 단어들의 관계를 연상하면 될거 [...]
이래저래 1시간 정도 걸려서 toy 한글 스펠러를 만들어 봤다. 약 50줄정도 되는 아주 간단한 코드로 만들어 본건데, KoNLP의 두가지 핵심 함수를 사용하고 KoNLP 패키지에 포함된 한나눔 분석기 시스템 사전을 활용했다. 다른 핵심 함수로 Edit Distance 계산을 위한 함수가 있는데, 이것은 직접 구현을 하려다가 R cba 패키지에 너무 구현이 잘 된 함수가 있어서 그것을 사용했다. 이 [...]