저녁에 잠깐 Hanrss 사이트를 기반으로 해서 구독자별로 top1000 블로거 직접 크롤링해서 모아 봤다. 이 데이터를 1년 전부터 가지고 싶었었는데 막상 마음 먹으니 30분도 안되서 가져올 수 있었다.
BeautifulsoupFeedparser를 이용하니 40라인도 안되는 코드로 크롤링이 가능하더라.
데이터를 구하는 작업 자체도 힘든 과정중에 하나인데 그런 부분을 편리한 언어와 라이브러리의 도움으로 쉽게 건너뛸 수 있으니 참 좋은 세상이다.

RSS 구독자 수는 블로그의 Popularity를 판단하는 중요한 판단 기준이다.
그것도 국내에서 가장 많이 쓴다는 RSS 구독기를 기반으로 한 데이터는 대표성을 띄는 믿을만한 데이터라 생각한다.

내 블로그가 구독자 순으로는 130번째정도 존재하는거 같은데...
이러니 top 100 블로거에 항상 등극을 못하는거구나. ㅋㅋ

국내 블로그를 기반으로 연구를 하고 있다면 꽤 쓸만한 데이터라 생각한다.



ps. 몇몇 빠진것들이 있는데, 아마도 죽은 블로그들이거나 feedparsing때 오류난 놈들일거다.




trackback url :: http://freesearch.pe.kr/trackback/941

  1. Subject: 고감자님의 Hanrss 구독자수를 기반으로 한 블로거 top 1000 엑셀 파일.

    Tracked from LEEGH.COM 2008/05/20 20:46  삭제

    Hanrss 구독자수를 기반으로 한 블로거 top 1000 [from __future__ import dream]요거 꽤 객관성이 있어 보입니다. 구글리더나 피쉬 등 다른 RSS 리더를 사용하시는 분들도 테스트삼아 혹은 빠른 속도 때문이?

  2. Subject: 신현석의 생각

    Tracked from hyeonseok's me2DAY 2008/05/22 15:20  삭제

    'Hanrss 구독자수를 기반으로 한 블로거 top 1000', 난 110위...

  3. Subject: bliss의 생각

    Tracked from bliss' me2DAY 2008/05/22 15:27  삭제

    "Hanrss 구독자수를 기반으로 한 블로거 top 1000" 우리 에이콘 블로그는 239위. 우리 바로 앞 순위는 blo9님이넷. (via hyunsuk)

  4. Subject: 정찬명의 생각

    Tracked from naradesign's me2DAY 2008/05/22 15:50  삭제

    'Hanrss' 구독자 통계 'Top 1,000' 중 '나라디자인'은 '206위'.

  5. Subject: RSS 구독에 대한 단상

    Tracked from 민노씨.네 2008/05/23 02:31  삭제

    Hanrss 구독자수를 기반으로 한 블로거 top 1000 (고감자) 저는 RSS 기술을 매우 높게 평가하는 블로거이지만... 실은 (아직도, 여전히) 우리나라 블로그판에서 RSS 구독형태(독자수)가 의미있는 수준?

  6. Subject: 한rss 구독자 top 1000에서 이글루스만

    Tracked from 근성오빠의 6단 콤보 2008/05/23 22:29  삭제

    Hanrss 구독자수를 기반으로 한 블로거 top 1000 -   일상 한rss 구독자의 수로만 top 1000개를 뽑아 놓은 것에서 이글루스만 뽑았습니다. 우린 이글루스니까요. -_-V top 1000이라고 했는데 엑?

  7. Subject: 블로그 RSS 독자수 변화, 어디서 비롯될까?

    Tracked from 디자인로그[DESIGN LOG] 2008/05/26 19:09  삭제

    블로그 RSS 구독자 변화, 블로거 간담을 서늘하게.. 블로그를 운영하면서 어느 정도 시간이 지나면 자신의 글에 공감하고 관심을 가진 독자가 RSS 리더를 통해서 글을 구독하게 되는 고정 독자를

  8. Subject: 고감자님 따라해보기.. HanRSS 구독자수를 기반으로 한 블로거 순위 찾기

    Tracked from Hare in the Box 2008/06/14 00:19  삭제

    오랜만의 포스팅이 따라하기(?)라니 좀 슬프지만 :) 그래도 한번 해보았다. 한RSS에서 제공하는 RSS의 구독자수를 크롤링해서 순위를 메겨보는 것이 목표. 고감자님과 같이 Python과 BeautifulSoup, feedp

댓글을 달아 주세요

  1. astraea 2008/05/19 09:17

    저는 1000위 안에도 못 드네요..^^

  2. 라디오키즈 2008/05/19 10:09

    35등이군요.@_@; 아이 좋아~~~

  3. 지민아빠 2008/05/19 10:36

    저도 이거 만들어 보려고 했는데 말이죠. 꽤 쓸만한 데이터를 만들어 주셨네요. ^^

  4. Channy 2008/05/19 12:15

    저는 구독자 숫자 기반의 인기 블로그 순위 선정에 의문이 있습니다. 제 스스로 2위이지만 이건 어디 까지나 블로그를 오래해서 노출된 기간이 길기 때문이죠.

    UV 처럼 Unique Subscriber를 도입해서 주간 혹은 월간으로 순위를 매길 필요가 있다고 봅니다.

    • 고감자 2008/05/19 13:07

      네.. 맞습니다.
      어느 기간을 정해서 특정 기간동안 구독자수 증감을 적용하면 좀더 나은 결과를 보여주지 않을까 합니다.
      stiff한 증감률을 보여주는 사람이 부스팅을 받아야죠.
      참! 그리고 위 데이터는 그냥 hanrss를 긁은것 이상도 이하도 아닙니다.
      위 데이터로 뭘 하느냐가 중요하겠죠. ^^

  5. Channy 2008/05/19 21:57

    여담인데요. title 에 블로그 글 제목을 넣어 주심 어떨까요? Firefox3 에서 주소창에서 글 제목으로 찻질 못하겠네요.

  6. 칫솔 2008/05/20 07:26

    어찌됐든 고정 독자가 많다는 건 기쁜 일이에요. ^^

  7. 제닉스 2008/05/20 09:28

    오오. 19등! 잘 보고 갑니다.^^

  8. Draco 2008/05/20 10:32

    716위. 포함되어 있다는데 의의를....;;;

  9. 아크몬드 2008/05/20 15:52

    딱 100위입니다..
    10%안에는 드는군요..

    그러나 Channy님 말씀처럼 주간/월간의 순위가 더욱 신빙성 있을 것으로 예상됩니다. 자료 잘 봤습니다.

  10. 지인우인 2008/05/20 20:46

    어떻게 이렇게 엑셀파일로 만드셨는지 참 신기할 따름입니다. 글을 보면 뭔가 테크닉을 발휘하셔서 쉽게 뽑아 내신 것 같은데요, 프로그래머가 아닌 제게는 그저 신기할 따름이내요. ^_^

  11. foog 2008/05/22 14:10

    저중에 이정환닷컴은 마치 2개의 사이트인것처럼 서로 다른 주소로 랭킹에 올라와 있죠. 그 둘을 합치면 거의 탑10안에 들겁니다. :)

  12. 편집장 2008/05/23 08:28

    오~ 178위나 했다니...
    좀 기대밖에 높은 순위네요. 흐흐 ^^;;

  13. 마음으로 찍는 사진 2008/05/23 12:44

    뭐.. 안에 있다는 것에 의의를.. ^^

  14. 마루 2008/05/26 19:08

    고감자님! 처음 인사를 드리게 됩니다.
    많은 시간과 노력을 들여 정리하신 자료는 소중하게 활용하도록 하겠습니다.
    일반 블로거가 작업을 했더라면 상당히 노고가 많았으리라 생각됩니다.^^
    역시 대단하십니다.

  15. Magicboy 2008/05/26 23:46

    음하하... 역시나 . .. .
    이럴때 수뉘꿘 밖이라고 표현하는거죠? ...^^;

write a comment

[로그인][오픈아이디란?]