21:25
Nutchを学ぶ その1
まずは情報収集
Crawlerについて調べたくなったので、勉強日誌をつける。英語がからっきしだめなので、日本語の情報を探してみる。Crawlerについて調べていくと、なんとなくよさそうなものが二つ 両方ともJavaで作られていて、大規模なクローリングに向いている。どちらも日本語の情報は極端に少なく、インストールしてみたとか、動作させてみた、という情報はあるものの、しっかりとやった人は情報を公開していない。 Nutchはクローラーだけでなく、検索エンジンもついている。一方HeritrixはInternet Archiveで使われているクローラー。Heritrixは開発がすごく活発に行われているみたい。でもここは検索エンジンもついているNutchについて勉強しようと思う。名前も可愛いし。今日あたりからちゃんと勉強を初めてみる。日本語のリンク集
Nutchについてかかれている情報へのリンクを羅列してみる。- Kaz Muzikさんのところ
- Kaz Muzik Blog - Nutch 0.9 - Kaz Muzik Blog Backup Project #1
- Kaz Muzik Blog - Nutch crawldb - Kaz Muzik Blog Backup Project #2
- Kaz Muzik Blog - Nutch segment - Kaz Muzik Blog Backup Project #3
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #4
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #5
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #6
- Kaz Muzik Blog - my ContentGetter class - Kaz Muzik Blog Backup Project #7
- Kaz Muzik Blog - Nutch 0.9 - org.apache.nutch.protocol.Content main() - Kaz Muzik Blog Backup Project #8
- Kaz Muzik Blog - LiveJournalEntryFilterReader - Kaz Muzik Blog Backup Project #9
- Kaz Muzik Blog - LiveJournalEntryExtractor - Kaz Muzik Blog Backup Project #10
- Kaz Muzik Blog - LiveJournalEntry & LiveJournalEntryParser - Kaz Muzik Blog Backup Project #11
- Kaz Muzik Blog - LiveJournalEntryHtmlWriter & LiveJournalEntryHtmlCreator - Kaz Muzik Blog Backup Project #12
- Kaz Muzik Blog - LiveJournalFetchPreparator - Kaz Muzik Blog Backup Project #13
- Kaz Muzik Blog - LiveJournalEntryDatabase - Kaz Muzik Blog Backup Project #14
- Kaz Muzik Blog - LiveJournalEntryDatabaseInitializer - Kaz Muzik Blog Backup Project #15
- Kaz Muzik Blog - LiveJournalEntryUpdater - Kaz Muzik Blog Backup Project #16
- Kaz Muzik Blog - LiveJournalDatabaseSetup - Kaz Muzik Blog Backup Project #17
- Kaz Muzik Blog - LiveJournalHtmlCreator - Kaz Muzik Blog Backup Project #18
- Kaz Muzik Blog - DbVisualizer (Kaz Muzik Blog Backup Project #19)
- Kaz Muzik Blog - LiveJournalDatabaseManager - Kaz Muzik Blog Backup Project #20
- Kaz Muzik Blog - LiveJournalFetchPreparator with LiveJournalDatabaseManager - Kaz Muzik Blog Backup Project #21
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #22
- Kaz Muzik Blog - Apache Ant - Kaz Muzik Blog Backup Project #23
- Kaz Muzik Blog - HTML per Tag - Kaz Muzik Blog Backup Project #24
- Kaz Muzik Blog - Nutch subcommands - Kaz Muzik Blog Backup Project #25
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #26
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #27 - LiveJournalMonthlyParser & LivrJournalMonthlyManager
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #28 - Kaz Muzik Blog Google Search Project #6
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #29
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #30
- Kaz Muzik Blog - Kaz Muzik Blog Backup Project #31
- Kaz Muzik Blog - sampo nutch project - Kaz Muzik Blog Backup Project #32
- Nutch - PukiWiki
- Kazuhiro's Weblog: 「Nutch」ですいすい情報収集 (クローリング機能を試す)