2:55
By jx
Nutchを使おうと考えていたんだけど、自分の作りたいアプリケーションとNutchの相性が良くない。特定のURLのみ扱いたくて、なおかつその特定のURLが膨大な数になる。Nutchを使うと、全てのURLを設定ファイルに記述しなければ行けなくなるし、別々に処理したい。さらに、そのURLは頻繁に更新されるから、Nutchが要件にあわない。
さて、どうしようか。サイトをRailsで作ろうかと考えているから、Rubyで書いてしまうか。でも、そこにあんまり力を入れたくないのも会ってかなり躊躇してる。さてどうしたものか。。。おすすめのクローラーがあったら教えてください。
1:38
Nutch 0.9をそのままDLしてきてWebインタフェースを表示しようとすると、日本語環境では表示すらもままならない。ブラウザの環境から言語情報をとってくるが、jaとjpが誤って書かれているらしく、正常に表示ができないことが原因
そこで、これらを修正するNutch 0.9用のパッチを書いた。以下のようにして、パッチを当てれば、とりあえず、日本語のUIで検索ボックスが表示出来るようになる。
ファイルは
こちら
$ wget http://jirox.net/patches/nutch-0.9-ja.patch
$ svn export http://svn.apache.org/repos/asf/lucene/nutch/tags/release-0.9/ nutch-0.9-ja
$ cd nutch-0.9-ja
$ patch -p1 -d . < ../nutch-0.9-ja.patch ant war
以上でbuild/nutch-0.9.war にwarができあがる
ちなみに、以下のサイトを参考にしました
Nutch - PukiWiki
感謝です。
ただし、実際の検索は日本語とおりません。一文字ずつインデックスされてしまっているので、これは対応する必要があります。それについては、まだ解決出来ていないので、後日。
11:40
このブログは、Blogger の
利用規約に違反した可能性があるためロックされており、公開されていません。ブログを確認してロックを解除するまで、新しい投稿を公開することはできません。
このブログは、確認をリクエストしないと 20 日以内に削除されます。
このページにアクセスしようとしたら、こんな風なメッセージが表示されたよ。俺なにもしてないし、投稿二日目にこんなふうになるなんて、Bloggerはユーザに使ってほしくないんかね?せめてさ、もう少したってからにしてほしいよね。
22:50
心機一転Blogを始める。
ネットは広大だ。自分が集めたい情報だけでもGoogleで検索すると1,000,000件を軽く超える。マシン一台では到底扱えないような情報。でもそういった情報に積極的ににアクセスし、手足のように扱いたい。