web クローラ兼 HTML レイアウト分析プログラム Webstemmer
2005-06-09-1
http://www.unixuser.org/~euske/python/webstemmer/index-j.html
- via: TokuLog!
http://tokuhirom.dnsalias.org/~tokuhirom/tokulog/1189.html
ニュースサイトからプレインテキスト形式で記事本文とタイトルだけを自動的に抽出し、
バナーや広告、ナビゲーション用のリンクなどはとり除きます。
サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。