web クローラ兼 HTML レイアウト分析プログラム Webstemmer

  http://www.unixuser.org/~euske/python/webstemmer/index-j.html

- via: TokuLog!
  http://tokuhirom.dnsalias.org/~tokuhirom/tokulog/1189.html

ニュースサイトからプレインテキスト形式で記事本文とタイトルだけを自動的に抽出し、
バナーや広告、ナビゲーション用のリンクなどはとり除きます。
サイトのトップページの URL さえ与えれば全自動で解析するため、人手の介入はほとんど必要ありません。