結局どうやって全文を取得するかだと思うんだが

RSS全文配信推進派の人達が、はてなブックマークのRSSが部分配信な事に文句を言わないのはどうしてなんだろう。
http://awasete.oshira.se/経由
上記の記事では著作権的な視点から、はてなブックマークが全文配信をしない理由を推測されています。
ここで書いてあるような理由もあると思いますが、はてブの全文配信で問題なのはむしろ、どうやってはてブされた記事から記事の本文を抽出するかということではないでしょうか。


多くのサイトでは、本文があるところ以外にも、サイドバーに広告などを載せています。
検索エンジンが検索精度を上げるためには、いかに余分な部分を削って本文を抽出するかが重要になってきます。
本文の推定には、RSSなどを利用できますが、基本的にヒューリスティックなルールを取り入れていくしかありません。
ブログの本文の推測は比較的簡単ですが、世の中にはひどいHTMLを書く人もいるので油断はできません。


はてブの人気エントリのRSSのdescriptionを眺めてみると、はてながどういう方法をとっているのかわかりませんが、大部分がうまく本文を取れているようです。しかし、失敗しているものもいくつかあります。
また、先頭から途中までしか表示されていないので、うまく本文の終了まで取れているのかはここからだけでは推測できません。


ということで、もしはてなブックマークが全文を配信しようと思ってもちゃんと全文が取れない可能性があるということになります。
そういった意味で、元から記事の本文を持っているブログの全文配信の話と同じに考えるのはどうかな?と感じました。
まあ今ぐらいの精度があれば、少々誤爆してようが気にならない程度かもしれませんが。

参考:
ブログの記事本文を抽出するスクリプトをつくってみた