前回の記事で書いたようにはてまブックマークで学んだことを書いていこうと思う。 参考URL 本文を抽出するために参考にしたサイトは以下。 ブログの記事本文を抽出するスクリプトをつくってみた ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp) 実装 gooやYahoo!ではどんな風に実装されているんだろうと気になり、自分でもつくってみました。今回できたスクリプトでは28件中23件、8割の成功確率でした。NRIのレポートでも推定、とあるように人間が目で見て正解か確かめていくのはしんどいのでちょっとサンプル数は少なめ。 http://blog.zuzara.com/2006/06/06/84/ 80%って書いてあるんだけど、僕が試してみたところ思ったより成功率が悪かった。んで、調べてて見つかったのが句読点とかをカウントしてそれが一番多いところを本文として