2004年05月 07日
Similarity Search
Bulkfeed Smilarity Search をサイトに実装してみました。Similarity Search の詳細は下記 URL を参照くださいませ。
blog.bulknews.net: Bulkfeeds: Similarity Search リリース
Indivisual Entry の右横にその Entry に『似ている』と想像される Entry が表示されます。⇒ こんな感じ。amazon アソシエイト・プログラム系のエントリーが書かれた blog へリンクが張られていますね。これらを自動的に行う機能です。
ちょっと表示に時間がかかるかも?ので、一番右側においやって最悪でもコンテンツは参照できるように工夫してみました。ちなみに、2004年5月2日以前の Entry の Similarity Search はちょっと状態がおかしくなっています。これは過去の Entry ID との不整合によるものです。仕方ないかなーこれくらいは。もともと1ヶ月以内の Entry しか見ないみたいなので、鮮度の高い間だけの不具合ですし。
ちなみにこの Similarity Search ないしは 『類似度検索』ですが、多分、形態素解析と TF・IDF 法の応用です。いずれも文脈理解の研究分野で定石とされるような手法のようです。理屈は結構シンプル。
あるページとあるページの似ている・似ていないを検出する場合、ページに出てくる単語でマッチングをかけてやれば良い、と言うのがスタート地点。
が、文章の中には『です』とか『私』とかあまり重要でない単語は取り除いて評価したい。ので、形態素解析を用いてまず名詞、固有名詞抽出を行う。これではまだ不十分でそれら名詞のうち『重要』と想定される重みを算出するのが TF・IDF 法。あっちこっちでよく出てくる単語はあまり重要でない、そのページだけに出現する単語の重要度は高い、と言うポリシーの理論です。
実は僕、この理論の信憑性を疑っていたのですがw かなりばっちりヒットするなぁ。
Similarity Search の負荷が気になる場合は、jscache を利用してみてください。











