Naoya Murakami
visio****@gmail*****
2014年 8月 28日 (木) 12:56:15 JST
お世話になっております。村上です。 現在、検索スコアをいろいろいじってみようと思っていろいろ調べています。 類似文書検索等において、トークンを含む文書数(DF)を算出するために grn_ii_estimateを利用していると思います。 https://github.com/groonga/groonga/blob/master/lib/ii.c#L5686 今日、初めて知ったのですが、語彙表のインデックスカラムの数値は この値を示しているのですね。 http://mroonga.org/ja/docs/reference/full_text_search/scoring.html#calculating-weight-per-token オンラインインデックス構築後は、若干ずれているものの、概算のDF値を 正しく取得することができています。 しかしながら、オフラインインデックス後はすべて2になっています。 https://gist.github.com/naoa/f9b83dfb67f6cb077d27 (ii.cにデバッグログを埋め込んでesの値もみましたがやはり2でした) このため、オフラインインデックス構築したデータベースでは、類似文書検索 では正しいスコアを算出できていないと思います。 grn_ii_estimateで正しいDF値を返すようにすることは可能でしょうか? 以上、よろしくお願いします。