[groonga-dev,02691] オフラインインデックス構築後のgrn_ii_estimate_sizeの値について

Back to archive index

Naoya Murakami visio****@gmail*****
2014年 8月 28日 (木) 12:56:15 JST


お世話になっております。村上です。

現在、検索スコアをいろいろいじってみようと思っていろいろ調べています。

類似文書検索等において、トークンを含む文書数(DF)を算出するために
grn_ii_estimateを利用していると思います。

https://github.com/groonga/groonga/blob/master/lib/ii.c#L5686

今日、初めて知ったのですが、語彙表のインデックスカラムの数値は
この値を示しているのですね。

http://mroonga.org/ja/docs/reference/full_text_search/scoring.html#calculating-weight-per-token

オンラインインデックス構築後は、若干ずれているものの、概算のDF値を
正しく取得することができています。

しかしながら、オフラインインデックス後はすべて2になっています。

https://gist.github.com/naoa/f9b83dfb67f6cb077d27

(ii.cにデバッグログを埋め込んでesの値もみましたがやはり2でした)

このため、オフラインインデックス構築したデータベースでは、類似文書検索
では正しいスコアを算出できていないと思います。

grn_ii_estimateで正しいDF値を返すようにすることは可能でしょうか?

以上、よろしくお願いします。



groonga-dev メーリングリストの案内
Back to archive index