Naoya Murakami
visio****@gmail*****
2013年 12月 6日 (金) 17:54:32 JST
お世話になっております。 村上です。 多数の返信お疲れ様です。 > また、この他に大規模になってくると、転置インデックスの語句の出現回数に応じて、 > > 全文検索性能自体が激しく劣化するということがわかったので、 > > トークナイズ処理の手当てをして、ようやく満足いく性能が得られたかなというところです。 > > おぉ!そこまで完成度があがっていたのですね! > よかったです! > > > おかげさまで大分速くなりました! ちなみに、Advent-Calenderの2回目(1回目はまた別の性能比較をやります。)の話題として、 Mecabトークナイザにおける転置インデックスの語句の出現回数に応じた検索性能を比較してみた、 みたいなことを考えており、語彙表の語句ごとに検索の秒数を取得しようと思うのですが、 GroongaかMroongaでは、非わかち書き検索を明示的にすることができますか? できないようでしたら、検索時のみトークナイザをいじるか、Mecab辞書をいじることで 対応しようと思います。 また、Groongaのselectでは、0件の場合に前方一致→非わかち書きとエスカレーション するようですが、MroongaのSELECT MATCH AGAINSTでは、検索のエスカレーションはしない という認識でよいですか? > > Groonga(Mroongaストレージモード)で作られるデータファイルって1Gごとに > > ばらばらになりますが、インデックスが使われないケースのレコードアクセス > > での絞り込みやカウント等は、カラムに対応づけられた全ファイルを読んじゃう > > んですかね? > > 読みます! > なるほど、カラム刈り込みでファイルが絞り込まれ、さらに、 検索条件で読み込むファイルが絞り込まれているのだったら、 すごいなぁと思いましたが、さすがにそういうことはないんですね。 以上、よろしくお願いします。