Re: index full. set bigger value toinitial_n_segments (Senna-dev 783) - senna

こんにちは、篠原です。
返事がとても遅くなってしまいました。すいません。

> 個人的な興味としては、
> 検索対象の
> ・件数
> ・データ量
> ・テキストの種別
> の３点が気になります。

まず、この件ですが、2つの環境として
(1) 新規登録環境
    (a). 件数　約300万件
    (b). データ量　約20GB
    (c). テキストの種類　MEDIUMTEXT ,SJISコード
(2) 0.8系で使用していたテーブルからのインデックス再作成
   (a). 件数　約300万件
   (b). データ量　約13GB
   (c). テキストの種類　MEDIUMTEXT ,SJISコード
        但し、変換元のテーブルの型は、TEXTなので、最大でもTEXTのサイズを
        超えることはありません。
という環境です。

今まで、INITIAL_N_SEGMENTSは、使用メモリサイズとスピードに関連する
パラメータと思っていて、あまり気にしていませんでしたが、
実は、以下の説明にもあるように、
http://lists.sourceforge.jp/mailman/archives/senna-dev/2006-February/000197.html
初期値の512の設定だと、最大8G程度のインデックスしか作成できないという制限な
のです
ね、言い換えれば、形態素解析では、ほぼテーブルサイズのインデックスとなり
N-gramのインデックスでは、テーブルサイズの1.5倍程度のインデックスとなるので

形態素解析では、8G
N-gramでは、5.3G

のへんが境界線という事でしょうか。

という事で最初に示した環境は無謀もいいところですね。（＾＾；
INITIAL_N_SEGMENTSを調整することで無事にインデックスが
作成できました。

ありがとうございました。
----
sino

senna

[Senna-dev 783] Re: index full. set bigger value toinitial_n_segments