[Senna-dev 783] Re: index full. set bigger value toinitial_n_segments

Back to archive index

Akihiko Shinohara sino****@valle*****
2008年 2月 20日 (水) 00:26:09 JST


こんにちは、篠原です。
返事がとても遅くなってしまいました。すいません。

> 個人的な興味としては、
> 検索対象の
> ・件数
> ・データ量
> ・テキストの種別
> の3点が気になります。

まず、この件ですが、2つの環境として
(1) 新規登録環境
    (a). 件数 約300万件
    (b). データ量 約20GB
    (c). テキストの種類 MEDIUMTEXT ,SJISコード
(2) 0.8系で使用していたテーブルからのインデックス再作成
   (a). 件数 約300万件
   (b). データ量 約13GB
   (c). テキストの種類 MEDIUMTEXT ,SJISコード
        但し、変換元のテーブルの型は、TEXTなので、最大でもTEXTのサイズを
        超えることはありません。
という環境です。

今まで、INITIAL_N_SEGMENTSは、使用メモリサイズとスピードに関連する
パラメータと思っていて、あまり気にしていませんでしたが、
実は、以下の説明にもあるように、
http://lists.sourceforge.jp/mailman/archives/senna-dev/2006-February/000197.html
初期値の512の設定だと、最大8G程度のインデックスしか作成できないという制限な
のです
ね、言い換えれば、形態素解析では、ほぼテーブルサイズのインデックスとなり
N-gramのインデックスでは、テーブルサイズの1.5倍程度のインデックスとなるので

形態素解析では、8G
N-gramでは、5.3G

のへんが境界線という事でしょうか。

という事で最初に示した環境は無謀もいいところですね。(^^;
INITIAL_N_SEGMENTSを調整することで無事にインデックスが
作成できました。

ありがとうございました。
----
sino




Senna-dev メーリングリストの案内
Back to archive index