Akihiko Shinohara
sino****@valle*****
2008年 2月 20日 (水) 00:26:09 JST
こんにちは、篠原です。 返事がとても遅くなってしまいました。すいません。 > 個人的な興味としては、 > 検索対象の > ・件数 > ・データ量 > ・テキストの種別 > の3点が気になります。 まず、この件ですが、2つの環境として (1) 新規登録環境 (a). 件数 約300万件 (b). データ量 約20GB (c). テキストの種類 MEDIUMTEXT ,SJISコード (2) 0.8系で使用していたテーブルからのインデックス再作成 (a). 件数 約300万件 (b). データ量 約13GB (c). テキストの種類 MEDIUMTEXT ,SJISコード 但し、変換元のテーブルの型は、TEXTなので、最大でもTEXTのサイズを 超えることはありません。 という環境です。 今まで、INITIAL_N_SEGMENTSは、使用メモリサイズとスピードに関連する パラメータと思っていて、あまり気にしていませんでしたが、 実は、以下の説明にもあるように、 http://lists.sourceforge.jp/mailman/archives/senna-dev/2006-February/000197.html 初期値の512の設定だと、最大8G程度のインデックスしか作成できないという制限な のです ね、言い換えれば、形態素解析では、ほぼテーブルサイズのインデックスとなり N-gramのインデックスでは、テーブルサイズの1.5倍程度のインデックスとなるので 形態素解析では、8G N-gramでは、5.3G のへんが境界線という事でしょうか。 という事で最初に示した環境は無謀もいいところですね。(^^; INITIAL_N_SEGMENTSを調整することで無事にインデックスが 作成できました。 ありがとうございました。 ---- sino