今日は肉の日ですね。Groonga 8.0.9をリリースしました! http://groonga.org/ja/blog/2018/11/29/groonga-8.0.9.html 変更点一覧: http://groonga.org/ja/docs/news.html#release-8-0-9 今回のリリースでの主な変更点は以下の通りです。 * トークナイザーのTokenDelimitが空白文字以外でも区切ってトークナイズできるようになりました。 * ノーマライザーとトークンフィルターの、主に国際化関連での複数の改善。 #### トークナイザーのTokenDelimitが空白文字以外でも区切ってトークナイズできるようになりました TokenDelimit で任意の区切り文字を指定するための新たなオプションとして delimiter と pattern が追加されました。例: % groonga > tokenize 'TokenDelimit("delimiter", ",")' "A,B" => "A", "B" > tokenize 'TokenDelimit("delimiter", ",")' "A , B" => "A ", " B" (空白文字が残っている) > tokenize 'TokenDelimit("pattern", "\\\\s*,\\\\s*")' "A, B ,C" => "A", "B", "C" 2番目の例のように、delimiter オプションで指定されなかった文字は区切り文字として扱われない事に注意して下さい。 3番目の例のように一定しない空白文字を含む入力に対しては、区切りを正規表現で指定できる pattern オプションが便利でしょう。 #### ノーマライザーとトークンフィルターの、主に国際化関連での複数の改善 ノーマライザーの NormalizerNFKC100 が、新しいオプション unify_to_romaji によるひらがな・カタカナからローマ字への変換に対応しました。 また、新たな組み込みのトークンフィルターとして TokenFilterNFKC100 も追加されました。 このトークンフィルターはノーマライザーの NormalizerNFKC100 と同様に、unify_kana オプションによってカタカナからひらがなへの変換を行えます。 トークンフィルターの TokenFilterStem では、新たに追加された algorithm オプションによって英語以外の言語(フランス語、スペイン語、ポルトガル語、イタリア語、ルーマニア語、ドイツ語、オランダ語、スウェーデン語、ノルウェー語、デンマーク語、ロシア語、フィンランド語)のステミングを行えるようになりました。 トークンフィルターの TokenFilterStopWord では、新たに追加された column オプションによって、is_stop_word 以外の任意の名前のカラムをストップワードの明示に使えるようになりました。 -- 結城 洋志 <YUKI Hiroshi> E-mail: yuki****@clear***** 株式会社クリアコード 〒170-0005 東京都豊島区南大塚3-29-9 中野ビル3階 TEL : 03-5927-9440 FAX : 03-5927-9441 WWW : http://www.clear-code.com/