YUKI Hiroshi 2018-11-29 14:30:22 +0900 (Thu, 29 Nov 2018) Revision: 7f61fc6375898e156dbebd868380adeab909d848 https://github.com/groonga/groonga.org/commit/7f61fc6375898e156dbebd868380adeab909d848 Message: Add release announce of Groonga 8.0.9 Added files: en/_posts/2018-11-29-groonga-8.0.9.md ja/_posts/2018-11-29-groonga-8.0.9.md Added: en/_posts/2018-11-29-groonga-8.0.9.md (+68 -0) 100644 =================================================================== --- /dev/null +++ en/_posts/2018-11-29-groonga-8.0.9.md 2018-11-29 14:30:22 +0900 (8d5c25269) @@ -0,0 +1,68 @@ +--- +layout: post.en +title: Groonga 8.0.9 has been released +description: Groonga 8.0.9 has been released! +--- + +## Groonga 8.0.9 has been released + +[Groonga 8.0.9](/docs/news.html#release-8-0-9) has been released! + +How to install: [Install](/docs/install.html) + +### Changes + +Here are important changes in this release: + +* The [TokenDelimit](/docs/reference/tokenizers#tokendelimit) tokenizer now supports any delimiter not only whitespaces. +* Improvements around [normalizers](/docs/reference/normalizers) and [token filters](/docs/reference/token_filters) mainly for better internationalization. + +#### The [TokenDelimit](/docs/reference/tokenizers#tokendelimit) tokenizer now supports any delimiter not only whitespaces + +New options `delimiter` and `pattern` are now available for `TokenDelimit` to specify any delimiter, like: + +``` +% groonga +> tokenize 'TokenDelimit("delimiter", ",")' "A,B" +=> "A", "B" +> tokenize 'TokenDelimit("delimiter", ",")' "A , B" +=> "A ", " B" (whitespace still there) +> tokenize 'TokenDelimit("pattern", "\\\\s*,\\\\s*")' "A, B ,C" +=> "A", "B", "C" +``` + +Please note that characters not specified by the `delimiter` option are not treated as delimiters like as the second example. +The `pattern` option accepts a regular experssion, and it will be useful for input like as the third example containing random whitespaces. + +#### Improvements around [normalizers](/docs/reference/normalizers) and [token filters](/docs/reference/token_filters) mainly for better internationalization + +The `NormalizerNFKC100` normalizer now supports a new option `unify_to_romaji` to convert both hiragana and katakana to romaji, like: + +``` +% groonga +> normalize 'NormalizerNFKC100("unify_to_romaji", true)' "リンゴ みかん" +=> "ringo mikan" +``` + +And a new built-in token filter `TokenFilterNFKC100` is added. +It also can covert katakana to hiragana like `NormalizerNFKC100` with the `unify_kana` option, like: + +``` +% groonga +> tokenize TokenMecab "リンゴおいしい" --token_filters TokenFilterNFKC100 +=> "リンゴ", "おいしい" ("リンゴ" was normalized) +> tokenize TokenMecab "リンゴおいしい" --token_filters 'TokenFilterNFKC100("unify_kana", true)' +=> "りんご", "おいしい" ("リンゴ" was normalized and converted) +``` + +The `TokenFilterStem` filter now supports a new option `algorithm` for stemming not only in English but also in other languages: French, Spanish, Portuguese, Italian, Romanian, German, Dutch, Swedish, Norwegian, Danish, Russian, and Finnish. +The [test for the option](https://github.com/groonga/groonga/blob/3744cc101832044d4f5a9e2ccd9ff63fb3dcaf40/test/command/suite/token_filters/stem/french.test) describes its usage. + +The `TokenFilterStopWord` filter now supports a new option `column` to change the name of a column for stop words from `is_stop_word` to any other. +The [test for the option](https://github.com/groonga/groonga/blob/3ea76c97025dedee4c00e98614e71eb3662dce69/test/command/suite/token_filters/stop_word/column.test) describes its usage. + +### Conclusion + +See [Release 8.0.9 2018-11-29](/docs/news.html#release-8-0-9) about detailed changes since 8.0.8 + +Let's search by Groonga! Added: ja/_posts/2018-11-29-groonga-8.0.9.md (+68 -0) 100644 =================================================================== --- /dev/null +++ ja/_posts/2018-11-29-groonga-8.0.9.md 2018-11-29 14:30:22 +0900 (8463b6479) @@ -0,0 +1,68 @@ +--- +layout: post.ja +title: Groonga 8.0.9リリース +description: Groonga 8.0.9をリリースしました! +--- + +## Groonga 8.0.9リリース + +肉の日ですね。[Groonga 8.0.9](/ja/docs/news.html#release-8-0-9)をリリースしました! + +それぞれの環境毎のインストール方法: [インストール](/ja/docs/install.html) + +### 変更内容 + +主な変更点は以下の通りです。 + +* トークナイザーの[TokenDelimit](/ja/docs/reference/tokenizers#tokendelimit)が空白文字以外でも区切ってトークナイズできるようになりました。 +* [ノーマライザー](/ja/docs/reference/normalizers)と[トークンフィルター](/ja/docs/reference/token_filters)の、主に国際化関連での複数の改善。 + +#### トークナイザーの[TokenDelimit](/ja/docs/reference/tokenizers#tokendelimit)が空白文字以外でも区切ってトークナイズできるようになりました + +`TokenDelimit` で任意の区切り文字を指定するための新たなオプションとして `delimiter` と `pattern` が追加されました。例: + +``` +% groonga +> tokenize 'TokenDelimit("delimiter", ",")' "A,B" +=> "A", "B" +> tokenize 'TokenDelimit("delimiter", ",")' "A , B" +=> "A ", " B" (空白文字が残っている) +> tokenize 'TokenDelimit("pattern", "\\\\s*,\\\\s*")' "A, B ,C" +=> "A", "B", "C" +``` + +2番目の例のように、`delimiter` オプションで指定されなかった文字は区切り文字として扱われない事に注意して下さい。 +3番目の例のように一定しない空白文字を含む入力に対しては、区切りを正規表現で指定できる `pattern` オプションが便利でしょう。 + +#### [ノーマライザー](/ja/docs/reference/normalizers)と[トークンフィルター](/ja/docs/reference/token_filters)の、主に国際化関連での複数の改善 + +ノーマライザーの `NormalizerNFKC100` が、新しいオプション `unify_to_romaji` によるひらがな・カタカナからローマ字への変換に対応しました。例: + +``` +% groonga +> normalize 'NormalizerNFKC100("unify_to_romaji", true)' "リンゴ みかん" +=> "ringo mikan" +``` + +また、新たな組み込みのトークンフィルターとして `TokenFilterNFKC100` も追加されました。 +このトークンフィルターはノーマライザーの `NormalizerNFKC100` と同様に、`unify_kana` オプションによってカタカナからひらがなへの変換を行えます。例: + +``` +% groonga +> tokenize TokenMecab "リンゴおいしい" --token_filters TokenFilterNFKC100 +=> "リンゴ", "おいしい" ("リンゴ" が全角にノーマライズされたのみ) +> tokenize TokenMecab "リンゴおいしい" --token_filters 'TokenFilterNFKC100("unify_kana", true)' +=> "りんご", "おいしい" ("リンゴ" が全角且つひらがなにノーマライズされている) +``` + +トークンフィルターの `TokenFilterStem` では、新たに追加された `algorithm` オプションによって英語以外の言語(フランス語、スペイン語、ポルトガル語、イタリア語、ルーマニア語、ドイツ語、オランダ語、スウェーデン語、ノルウェー語、デンマーク語、ロシア語、フィンランド語)のステミングを行えるようになりました。 +具体的な使い方は[このオプションの自動テスト](https://github.com/groonga/groonga/blob/3744cc101832044d4f5a9e2ccd9ff63fb3dcaf40/test/command/suite/token_filters/stem/french.test)を参照して下さい。 + +トークンフィルターの `TokenFilterStopWord` では、新たに追加された `column` オプションによって、`is_stop_word` 以外の任意の名前のカラムをストップワードの明示に使えるようになりました。 +具体的な使い方は[このオプションの自動テスト](https://github.com/groonga/groonga/blob/3744cc101832044d4f5a9e2ccd9ff63fb3dcaf40/test/command/suite/(https://github.com/groonga/groonga/blob/3ea76c97025dedee4c00e98614e71eb3662dce69/test/command/suite/token_filters/stop_word/column.test)を参照して下さい。 + +### さいごに + +8.0.8からの詳細な変更点は[8.0.9リリース 2018-11-29](/ja/docs/news.html#release-8-0-9)を確認してください。 + +それでは、Groongaでガンガン検索してください! -------------- next part -------------- An HTML attachment was scrubbed... URL: <https://lists.osdn.me/mailman/archives/groonga-commit/attachments/20181129/a74b8a80/attachment-0001.html>