7.7.2.1. NormalizerAuto
#
7.7.2.1.1. 概要#
通常は NormalizerAuto
ノーマライザーを使うべきです。 NormalizerAuto
はGroonga 2.0.9以前で使っていたノーマライザーと同じものです。2.0.9以前のGroongaの table_create
の KEY_NORMALIZE
フラグは、2.1.0以降のGroongaの table_create
の --normalizer NormalizerAuto
と同じです。
NormalizerAuto
はすべてのエンコーディングに対応しています。UTF-8でエンコードされたテキストにはUnicodeのNFKC(Normalization Form Compatibility Composition)を使います。他のエンコーディング用にはエンコーディング毎に独自の正規化をします。これらの独自の正規化の結果はNFKCでの結果と似たものになります。
7.7.2.1.2. 構文#
NormalizerAuto
には引数はありません。:
NormalizerAuto
7.7.2.1.3. 使い方#
NormalizerAuto
は、半角カタカナ(例えば「カ」: U+FF76 HALFWIDTH KATAKANA LETTER KA) + 半角カタカナの濁点(「゙」: U+FF9E HALFWIDTH KATAKANA VOICED SOUND MARK)を濁点付きの全角カタカナ(「ガ」: U+30AC KATAKANA LETTER GA)に正規化します。前者は2文字ですが、後者は1文字です。
以下は NormalizerAuto
ノーマライザーを使う例です。
実行例:
table_create NormalLexicon TABLE_HASH_KEY ShortText --normalizer NormalizerAuto
# [[0,1337566253.89858,0.000355720520019531],true]