7.7.2.1. NormalizerAuto
¶
7.7.2.1.1. 概要¶
通常は NormalizerAuto
ノーマライザーを使うべきです。 NormalizerAuto
はGroonga 2.0.9以前で使っていたノーマライザーと同じものです。2.0.9以前のGroongaの table_create
の KEY_NORMALIZE
フラグは、2.1.0以降のGroongaの table_create
の --normalizer NormalizerAuto
と同じです。
NormalizerAuto
はすべてのエンコーディングに対応しています。UTF-8でエンコードされたテキストにはUnicodeのNFKC(Normalization Form Compatibility Composition)を使います。他のエンコーディング用にはエンコーディング毎に独自の正規化をします。これらの独自の正規化の結果はNFKCでの結果と似たものになります。
7.7.2.1.3. 使い方¶
NormalizerAuto
は、半角カタカナ(例えば「カ」: U+FF76 HALFWIDTH KATAKANA LETTER KA) + 半角カタカナの濁点(「゙」: U+FF9E HALFWIDTH KATAKANA VOICED SOUND MARK)を濁点付きの全角カタカナ(「ガ」: U+30AC KATAKANA LETTER GA)に正規化します。前者は2文字ですが、後者は1文字です。
以下は NormalizerAuto
ノーマライザーを使う例です。
実行例:
normalize NormalizerAuto "ガ"
# [
# [
# 0,
# 1547239424.874337,
# 0.0001468658447265625
# ],
# {
# "normalized": "ガ",
# "types": [
# ],
# "checks": [
# ]
# }
# ]