7.3.66. table_tokenize
#
7.3.66.1. 概要#
table_tokenize
コマンドは指定したテーブルのトークナイザーでテキストをトークナイズします。
7.3.66.2. 構文#
このコマンドにはたくさんの引数があります。
table
と string
は必須の引数です。残りは省略できます:
table_tokenize table
string
[flags=NONE]
[mode=GET]
[index_column=null]
7.3.66.3. 使い方#
以下は簡単な使用例です。
実行例:
plugin_register token_filters/stop_word
# [[0,1337566253.89858,0.000355720520019531],true]
table_create Terms TABLE_PAT_KEY ShortText --default_tokenizer TokenBigram --normalizer NormalizerAuto --token_filters TokenFilterStopWord
# [[0,1337566253.89858,0.000355720520019531],true]
column_create Terms is_stop_word COLUMN_SCALAR Bool
# [[0,1337566253.89858,0.000355720520019531],true]
load --table Terms
[
{"_key": "and", "is_stop_word": true}
]
# [[0,1337566253.89858,0.000355720520019531],1]
table_tokenize Terms "Hello and Good-bye" --mode GET
# [[0,1337566253.89858,0.000355720520019531],[]]
Terms
テーブルには、 TokenBigram
トークナイザーと、 NormalizerAuto
ノーマライザーと、 TokenFilterStopWord
トークンフィルターがセットされています。 この例は TokenBigram
トークナイザーで "Hello and Good-bye"
をトークナイズしたトークンを返します。トークンは、 NormalizerAuto
ノーマライザーで正規化されています。 and
トークンは、 TokenFilterStopWord
トークンフィルターで除去されています。
7.3.66.4. 引数#
このセクションではすべての引数について説明します。引数はカテゴリわけしています。
7.3.66.4.1. 必須引数#
必須の引数は2つです。 table
と string
です。
7.3.66.4.1.1. table
#
語彙表テーブルを指定します。 table_tokenize
コマンドは、語彙表テーブルにセットされたトークナイザーとノーマライザーとトークンフィルターを使います。
7.3.66.4.1.2. string
#
トークナイズしたい文字列を指定します。
7.3.66.4.2. 省略可能引数#
いくつか省略可能な引数があります。
7.3.66.4.2.1. flags
#
トークナイズ処理をカスタマイズするオプションを指定します。「 |
」で区切って複数のオプションを指定することができます。
デフォルト値は NONE
です。
7.3.66.4.2.2. mode
#
トークナイズモードを指定します。
デフォルト値は GET
です。
7.3.66.4.2.3. index_column
#
インデックスカラム名を指定します。
戻り値にインデックスの estimated_size
が含まれます。
estimated_size
はトークンの概算の出現頻度を調べるのに便利です。
7.3.66.5. 戻り値#
table_tokenize
コマンドはトークナイズしたトークンを返します。