7.3.67. `table_tokenize`#

7.3.67.1. 概要#

table_tokenize コマンドは指定したテーブルのトークナイザーでテキストをトークナイズします。

7.3.67.2. 構文#

このコマンドにはたくさんの引数があります。

table と string は必須の引数です。残りは省略できます:

table_tokenize table
               string
               [flags=NONE]
               [mode=GET]
               [index_column=null]
               [output_style=full]

7.3.67.3. 使い方#

以下は簡単な使用例です。

実行例:

plugin_register token_filters/stop_word
# [[0,1337566253.89858,0.000355720520019531],true]
table_create Terms TABLE_PAT_KEY ShortText   --default_tokenizer TokenBigram   --normalizer NormalizerAuto   --token_filters TokenFilterStopWord
# [[0,1337566253.89858,0.000355720520019531],true]
column_create Terms is_stop_word COLUMN_SCALAR Bool
# [[0,1337566253.89858,0.000355720520019531],true]
load --table Terms
[
{"_key": "and", "is_stop_word": true}
]
# [[0,1337566253.89858,0.000355720520019531],1]
table_tokenize Terms "Hello and Good-bye" --mode GET
# [[0,1337566253.89858,0.000355720520019531],[]]

Terms テーブルには、 TokenBigram トークナイザーと、 NormalizerAuto ノーマライザーと、 TokenFilterStopWord トークンフィルターがセットされています。この例は TokenBigram トークナイザーで "Hello and Good-bye" をトークナイズしたトークンを返します。トークンは、 NormalizerAuto ノーマライザーで正規化されています。 and トークンは、 TokenFilterStopWord トークンフィルターで除去されています。

7.3.67.4. 引数#

このセクションではすべての引数について説明します。引数はカテゴリわけしています。

7.3.67.4.1. 必須引数#

必須の引数は2つです。 table と string です。

7.3.67.4.1.1. `table`#

語彙表テーブルを指定します。 table_tokenize コマンドは、語彙表テーブルにセットされたトークナイザーとノーマライザーとトークンフィルターを使います。

7.3.67.4.1.2. `string`#

トークナイズしたい文字列を指定します。

詳細は、 tokenize の string オプションを参照してください。

7.3.67.4.2. 省略可能引数#

いくつか省略可能な引数があります。

7.3.67.4.2.1. `flags`#

トークナイズ処理をカスタマイズするオプションを指定します。「 | 」で区切って複数のオプションを指定することができます。

デフォルト値は NONE です。

詳細は、 tokenize の flags オプションを参照してください。

7.3.67.4.2.2. `mode`#

トークナイズモードを指定します。

デフォルト値は GET です。

詳細は、 tokenize の mode オプションを参照してください。

7.3.67.4.2.3. `index_column`#

インデックスカラム名を指定します。

戻り値にインデックスの estimated_size が含まれます。

estimated_size はトークンの概算の出現頻度を調べるのに便利です。

7.3.67.4.2.4. `output_style`#

Added in version 15.0.9.

table_tokenize コマンドの出力スタイルを指定します。

詳細は、 tokenize の output_style オプションを参照してください。

7.3.67.5. 戻り値#

table_tokenize コマンドはトークナイズしたトークンを返します。

詳細は、 tokenize の戻り値オプションを参照してください。

7.3.67. table_tokenize#

7.3.67.1. 概要#

7.3.67.2. 構文#

7.3.67.3. 使い方#

7.3.67.4. 引数#

7.3.67.4.1. 必須引数#

7.3.67.4.1.1. table#

7.3.67.4.1.2. string#

7.3.67.4.2. 省略可能引数#

7.3.67.4.2.1. flags#

7.3.67.4.2.2. mode#

7.3.67.4.2.3. index_column#

7.3.67.4.2.4. output_style#