7.6.2.2. ベクターカラム#

7.6.2.2.1. 概要#

ベクターカラム

ベクターカラムは0個以上のスカラー値を保存できます。ざっくり言うと、スカラー値とは数値や文字列といった1つの値のことです。スカラー値の詳細は スカラーカラム を参照してください。

ベクターカラムのユースケースの1つはタグの保存です。ベクターカラムを使うとタグの値を複数保存できます。

スカラーカラムと同じように、ベクターカラムもインデックスを使って検索できます。各要素に重みをつけることもできます。1以上の重みがついた要素がマッチすると、重みがついていない場合よりも大きなスコアがつきます。これはベクターカラム特有の機能です。重みも保存できるベクターカラムのことは重み付きベクターカラムと呼びます。

各要素がテキストなら、各要素に対して全文検索することもできます。しかし、重みを使った場合は検索スコアが高くなりすぎることに注意してください。重み付きベクターカラムに対して全文検索をするときは注意してください。

7.6.2.2.2. 使い方#

4種類ベクターカラムがあります。

  • ノーマルベクターカラム

  • 参照ベクターカラム

  • 重み付きベクターカラム

  • 生成ベクターカラム

このセクションではこれらのベクターカラムの使い方について説明します。

7.6.2.2.2.1. ノーマルベクターカラム#

ノーマルベクターカラムは0個以上のスカラーデータを保存します。スカラーデータとは、例えば、数値や文字列です。

ノーマルベクターカラムは同じ型の要素だけを保存できます。型を混ぜることはできません。例えば、同じノーマルベクターカラムに数値と文字列を保存できません。

ノーマルベクターカラムは、1つのレコードが、1つのキーに対して複数の値を持っているときに便利です。タグは一番よくあるユースケースです。

7.6.2.2.2.1.1. 作り方#

ノーマルベクターカラムを作るためには column_create コマンドを使います。ポイントは COLUMN_VECTOR フラグです。

実行例:

table_create Bookmarks TABLE_HASH_KEY ShortText
# [[0,1337566253.89858,0.000355720520019531],true]
column_create Bookmarks tags COLUMN_VECTOR ShortText
# [[0,1337566253.89858,0.000355720520019531],true]

1つのブックマークに0個以上のタグを設定できます。

7.6.2.2.2.1.2. ロード方法#

JSONの配列構文で指定してベクターデータをロードします:

[ELEMENT1, ELEMENT2, ELEMENT3, ...]

以下のデータをロードしましょう。

_key

tags

http://groonga.org/

["groonga"]

http://mroonga.org/

["mroonga", "mysql", "groonga"]

http://ranguba.org/

["ruby", "groonga"]

以下がデータをロードするコマンドです。

実行例:

load --table Bookmarks
[
{"_key": "http://groonga.org/", "tags": ["groonga"]},
{"_key": "http://mroonga.org/", "tags": ["mroonga", "mysql", "groonga"]},
{"_key": "http://ranguba.org/", "tags": ["ruby", "groonga"]}
]
# [[0,1337566253.89858,0.000355720520019531],3]

ロードしたデータはJSONの配列構文で出力されます。

実行例:

select Bookmarks
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     [
#       [
#         3
#       ],
#       [
#         [
#           "_id",
#           "UInt32"
#         ],
#         [
#           "_key",
#           "ShortText"
#         ],
#         [
#           "tags",
#           "ShortText"
#         ]
#       ],
#       [
#         1,
#         "http://groonga.org/",
#         [
#           "groonga"
#         ]
#       ],
#       [
#         2,
#         "http://mroonga.org/",
#         [
#           "mroonga",
#           "mysql",
#           "groonga"
#         ]
#       ],
#       [
#         3,
#         "http://ranguba.org/",
#         [
#           "ruby",
#           "groonga"
#         ]
#       ]
#     ]
#   ]
# ]

7.6.2.2.2.2. 参照ベクターカラム#

TODO

同じ要素がたくさんある場合は、参照ベクターカラムは空間効率がよいです。参照ベクターカラムは値そのものではなく参照先のレコードIDのみを保持します。レコードIDは値よりも小さいです。

7.6.2.2.2.2.1. 作り方#

TODO

7.6.2.2.2.2.2. ロード方法#

TODO

7.6.2.2.2.2.3. 検索方法#

TODO

7.6.2.2.2.3. 重み付きベクターカラム#

重み付きベクターカラムはノーマルベクターカラムに似ています。複数の要素を保存できます。さらに、要素の重みも保存できます。重みとはその要素の重要度です。

重みは正の整数です。デフォルトの重みは 0 です。これは重みがないという意味になります。

重みが1以上なら、検索スコアーに重みが加算されます。重みが 0 なら検索スコアーは 1 です。重みが 10 なら検索スコアーは 11= 1 + 10 )です。

重み付きベクターカラムは検索スコアーのチューニングに便利です。 adjuster も参照してください。特定のレコードの検索スコアーを増やすことができます。

7.6.2.2.2.3.1. 制限#

今のところいくつか制限があります。将来的には解消される予定です。

以下が制限です。

  • ロード時に要素の値を文字列での表現で指定しなければいけません。例えば、数値の29を指定するために、 29 を使うことはできません。 "29" と文字列で表記する必要があります。

7.6.2.2.2.3.2. 作り方#

重み付きベクターカラムを作るには column_create を使います。ポイントは COLUMN_VECTOR|WITH_WEIGHT フラグです。

実行例:

table_create Bookmarks TABLE_HASH_KEY ShortText
# [[0,1337566253.89858,0.000355720520019531],true]
column_create Bookmarks tags COLUMN_VECTOR|WITH_WEIGHT ShortText
# [[0,1337566253.89858,0.000355720520019531],true]

WITH_WEIGHT フラグを指定しないと、ただのノーマルベクターカラムになります。

1つのブックマークに重み付きで0個以上のタグを設定できます。

7.6.2.2.2.3.3. ロード方法#

JSONのオブジェクト構文でベクターデータをロードします:

{"ELEMENT1": WEIGHT1, "ELEMENT2": WEIGHT2, "ELEMENT3": WEIGHT3, ...}

以下のデータをロードしましょう。

_key

tags

http://groonga.org/

{"groonga": 100}

http://mroonga.org/

{"mroonga": 100, "mysql": 50, "groonga": 10}

http://ranguba.org/

{"ruby": 100, "groonga": 50}

以下がデータをロードするコマンドです。

実行例:

load --table Bookmarks
[
{"_key": "http://groonga.org/",
 "tags": {"groonga": 100}},
{"_key": "http://mroonga.org/",
 "tags": {"mroonga": 100,
          "mysql":   50,
          "groonga": 10}},
{"_key": "http://ranguba.org/",
 "tags": {"ruby": 100,
          "groonga": 50}}
]
# [[0,1337566253.89858,0.000355720520019531],3]

ロードしたデータはJSONのオブジェクト構文で出力されます。

実行例:

select Bookmarks
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     [
#       [
#         3
#       ],
#       [
#         [
#           "_id",
#           "UInt32"
#         ],
#         [
#           "_key",
#           "ShortText"
#         ],
#         [
#           "tags",
#           "ShortText"
#         ]
#       ],
#       [
#         1,
#         "http://groonga.org/",
#         {
#           "groonga": 100
#         }
#       ],
#       [
#         2,
#         "http://mroonga.org/",
#         {
#           "mroonga": 100,
#           "mysql": 50,
#           "groonga": 10
#         }
#       ],
#       [
#         3,
#         "http://ranguba.org/",
#         {
#           "ruby": 100,
#           "groonga": 50
#         }
#       ]
#     ]
#   ]
# ]

7.6.2.2.2.3.4. 検索方法#

重み付きベクターを検索するためにはインデックスを作る必要があります。 column_createWITH_WEIGHT フラグを指定することを忘れないでください。

実行例:

table_create Tags TABLE_PAT_KEY ShortText
# [[0,1337566253.89858,0.000355720520019531],true]
column_create Tags bookmark_index COLUMN_INDEX|WITH_WEIGHT Bookmarks tags
# [[0,1337566253.89858,0.000355720520019531],true]

WITH_WEIGHT 以外は重み付きベクターカラムに特有の方法はありません。スカラーカラムにインデックスを作る方法と同じです。

全文検索と同じ構文で tags 内の要素を検索できます。

match_columnsquery を使った場合:

実行例:

select Bookmarks --match_columns tags --query groonga --output_columns _key,tags,_score
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     [
#       [
#         3
#       ],
#       [
#         [
#           "_key",
#           "ShortText"
#         ],
#         [
#           "tags",
#           "ShortText"
#         ],
#         [
#           "_score",
#           "Int32"
#         ]
#       ],
#       [
#         "http://groonga.org/",
#         {
#           "groonga": 100
#         },
#         101
#       ],
#       [
#         "http://mroonga.org/",
#         {
#           "mroonga": 100,
#           "mysql": 50,
#           "groonga": 10
#         },
#         11
#       ],
#       [
#         "http://ranguba.org/",
#         {
#           "ruby": 100,
#           "groonga": 50
#         },
#         51
#       ]
#     ]
#   ]
# ]

match_columns の重みと一緒に使うこともできます。スコアーは (1 + 重み付きベクターの重み) * match_columnsの重み

実行例:

select Bookmarks --match_columns 'tags * 3' --query groonga --output_columns _key,tags,_score
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     [
#       [
#         3
#       ],
#       [
#         [
#           "_key",
#           "ShortText"
#         ],
#         [
#           "tags",
#           "ShortText"
#         ],
#         [
#           "_score",
#           "Int32"
#         ]
#       ],
#       [
#         "http://groonga.org/",
#         {
#           "groonga": 100
#         },
#         303
#       ],
#       [
#         "http://mroonga.org/",
#         {
#           "mroonga": 100,
#           "mysql": 50,
#           "groonga": 10
#         },
#         33
#       ],
#       [
#         "http://ranguba.org/",
#         {
#           "ruby": 100,
#           "groonga": 50
#         },
#         153
#       ]
#     ]
#   ]
# ]

filter を使った場合:

実行例:

select Bookmarks --filter 'tags @ "groonga"' --output_columns _key,tags,_score
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     [
#       [
#         3
#       ],
#       [
#         [
#           "_key",
#           "ShortText"
#         ],
#         [
#           "tags",
#           "ShortText"
#         ],
#         [
#           "_score",
#           "Int32"
#         ]
#       ],
#       [
#         "http://groonga.org/",
#         {
#           "groonga": 100
#         },
#         101
#       ],
#       [
#         "http://mroonga.org/",
#         {
#           "mroonga": 100,
#           "mysql": 50,
#           "groonga": 10
#         },
#         11
#       ],
#       [
#         "http://ranguba.org/",
#         {
#           "ruby": 100,
#           "groonga": 50
#         },
#         51
#       ]
#     ]
#   ]
# ]

7.6.2.2.2.3.5. 重みだけを適用する方法#

マッチしたレコード集合を変更せずに、重み付きベクターカラムの重みの分だけ検索スコアーを増やすことができます。

この用途には adjuster を使います。

実行例:

select Bookmarks \
  --filter true \
  --adjuster 'tags @ "mysql" * 10 + tags @ "groonga" * 5' \
  --output_columns _key,tags,_score
# [
#   [
#     0,
#     1337566253.89858,
#     0.000355720520019531
#   ],
#   [
#     [
#       [
#         3
#       ],
#       [
#         [
#           "_key",
#           "ShortText"
#         ],
#         [
#           "tags",
#           "ShortText"
#         ],
#         [
#           "_score",
#           "Int32"
#         ]
#       ],
#       [
#         "http://groonga.org/",
#         {
#           "groonga": 100
#         },
#         506
#       ],
#       [
#         "http://mroonga.org/",
#         {
#           "mroonga": 100,
#           "mysql": 50,
#           "groonga": 10
#         },
#         566
#       ],
#       [
#         "http://ranguba.org/",
#         {
#           "ruby": 100,
#           "groonga": 50
#         },
#         256
#       ]
#     ]
#   ]
# ]

この select コマンドは --filter true を使っています。そのため、すべてのレコードがマッチし、スコアーは1になります。それから、 --adjuster を適用します。アジャスターは以下のことをします。

  • tags @ "mysql" * 10"mysql" タグを含むレコードのスコアーを (1 + 重み) * 10 増やします。

  • tags @ "groonga" * 5"groonga" タグを含むレコードのスコアーを (1 + 重み) * 5 増やします。

例えば、 "http://mroonga.org/" レコードは "mysql" タグと "groonga" タグを両方持っています。そのため、スコアーは 565= ((1 + 50) * 10) + ((1 + 10) * 5) = (51 * 10) + (11 * 5) = 510 + 55 )増えます。 --adjuster を適用する前は、--filter true によって検索スコアーは1になっています。そのため、 "http://mroonga.org/" レコードの最終的な検索スコアーは 566= 1 + 565 )になります。

7.6.2.2.2.4. 生成ベクターカラム#

ベクターカラムを 生成カラム として使うことができます。

7.6.2.2.2.4.1. 作り方#

詳細は 自動生成カラムを作成 を参照してください。