7.20.4. 提案#
このセクションでは以下の補完機能について説明します。:
どのように動作するか
使い方
学習方法
7.20.4.1. どのように動作するか#
提案機能は提案する語を計算するために1種類の検索を使います。:
学習したデータを共起検索。
7.20.4.1.1. 共起検索#
共起検索はユーザの入力と関連する語を検索します。共起検索ではユーザの実行したときの検索クエリを使います。このデータはクエリログやアクセスログなどから学習します。
例えば、ユーザが以下のように検索を実行したとします。:
query |
---|
search engine |
web search realtime |
Groongaは以下のような提案ペアを作成します。
入力 |
提案される語 |
---|---|
search |
search engine |
engine |
search engine |
web |
web search realtime |
search |
web search realtime |
realtime |
web search realtime |
これらのペアは以下の手順で作成します。:
ユーザの入力をTokenDelimitトークナイザーでトークナイズします。TokenDelimitは空白をトークンの区切りに使います。(例えば、"search engine"は"search"トークンと"engine"トークンの2つのトークンにトークナイズされます。)
各トークンについて、トークンと元のクエリからなるペアを作成する。
ユーザが"search"と入力したとき、共起検索は"search engine"と"web search raltime"を返します。これは、"search"が2つの「入力」カラムに含まれていて、対応するそれぞれの「提案される語」カラムの値が"search engine"と"web search realtime"だからです。
7.20.4.2. 使い方#
Groongaは提案機能を使うために suggest コマンドを用意しています。 --type suggest オプションを使うと提案機能を利用できます。
例えば、"search"と入力した時の提案結果を取得するコマンドは以下の通りです。:
実行例:
suggest --table item_query --column kana --types suggest --frequency_threshold 1 --query search
# [
# [
# 0,
# 1337566253.89858,
# 0.000355720520019531
# ],
# {
# "suggest": [
# [
# 2
# ],
# [
# [
# "_key",
# "ShortText"
# ],
# [
# "_score",
# "Int32"
# ]
# ],
# [
# "search engine",
# 1
# ],
# [
# "web search realtime",
# 1
# ]
# ]
# }
# ]
7.20.4.3. 学習方法#
共起検索は学習データを使います。学習データはクエリログやアクセスログなどを元に作成します。学習データを作成するには、タイムスタンプ付きの入力シーケンスと、タイムスタンプ付きの検索実行時の入力内容が必要です。
例えば、ユーザが"engine"で検索したいとします。ユーザが以下のようなシーケンスで検索クエリを入力したとします。:
2011-08-10T13:33:25+09:00: search engine (検索実行)
2011-08-10T13:33:28+09:00: web search realtime (検索実行)
以下のコマンドで上記の検索実行結果から学習します。:
load --table event_query --each 'suggest_preparer(_id, type, item, sequence, time, pair_query)'
[
{"sequence": "1", "time": 1312950803.86057, "item": "search engine", "type": "submit"},
{"sequence": "1", "time": 1312950808.86057, "item": "web search realtime", "type": "submit"}
]
7.20.4.4. 学習データを抽出する方法#
学習データは、 item_DATASET
テーブルと pair_DATASET
テーブルに保存されています。このようなテーブルに対して、selectコマンドを使うことで、全ての学習データを抽出できます。
以下は、全ての学習データを抽出するためのクエリーです。
select item_DATASET --limit -1
select pair_DATASET --filter 'freq0 > 0 || freq1 > 0 || freq2 > 0' --limit -1
'--limit -1'が無いと全てのデータを取得できません。pairテーブル内の freq0
と freq1
、 freq2
カラムの値は0より大きくなければなりません。
莫大な数のレコードを読み込むため、上記のクエリーはHTTPリクエスト経由では実行できません。