第４回 Elasticsearch 入門検索の基本中の基本

Elasticsearch入門

Elasticsearch

木戸国彦

2016.04.19

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

第４回 Elasticsearch 入門検索の基本中の基本

今回は「検索の基本中の基本」について解説したいと思います。この Elasticsearch 入門シリーズは今回で４回目になりますが、検索エンジンなのにやっと検索の話です。

Elasticsearch の検索のパワーをフルに活用するには、以下の内容を理解する必要があります（検索や集計の精度を向上させるなど）。

Mapping
- フィールドの型や分析方法の設定
Analysis
- 言語処理や正規化などフィールドの値の加工について
Query DSL
- JSON フォーマットによる検索条件の組み立て

今回はこれらのことは一旦置いておいて、検索の基本中の基本について解説します。

サーチ API

Elasticsearch のサーチ API の基本ルールは以下の URL パターンです。ドキュメントの管理同様わかりやすくなっています。

GET|POST /{index}/{type}/_search

検索条件はクエリーストリングで指定する簡単な条件指定と、複雑な検索条件を JSON 形式で組み立てる Query DSL をサポートしています。（詳しくは別の機会に説明する予定です。）

メソッドは、GET と POST の両方を提供しています。 GET メソッドでも body の内容を受け付けています。

※ 注意: クライアントによっては、HTTP GET メソッド使用時に body の内容をリクエストしない場合があります。そのため、基本的には body の内容をリクエストする場合は POST メソッドを使用したほうが良いでしょう。

サーチ API のバリエーション

Elasticsearch はインデックスやタイプを横断で検索できるようになっているため、上記の基本ルールを元に柔軟な指定が可能です。

以下はそのバリエーション例です。

/_search
すべてのインデックス内のすべてのタイプを対象に検索する
/blog/_search
blog インデックス内のすべてのタイプを対象に検索する
/blog,author/_search
blog と author インデックス内のすべてのタイプを対象に検索する
/b*,a*/_search
b から始まるインデックスと、a から始まるインデックス内のすべてのタイプを対象に検索する
/blog/posts/_search
blog インデックス内の posts タイプを対象に検索する
/blog,author/posts,users/_search
blog と author インデックス内の posts と users タイプを対象に検索する
/_all/posts,users/_search
すべてのインデックス内の posts と users タイプを対象に検索する

バリエーションは豊富ですが、直感的で覚えやすい印象です。また、Type （RDB のテーブルに相当する仕組み）を管理する上位の Index レベルでも横断的な検索ができるのは、マルチテナンシな仕組みを持つ Elasticsearch の特徴ではないでしょうか。

本番環境の検索はエイリアス名を使おう

インデックスには、エイリアス名を定義することができます。サーチエンドポイントでエイリアスを指定するには、インデックス名の代わりにエイリアス名を指定するだけです。

さらに、複数のインデックスに同じ名前のエイリアスを定義することができます。そのため１つのエイリアスを指定するだけです複数のインデックスを対象に検索できます。

エイリアス名を使うことで、アプリケーションの修正なく検索対象のインデックスを柔軟に変更できます。本番環境の検索はエイリアス名を使いましょう。

参考: Index Aliases (Elasticsearch 公式リファレンス)

ページング

SQL では LIMIT を使って、１ページあたりの結果を取得します。Elasticsearch では、size と from パラメータを使います。

size: １度に検索結果を取得する数を指定します。デフォルトは１０です。
from: スキップする検索結果数を指定します。デフォルトは０です。

GET /_search?size=5
GET /_search?size=5&from=5
GET /_search?size=5&from=10

分散システムのページングは制限があるので理解しておこう

まず、５つのシャードから構成される１つのインデックスから検索結果にマッチするトップ１０を返す場合を説明します。

検索条件にマッチするドキュメントを５つのシャードそれぞれから１０件づつ取得します。その後その５０件全ての結果をソートしたのち全体でトップ１０件が決定され結果が返る仕組みです。

これが分散システムでの基本的なページングの動きです。

この動きを深いページングで想像してみましょう。例えば、１０，００１件目から１０，０１０件目を取得する場合、それぞれのシャードからトップ１０，０１０をそれぞれ取得します。その後合計５０，０５０を対象にソートを実行、そして不要な５０，０４０件を破棄して残った１０件を返すことになります。

考えただけでも重そうな処理ですね。このような仕組みのため、多くの検索エンジンはページグして取得できる件数に制限があるので覚えておきましょう。

大量のデータをページングして取得するには

すべてのデータダンプしたり大量のデータを一度に取得する場合は、通常の検索とは別の方法が用意されています。

※ 参考: scroll and scan APIs (Elasticsearch 公式リファレンス)

まとめ

いかがでしたでしょうか？ Elasticsearch は他のデータベースに比べ、複数のデータベースを横断して検索することがごく当たり前の用途として提供されています。

また、その検索結果も異なるスキーマのドキュメントが混在することも特別なことではありません。しかし、分散システムであるが故の制限もあります。検索エンジンの特徴を理解してアプリケーションの設計に生かしてください。

第４回 Elasticsearch 入門検索の基本中の基本

第４回 Elasticsearch 入門検索の基本中の基本

サーチ API

サーチ API のバリエーション

本番環境の検索はエイリアス名を使おう

ページング

分散システムのページングは制限があるので理解しておこう

大量のデータをページングして取得するには

まとめ

関連記事

AWSで探す

注目のテーマ

プロダクトやサービスで探す

特集やシリーズから探す

EVENTS

第４回 Elasticsearch 入門 検索の基本中の基本

サーチ API

サーチ API のバリエーション

本番環境の検索はエイリアス名を使おう

ページング

分散システムのページングは制限があるので理解しておこう

大量のデータをページングして取得するには

まとめ

関連記事

EVENTS

第４回 Elasticsearch 入門検索の基本中の基本