[アップデート] Amazon Kendra でサポートされるドキュメントタイプに Microsoft Excel などが追加されました

2023.01.12

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

いわさです。

Amazon Kendra では検索のためをインデックスを作成した後に、コネクタなどを使ってインデックスにデータソースとなるドキュメントを追加していきます。

これまではサポートされているドキュメントは非構造化テキストだと以下がサポートされていました。

  • Microsoft PowerPoint (PPT) presentations
  • MS WORD documents
  • Plain text documents
  • PDFs

今回のアップデートでさらに以下がサポートされるようになりました。

  • Comma Separated Values (CSV) files
  • Microsoft Excel (MS EXCEL) files
  • XML files
  • JSON files
  • Markdown Documentation (MD) files
  • Rich Text Format (RTF) files
  • Extensible Stylesheet Language Transformation (XSLT) files

What’s New at AWS のアップデート情報としてまだ案内されていないようで、ドキュメントタイプが追加されたということだけ確認出来ています。

今回は Microsoft Excel を S3 バケットに格納して、データソースとして追加しサーチコンソールで実際に検索出来るのかを使ってみましたのでご紹介します。
What’s New at AWS の公開後にまた追記しますね。

追記: What's new 公開されました

テスト用のドキュメントを用意しデータソースとして追加

インデックスにドキュメントを追加するには API を使うかデータソースを使うかが必要です。

今回はお手軽なデータソースによる追加を試してみます。
日本語と英語を試してみたいので以下のような 2 つのファイルを用意し、別々の S3 バケットへ格納しました。

用意していた Kendra インデックスにドキュメントを追加します。
今回は S3 バケットをデータソースとして指定することでドキュメント追加を行ってみたいと思います。
データソースで言語を指定するので、日本語と英語の 2 つのデータソースを指定しました。

検索する

まずは安定してそうな英語で。
ファイル名やシート名で検索が出来ました。

また、ファイル内のテキストでも検索することが出来ました。
ただし、以下の場合だと「aaaaa」などの単語の一部分での検索だとヒットしませんでした。

次は日本語です。
こちらも問題なくファイル名やシート名での検索は出来ますね。

テキストについては単語で区切った場合でもうまく検索出来ませんでした。

ただし、テキスト全体で試したところ検索出来たので、単語区切りの認識がまだ日本語だとうまく出来ないケースがあるようです。
私の用意したデータや検索方法、あるいはサーチコンソールだとうまくいかない場合もあるかもしれないのでこのあたりはもう少し検証したいところ。

さいごに

本日は Amazon Kendra でサポートされるドキュメントタイプがいくつか追加されていたので Microsoft Excel で試してみました。

日本語は検証結果からするともう少し検証が必要ですね。
とはいえ、日本語データソースの Excel ファイルでもデータソースとして認識されていることが確認出来ました。