[アップデート] Amazon Kendra で HTML ドキュメントに埋め込まれた表から回答を検索して抽出できるようになりました #reInvent

2022.11.28

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

いわさです。

Amazon Kendra で HTML ドキュメントの表形式データからの回答抽出機能が利用出来るようになりました。

これはどういうことかというと、Kendra のデータソースとなっている HTML ドキュメントに埋め込まれたテーブルデータが存在していたとして、質問に対してセルの値の検索と抽出が出来るようになったというものです。
本日時点で英語でのみ対応しています。

データソースを用意

弊社の財務ハイライト情報が HTML でテーブル形式で公開されているので日本語版はそちらを使わせてもらいましょう。

英語版はこの HTML ファイルの行ヘッダー列ヘッダーを英数字に変更したものにします。

検索してみる

サーチコンソールから検索を試してみましょう。

日本語での検索結果

日本語で検索したところ対象ドキュメントがヒットしました。
検索ワードが含まれているドキュメントということでヒットしましたが、特にセル値が抽出されているというわけではなさそうです。

英語での検索結果

英語で検索したところ以下のようになりました。
あきらかにセルが抽出されて太字になっています。

さいごに

本日は Amazon Kendra で HTML ドキュメントに埋め込まれた表から回答を検索して抽出できるようになったので試してみました。

いくつか試した感じだと期待どおりに抽出出来ないパターンもあったので、表の形式や質問内容にも依存している感じがします。
このあたりは少し使ってみて最適化する方法を探したほうが良さそうです。

目的のデータをピンポイントで取得したい時などに活用できそうです。
本日時点で日本語はまだ未対応ですが、直近のアップデートでセマンティック機能のサポート言語に日本語が追加されましたのでこちらもサポートされるのを期待したいところです。