Amazon Kendra のストレージユニットサイズは何をもとに計算されるか教えてください
困っていた内容
Amazon Kendra のストレージユニットにはサイズ上限がある認識です。
このサイズは、ドキュメントのファイルサイズなど、何をもとに計算されるか教えてください。
何をもとに計算されるの?
抽出されたテキストのサイズに基づいて計算されます。
Amazon Kendra のストレージユニットのサイズは、PDF など元のファイルサイズではなく、抽出されたテキストのサイズに基づいて計算されます。
例えば、ファイルサイズが 5 MB の PDF でも、テキストデータが 100 KB の場合、ストレージユニットのサイズとして 100 KB で計算されます。
参考資料
抽出テキストとは、ドキュメントからテキストを抽出した後のコンテンツのサイズを指します。参考までに、500 語の 1 ページは約 2 KB の抽出テキストです。抽出されるサイズは、ドキュメントのファイルサイズとは無関係です。例えば、サイズが 10MB のパワーポイントには、5 KB に満たない抽出されたテキストが含まれている場合があります。
ストレージキャパシティの容量は、Kendra が抽出した「テキストデータ」を利用して消費されます。
次に具体例を記載します。・Kendra に読みこませたい PDF ファイルがある。
この PDF ファイルの自体の容量は、5 MB となっている。
・この PDF ファイルの中に含まれる「テキストデータ」部分は 100 KB とする。ストレージキャパシティから消費される分は、
ファイル自体の容量 5 MB ではなく、
「テキストデータ」の 100 KB が消費されます。







