
「テーブル定義書の構造化抽出して、生成AIでDWH分析を試してみた」というタイトルで、DevelopersIO 2025 Tokyoにて登壇しました #devio2025
データ事業本部の笠原です。
2025/10/18 (土) に開催された「DevelopersIO 2025 TOKYO」の「[自由研究]クラスメソッド社員による怒涛のLT大会、11連発」にて、
「テーブル定義書の構造化抽出して、生成AIでDWH分析を試してみた」というタイトルで登壇しましたので、資料を共有します。
スライド資料
概要
昨今、生成AIにて自然言語からSQLを生成することができるため、自然言語を用いてデータを取得することが比較的容易になりました。
データを取得する先のDBやDWHのメタデータ情報を持っていれば、プロンプトにそのメタデータを注入してSQLを生成できます。
ただし、テーブル定義書をExcel等で管理されているチームが、まだ多いかと思います。
今回はExcelで管理されたテーブル定義書からテーブルのメタデータを抽出してDWH向けに自然言語でSQL出力できるか試してみました。
ExcelからPDFに変換し、変換したPDFを生成AIモデル (今回はAmazon Bedrock上からAnthropic Claude Sonnet 4.5を利用) に読み込ませてCreate Table文を作成し、
そのCreate Table文をプロンプトに注入してSQLを生成してみました。
SQL生成までは、ローカルPC上で動作確認をしました。
生成されたSQLをAthenaで実行確認しましたが、これも問題なくできました。
まとめ
Excel等で管理されたテーブル定義書から構造化抽出することで、SQL生成だけでなく、メタデータ抽出してコメント付与やデータカタログ登録にも応用できると思います。
生成AIをより良く活用できるように、データを扱いやすい形にしていくのも大事だと思います。