「データ分析を支える技術 生成AI 再入門」というタイトルでDevelopersIO 2024 Odysseyに登壇しました #devio2024
クラスメソッドの石川です。弊社日比谷オフィスで開催された Classmethod Odyssey にて 「生成AI x データ分析基盤」 をテーマに 「データ分析を支える技術 生成AI再入門」 というタイトルでお話したセッション資料を公開いたしました。
セッション概要
本セッションでは、生成AIの基本とその活用事例を紹介し、プロンプトエンジニアリングの重要性とテクニックを解説します。次に、RAG(Retrieval-Augmented Generation) の仕組みと利点を説明し、生成AIの活用に欠かせない大量で質の高いデータを提供するデータ分析基盤の構築ポイントを示します。また、生成AIによるデータ分析やデータエンジニアリングを支援するサービスについて具体例を交えて紹介します。最後に生成AIを通じてデータ分析基盤の今後の展望と分析業務の変化を予測します。
セッション資料
発表時点の「GPT-3.5 Turbo」の記載は、7/18(登壇二日前)に発表された「GPT-4o mini」に変更させていただきました。
資料だけではわからないところが多そうなので、口頭で補足した内容について一部記載します。
生成AI
生成AI(Generative AI) とは、人工知能(AI) の一種であり、事前に学習したデータから新しいテキスト、画像、音声、動画などのコンテンツを生成する技術です。この技術は従来のAIとは異なり、データの整理や予測に留まらず、創造的な成果物を生み出す(生成する) ことを目的としています。
生成AIは、テキスト生成AIのChatGPTや画像生成AIのDALL-Eなど、多岐にわたる分野で活用されています。生成AIはディープラーニングを用いて構築されており、膨大なデータからパターンを学習することで、クリエイティブな作業を代行する能力を持っています。今後もビジネスシーンや日常生活において、その応用範囲はますます広がることが期待されています。
生成AI は新しいコンテンツを作り出すAI全般を指し、基盤モデル(FM: Foundation Model) はその中でも特に大規模データで事前学習された汎用モデルを指します。大規模言語モデル(LLM: Large Language Models) は基盤モデルの一種で、自然言語処理に特化しています。これらの技術は、テキスト生成、画像生成、コード生成など幅広い分野で革新をもたらしています。
プロンプトエンジニアリング
プロンプト とは、生成AIに与える指示や入力 のことを指し、AIモデルに実行してほしいタスクを記述した指示文や自然言語テキストです。プロンプトの改善は直ちに効果が確認でき、AIモデルのチューニングやRAGシステムの構築と比較して、費用対効果が非常に高いです。さらに、プロンプトの改善は、生成AIが事実に基づかない情報を生成する「ハルシネーション」の抑制にも効果があります。このため、プロンプトの質を向上させることは、生成AIの性能向上において重要な手段となります。
プロンプトエンジニアリング は、AIモデルから期待する出力を得るために、入力するプロンプト(指示文)を設計・最適化 するプロセスです。主に大規模言語モデル(LLM)とのコミュニケーションに使用され、AIモデルが解釈し理解できるように指示を構造化する技術です。
AIモデルから正確で有用な回答を引き出すには、プロンプトエンジニアリングの手法を適切に組み合わせることが重要です。
- Zero-Shot Prompting
- Few-Shot Prompting
- Chain-of-Thought Prompting
AIモデルを効果的に使用するため、適切なプロンプトをAIモデル自身に作成させるメタプロンプトという手法もあります。
RAG(Retrieval-Augmented Generation)
RAG(Retrieval-Augmented Generation: 検索拡張生成) は、生成AIの回答精度と信頼性を向上させる技術です。この技術は、検索機能と生成AIを組み合わせることで、AIが外部の最新かつ信頼性の高い情報を活用 できるようにします。RAGの仕組みは主に3つのステップで構成されています
-
検索(Retrieval)
ユーザーのクエリに関連する情報を外部データソースから抽出します。
-
拡張(Augmentation)
抽出した情報を生成AIのプロンプトに組み込みます。
-
生成(Generation)
拡張されたプロンプトを基に、AIが回答を生成します。
この方法により、AIは学習済みのデータだけでなく、最新の外部情報も考慮して回答を生成 できるようになります。これにより、ハルシネーション(AIが事実でない情報を事実のように出力すること) のリスクを軽減し、より正確で信頼性の高い回答を提供することが可能になります。RAGは特に企業での活用に適しており、社内情報や専門知識 を組み込んだAIシステムの構築に役立ちます。
通常のNaïve RAG の Retrieval(検索)のプロセスに検索前処理 (pre-retrieval) と 検索後処理 (post-retrieval) を加え、検索の精度の向上させる手法を Advanced RAG といいます。
主に3つの段階で改善を図ります。
-
Pre-Retrieval (検索前最適化)
- クエリをエージェントや適切な検索エンジンにルーティング
- クエリ書き換え
- クエリ拡張
-
Post-Retrieval (検索後最適化)
- 検索結果・ドキュメントの並び替えするリランキング
- 余計な情報を省くために要約
- 複数の検索結果を並び替えしたランク融合
Advanced RAG だけでなく、最近は Modular RAG や Graph RAG なども提案されています。
生成AIを支えるデータ分析基盤
生成AIは技術進化が著しく、ビジネス価値創出 の強力なツールです。技術理解と応用方法が成功の鍵となります。この生成AIを効果的に活用するためには、大量で質の高い、いつでも利用可能なデータを準備 する必要があります。データは競合他社と差別化するために不可欠 です。そして、お客様の事業に即した成果を得るためには、企業の業務内容や目標、市場環境などの具体的な事業状況をデータとして適切に取り込み、活用する必要があります。
この例は、データ分析基盤が生成AIのRAG で必要となる情報を提供する場合のリファレンスアーキテクチャです。
データ分析基盤を支える生成AI
昨年末、AWSは生成AIによるデータ分析やデータエンジニアリングを支援するサービスが次々と提供されています。今後は他のサービスへの拡大、機能拡充、日本語対応などが期待されます。
それぞれの機能につきましては、実際に検証したブログをご覧ください。
Generative BI in Amazon QuickSight
Amazon Q Generative SQL in Amazon Redshift Query Editor
Al recommendations for descriptions in Amazon DataZone
生成AIとデータ分析基盤の今後
今後のデータ分析基盤
データ分析基盤は生成AI活用の源泉
- データは競合他社と差別化するために不可欠であるため、生成AI導入の前提として、データ分析基盤の重要性が高まる
- 生成AIを効果的に活用するためには、大量で質の高い、いつでも利用可能なデータを準備する必要がある
データ分析基盤開発においても生成AIスキルが求められる
- 開発に生成AIを活用することで、開発効率や質の向上が期待できるため、データエンジニアにとっても欠かせないスキルとなる
生成AIに最適化した新たなデータ分析基盤の設計・開発力
- AIが回答をするのに必要な環境、データを準備できるカが必要
今後の分析業務変化
生成AIによるデータ分析の効率化や高度化に伴い、データ分析の民主化が加速する
- 生成AIが雛形を作成、例示が進むことで技術的ハードルが下がる
- ビジネスユーザー、データアナリスト、データエンジニアの同化がより一層進む可能性がある
- データの理解と生成AIに問い合わせるプロンプトテクニックが求められる
- データ分析の高度化に伴い、ドメインに対する深い理解必要
最後に
当日は、お暑い中お越しいただき誠にありがとうございました。生成AIは日進月歩のため「基本」を徹底し、今回は「生成AI x データ分析基盤」がテーマのため、特定のベンダーの生成AIサービスに依存しないお話をしました。
実際の生成AIサービスでは、多段階のタスクを自律的に実行しながら、ユーザーの指示に基づいてAPIを呼び出してアクションを実行し、データ分析基盤から情報を補完することで、効率的なタスク処理を可能にするAgent機能や生成AIアプリケーションの安全性とプライバシーを確保する機能など、割愛しましたが重要なサービスはまだまだあります。
DevelopersIO 2024 Odysseyでは、私が紹介できなかった最新のサービスやプラクティスやハンズオンなど、他にも素晴らしい生成AI関連のセッションが多数ございますので資料等をご覧いただけたら幸いです。