【AWS】Bedrock Knowledge BasesでフルマネージドなRAGを実装してみた！

こんにちは。システムサービス本部クラウドソリューショングループのshimizuyです。

今回はAWSで構築可能なRAGの中でも、フルマネージドでの実装が可能で、構築における手間を極限まで削減可能な構成をご紹介します。

（ちなみにサムネイルはChatGPTに生成してもらいました。）

前提: LLMとRAGの違いとは？

AIのビジネス活用において近年注目を集めているのが「RAG（ラグ）」です。RAGは「Retrieval-Augmented Generation」の略称で、日本語では「検索拡張生成」と呼ばれます。

では、ChatGPTやClaude、Geminiといった一般的なLLM（大規模言語モデル）をそのまま使う場合と、RAGを組み合わせた場合では、具体的に何が違うのでしょうか。

LLMは膨大な知識を持っていますが、事前に学習したデータに含まれない情報（最新のニュースや、非公開の社内規定、独自のマニュアルなど）については、正確に回答することができません。無理に答えようとして、事実とは異なる回答（ハルシネーション）を生成してしまうリスクもあります。

この「学習していない内容については答えられない」というLLMの課題を解決するのがRAGです。

インターネットには公開されていない自社のドキュメントや最新のデータベースを連携させることで、LLM (Large Language Model: 大規模言語モデル) が持つ内部知識を補う外部知識を活用することが可能となり、より信頼性の高い回答を生成できるようになります。

RAGは、その名前の通り、主に以下の3つのステップで機能します。

検索（Retrieve）:

ユーザーの質問を受け、あらかじめ連携された社内資料やデータベースの中から、関連する情報を瞬時に探し出します。

具体的には、SQLのデータベースやベクトルデータ・ナレッジグラフなどを用いて、質問を検索し、回答のエビデンスとなる情報を取得します。
拡張（Augment）:

探し出した関連情報をLLMへの指示文（プロンプト）に「参考情報（コンテキスト）」として組み込むことで、プロンプトを拡張します。

RAGではユーザーからの指示文だけでなく、検索（Retrieve）工程で取得した情報を組み合わせることで質問文の精度を向上させたプロンプトを利用します。
生成（Generate）:

このフェーズでは、ユーザーの質問に対する最終的な回答を生成します。

基本的にはChatGPTやGeminiなどに直接質問する際の工程と同様ですが、違いがあるとすれば、拡張（Augment）工程で作成されたプロンプトを利用して最終的な指示を受け付けるという点です。