【AWS】東京リージョンでAmazon Kendra、S3を用いたセマンティック検索を実装してみた

こんにちは。システムサービス本部クラウドソリューショングループのshimizuyです。

社内業務で得た膨大なデータはあるんだけどイマイチ有効活用できていないのよね、、といった悩みを抱える企業が一昔前までは多かったと思いますが、昨今ではAIや機械学習の発達により社内データを活用したドキュメントサイトを作成しました！みたいなニュースが増えてきましたよね。

そこで重要になってくるのは高機能な「検索機能」です。

「RDS」「GitHub」「Gmail」などのデータソースや「PDF」や「Word」形式など様々なドキュメントタイプのデータを基に膨大な社内データに対して、利用者からの検索方法に柔軟に応え、必要な情報を素早く検索できる必要があります。

という訳で今回は、Kendraを用いた簡易的な非構造化データに対するセマンティック検索の実装方法をご紹介していこうと思います。

Amazon Kendraとは

Amazon Kendra（アマゾンケンドラ）は、Amazon Web Services（AWS）が提供するクラウドベースの検索サービスで、機械学習（ML）を活用して、企業内のさまざまなデータやドキュメントから自然言語で情報を検索・取得することができます。

Amazon Kendra の主な特徴としては以下の4点が挙げられます。

自然言語で検索できる：話し言葉による質問を理解し、関連性の高い情報を探し出すことができる。
FAQ照合が可能：よく出される質問（FAQ）に対してあらかじめ用意された回答を紐づけ、自動的に提供できる。
さまざまなデータソース、ドキュメントタイプに対応している：
- データソース：Amazon S3、Amazon RDS、GitHub、Jira、Salesforce、OneDriveなど
- ドキュメントタイプ：html、pdf、csv、xlsx(Excel)、ppt(PowerPoint)など
アプリケーションに組み込める：AWS CLIやAPIからAmazon Kendraを利用することで、アプリケーションやWebサイトに検索システムを組み込むことができる。

なお、サポートされているデータソース、ドキュメントタイプの詳細については下記リンク先の公式ドキュメントをご確認ください。

セマンティック検索とは

「セマンティック検索」と聞くとなじみがない方もいらっしゃるかもしれませんが、「あいまい検索」といえば皆さん一度は目にしたことがあるのではないでしょうか。

AWSによると以下のような状態を指して「セマンティック検索」と定義づけているみたいですね。

> 入力された自然言語の意味を理解して、その意味に沿った回答をする技術です。言い換えると、検索をする際にキーワードではなく会話文のような文章を入力しても適切な回答が返ってくる

参考①：Amazon Kendra で簡単に検索システムを作ってみよう !
参考②：Azure OpenAIの力を引き出す！ベクトル＆セマンティック検索で回答精度を劇的改善

それではさっそくAmazon Kendraを用いたセマンティック検索の実装に移っていきましょう。

Amazon Kendraを用いたセマンティック検索検証環境の実装

0. 事前準備

AWS Consoleに入ったらまずは東京リージョンで操作していることを確認してください。

また、今回はS3バケットに配置したファイル内の情報をリソース元としたAmazon Kendraのセマンティック検索機能を実装していきますので、事前にお好みでKendraが対応しているデータソースやドキュメントを配置してください。

本検証ではpdfとexcelファイルを利用して作業を進めていきます。

なお、今回のサンプルデータはChatGPTを利用して以下のサンプルデータを生成してもらいました。

こういう時ChatGPTって便利ですよね。

PDFサンプルデータ①：会社概要レポート.pdf

/* markdown */

# 株式会社サンプルテック 会社概要レポート

## 概要 株式会社サンプルテックは、革新的なITソリューションを提供する企業です。主な事業分野は以下の通りです：
- ソフトウェア開発
- クラウドサービス
- データ解析

## 主要プロジェクト
1. クラウドプラットフォーム構築プロジェクト
最新のクラウド技術を用いた、柔軟かつスケーラブルなシステムの構築。
2. AIによるデータ解析プロジェクト
機械学習技術を利用し、顧客のビジネス課題の解決を支援。

## 今後の展望
- グローバル市場への進出
- 新規事業の開発と既存事業の強化
- 技術革新と持続可能な成長の実現

PDFサンプルデータ②：研究論文の要約.pdf

/* markdown */

# 研究論文要約：データセマンティック検索の新手法

## 研究背景
近年、ビッグデータ時代の到来に伴い、データ検索の効率化が急務となっています。特に、セマンティック検索技術は、単なるキーワード一致を超えた文脈理解に基づく検索結果を提供します。

## 研究目的
- 文脈と意味に基づいた高度な検索アルゴリズムの開発
- 従来手法との比較実験による有効性の検証

## 主要手法
- 自然言語処理（NLP）の最新技術を採用
- 機械学習モデルによるトピック抽出と文脈分析

## 結果と考察
- 従来の検索システムに比べ、検索精度が約25%向上
- ユーザー満足度の向上が期待される