【生成AI】Claudeのcomputer useを試してみた
今回はClaudeの新しい機能である「computer use」に触れていきます。
目次
はじめに
こんにちは。
クラウドソリューショングループのshimizu.shoです。
業務では主にwebアプリ開発を行っています。
今回は流行りの生成AIの一つであるClaude内のcomputer use機能について調べてみました。
Claudeについて
Anthropic社が提供しているAIサービスです。
2023年10月に日本で公開されたClaude(クロード)ですが、OpenAI社が提供しているChatGPTよりもソースコードの生成などに長けているともいわれています。
Amazon社が最も社外投資している会社がAnthropicであり、今後もAIサービスの中核を担っていく可能性が高いです。
今回は2024年10月に新しく追加された機能 「computer use」に触れながら所感を書いていきます。
「computer use」とは、端的に言えば指示した内容でPCを操作して回答やドキュメントを作成してくれます。
可能な操作例は以下になります。
・検索
・データ比較
・ドキュメント作成
また、答えを出すまでの過程を見せてくれるので、生成AIがする操作の透明性が出てきます。その一方で、PCの操作を行えるのでスパム、誤報、詐欺などの危険性も示唆されています。
次の章から実際に動作を試していきますが、今回は仮想環境を利用してその中で生成AIに操作させていきます。
デモ準備
今回のデモに必要なものが5点あります。
・Docker Desktop
・Git
・Python
・computer useのGit資材
・ClaudeのAPIキー発行
今回のバージョンは以下を使用していきます。
アプリ名 | バージョン |
---|---|
Docker Desktop | 27.4.0 |
Git | 2.29.2.windows.2 |
Python | 3.10.6 |
Docker環境
Docker Desktopを公式サイトからダウンロードします。
git
適時公式サイトからダウンロードします。
Python
適時公式サイトからダウンロードします。
computer useのGit資材
Anthropic社の公式の資材をcloneしてきます。
ClaudeのAPIキー発行
ClaudeのAPIキー発行の発行手順を順番に記載します。
⓵Claudeのconsoleへのログインを行う
⓶APIキーの発行ページに遷移
⓷CreateKeyを押してAPIキーの発行を行う。
#発行したAPIキーは後で使うので保存しておきます。
⓸APIの利用は有料のためクレジットを登録する必要がある。
クレジットを追加するため、メニューのBILLINGを選択して支払い画面へ遷移する。
⓹画面からクレジット情報を登録して支払いを行う。
⓺BILLING画面で赤枠に金額が表示されば準備完了です。
デモ実施
まずDocker Desktopを起動します。
Git Bashを起動して、既に登録したAPIKEYを「%your_api_key%」の箇所に打ち込み、実行します。
export ANTHROPIC_API_KEY=%your_api_key%
以下のコードを打ち込みコンテナを起動させます。
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
起動後にlocalhost:8000にアクセスします。
左側にチャット画面、右側に仮想環境のデスクトップが表示されています。こちらで起動が完了です。
今回はデモのため、3つ試してみました。
⓵東京駅から新宿駅までの道順(日本語で指示)
⓶東京駅から新宿駅までの道順(英語で指示)
⓷最近のクラウドの技術トレンドをまとめる(日本語で指示)
を行います。
⓵東京駅から新宿駅までの道順(日本語で指示)
検索してGoogle Mapを開いてくれます。
Google Mapが開かれました
ここから人間のように道順検索を行っていき、
最終的には、京都駅から新宿駅までの道順を表示して終わりました。
(生成AIが東京駅と京都駅を勘違いしてました。)
⓶東京駅から新宿駅までの道順(英語で指示)
続いて同じような指示を英語で実施しました。
英語で実施した場合は電車での道順を示してくれました。
今回は駅名はあっていましたが、東京駅から新宿駅ではなく新宿駅から東京駅になっていました。
⓷最近のクラウドの技術トレンドをまとめる(日本語で指示)
次に最新のクラウドのニュースをまとめてもらいました。
検索して収集しているようです。
出力された結果が以下になります。
Here's the result of running `cat -n` on /tmp/cloud_news.txt: 1 クラウドエンジニアのための最新ニュースまとめ 2 (2024年2月17日~2月24日) 3 4 1. Microsoft Azure関連 5 - Microsoftがクラウド事業で好調な業績を記録、AWSとGoogleを上回る成長率 6 - Azure OpenAIサービスの新機能追加と価格改定を発表 7 - Azureのセキュリティ機能強化、新たな脅威検知・防御機能を実装 8 9 2. AWS(Amazon Web Services)関連 10 - AWS Lambdaがアーム64アーキテクチャのサポートを拡大 11 - Amazon EKSのコスト最適化機能の強化 12 - AWS Cloud WAN serviceがグローバルで利用可能に 13 14 3. Google Cloud関連 15 - Google Cloudの量子プロセッサ開発がマルチバース計算の可能性を示唆 16 - Vertex AIプラットフォームの機能拡張 17 - GKE Autopilotの新機能リリース 18 19 4. セキュリティ関連 20 - Netflix、VMware特許に関してBroadcomを提訴 21 - クラウドセキュリティの自動化とAI活用の重要性が増加 22 - ゼロトラストアーキテクチャの採用が加速 23 24 5. 業界動向 25 - ハイブリッドクラウドの採用が引き続き拡大 26 - エッジコンピューティングとクラウドの統合が進展 27 - 量子コンピューティングとクラウドの融合に向けた取り組みが活発化 28 29 6. 技術トレンド 30 - コンテナ技術とKubernetesの進化 31 - AIとMLのクラウドインフラストラクチャへの統合 32 - サーバーレスコンピューティングの新展開
何点か調べてみたところ最新ではないですが大体2024年の情報をまとめていました。
使用した所感
以下の所感を受けました。
費用 | 利便性 | 精度 |
---|---|---|
高め (上記の道順を検索するだけで0.7$の費用がかかります。) |
低い (10回行動[マウスクリック、コピー、文字入力などの操作]をするだけでAPI制限が来る。) |
中程度 ・日本語の認識が怪しく、指示とは異なる行動 ・英語での指示が安定か ・検索精度は高い |
所感としてはまだまだ発展途中だなと感じました。
ただPCに指示をするだけで作業をしてくれることには可能性は感じました。
おわりに
ここまでClaudeのcomputer useの機能に触れながらいろいろ試してみました。
生成AIの自動化が今後の仕事を劇的に変えるはずなので今後も見守っていきたいです。