Build or update the BlueBubbles external channel plugin for Moltbot (extension package, REST...
npx skills add naruki1024/claude-code-skills --skill "browser-use"
Install specific skill from multi-skill repository
# Description
Python browser-useライブラリを使用したAIエージェントによるブラウザ自動操作。自然言語でタスクを指示し、Webサイトのナビゲート、フォーム入力、データ収集を自動実行する。
# SKILL.md
name: browser-use
description: Python browser-useライブラリを使用したAIエージェントによるブラウザ自動操作。自然言語でタスクを指示し、Webサイトのナビゲート、フォーム入力、データ収集を自動実行する。
allowed-tools: Read, Write, Bash, Task, Glob, Grep
Browser Use Skill
概要
Python の browser-use ライブラリを活用して、AIエージェントによるブラウザ自動操作を実行するスキル。自然言語でタスクを指示するだけで、Webサイトをナビゲートし、フォーム入力、データ収集、各種操作を自動実行する。
リポジトリ: https://github.com/browser-use/browser-use
ドキュメント: https://docs.browser-use.com
ユースケース
- 自然言語指示でのWebブラウザ操作
- Webスクレイピング・データ収集
- フォームへの自動入力・送信
- 複数ページにまたがる情報収集
- ログインが必要なサイトでの操作
- リサーチ自動化
実行トリガー
/browser-use/browser-use {url} {task-description}- 「browser-useを使って〜」
- 「Pythonでブラウザ操作して〜」
- 「自然言語でWebを操作して〜」
ワークフロー
Phase 1: 環境準備
├── 1.1 Python環境確認 (3.11+)
├── 1.2 browser-useインストール確認
└── 1.3 API キー設定確認
Phase 2: タスク実行
├── 2.1 タスク分析 (task-analyzer)
├── 2.2 ブラウザ操作実行 (browser-operator)
└── 2.3 エラーハンドリング
Phase 3: 結果抽出
├── 3.1 データ抽出 (result-extractor)
├── 3.2 スクリーンショット整理
└── 3.3 結果レポート
Phase 1: 環境準備
1.1 Python環境確認
python3 --version # 3.11以上が必要
1.2 browser-use インストール確認・実行
# インストール確認
pip show browser-use
# 未インストールの場合
pip install browser-use[cli]
# または
uv add browser-use && uvx browser-use install
1.3 API キー設定(オプション)
ChatBrowserUse モデルを使用する場合:
export BROWSER_USE_API_KEY=your-api-key
OpenAI を使用する場合:
export OPENAI_API_KEY=your-api-key
Phase 2: タスク実行
2.1 タスク分析
Task ツールで task-analyzer エージェントに委譲:
入力:
- ユーザーからの自然言語タスク指示
- ターゲット URL(指定がある場合)
出力:
- 実行可能なタスク記述
- ブラウザモード推奨
- 認証要件の有無
エージェント仕様: agents/task-analyzer.md
2.2 ブラウザ操作実行
Task ツールで browser-operator エージェントに委譲:
入力:
- タスク記述
- ターゲット URL
- ブラウザモード設定
出力:
- 操作結果
- 取得データ
- スクリーンショット(必要時)
エージェント仕様: agents/browser-operator.md
実行方法
CLI での実行
# URLを開く
browser-use open https://example.com
# 現在の状態取得
browser-use state
# 要素クリック
browser-use click --selector "#login-btn"
# テキスト入力
browser-use type --selector "#email" --text "[email protected]"
# スクリーンショット
browser-use screenshot --output result.png
Python スクリプトでの実行
from browser_use import Agent, Browser
import asyncio
async def main():
browser = Browser()
agent = Agent(
task="GitHubリポジトリのスター数を調べてください",
browser=browser,
)
history = await agent.run()
return history
asyncio.run(main())
ブラウザモード
| モード | 選択基準 | 設定方法 |
|---|---|---|
| Headless | デフォルト。高速、GUIなし | --headless |
| Headed | 可視ウィンドウで動作確認 | --headed |
| Real Chrome | 既存ログイン状態を維持 | プロファイル指定 |
| Cloud Browser | ステルス+プロキシ対応 | CloudBrowser() |
Phase 3: 結果抽出
3.1 データ抽出
Task ツールで result-extractor エージェントに委譲:
入力:
- 操作結果
- 抽出対象の指定
- 期待する出力形式
出力:
- 構造化データ(JSON/テキスト)
- メタデータ(取得日時、ソースURL)
エージェント仕様: agents/result-extractor.md
3.2 結果レポート
ユーザーへの報告内容:
- 実行したタスクの概要
- 取得したデータ/結果
- 操作中の注意点・エラー(あれば)
- スクリーンショット(必要時)
参照リソース
| リソース | 用途 | 読み込みタイミング |
|---|---|---|
references/cli-reference.md |
CLI コマンド一覧 | CLI実行時 |
references/browser-modes.md |
ブラウザモード設定 | モード選択時 |
references/task-patterns.md |
タスクパターン | タスク分析時 |
references/error-handling.md |
エラー処理 | エラー発生時 |
使用例
基本: ページ情報取得
/browser-use https://example.com ページの概要を教えて
リサーチ自動化
/browser-use RTX 4090とRTX 4080の価格と性能を比較して
フォーム入力
/browser-use https://form.example.com 問い合わせフォームに以下を入力: 名前=山田太郎
データ収集
/browser-use https://news.example.com 最新ニュースの見出しを5件取得
注意事項
- Python 3.11以上が必要
- 認証情報はログに出力しない
- 破壊的な操作(削除、送信)は実行前に確認
- レート制限のあるサイトでは適切な待機を入れる
- 個人情報を含むデータの取り扱いに注意
- Playwright MCP と同時使用時はブラウザ競合に注意
e2e-test スキルとの使い分け
| 観点 | browser-use | e2e-test (Playwright MCP) |
|---|---|---|
| 操作方式 | 自然言語指示 | セレクタ/ref指定 |
| 用途 | 汎用ブラウザ自動化 | テスト・検証 |
| 言語 | Python | TypeScript (MCP経由) |
| 強み | 柔軟な指示、スクレイピング | 再現性、テストレポート |
# Supported AI Coding Agents
This skill is compatible with the SKILL.md standard and works with all major AI coding agents:
Learn more about the SKILL.md standard and how to use these skills with your preferred AI coding agent.