browser-use

by @naruki1024 in Web & API

# Install this skill:

npx skills add naruki1024/claude-code-skills --skill "browser-use"

Install specific skill from multi-skill repository

# Description

Python browser-useライブラリを使用したAIエージェントによるブラウザ自動操作。自然言語でタスクを指示し、Webサイトのナビゲート、フォーム入力、データ収集を自動実行する。

# SKILL.md

name: browser-use
description: Python browser-useライブラリを使用したAIエージェントによるブラウザ自動操作。自然言語でタスクを指示し、Webサイトのナビゲート、フォーム入力、データ収集を自動実行する。
allowed-tools: Read, Write, Bash, Task, Glob, Grep

Browser Use Skill

概要

Python の browser-use ライブラリを活用して、AIエージェントによるブラウザ自動操作を実行するスキル。自然言語でタスクを指示するだけで、Webサイトをナビゲートし、フォーム入力、データ収集、各種操作を自動実行する。

リポジトリ: https://github.com/browser-use/browser-use
ドキュメント: https://docs.browser-use.com

ユースケース

自然言語指示でのWebブラウザ操作
Webスクレイピング・データ収集
フォームへの自動入力・送信
複数ページにまたがる情報収集
ログインが必要なサイトでの操作
リサーチ自動化

実行トリガー

/browser-use
/browser-use {url} {task-description}
「browser-useを使って〜」
「Pythonでブラウザ操作して〜」
「自然言語でWebを操作して〜」

ワークフロー

Phase 1: 環境準備
├── 1.1 Python環境確認 (3.11+)
├── 1.2 browser-useインストール確認
└── 1.3 API キー設定確認

Phase 2: タスク実行
├── 2.1 タスク分析 (task-analyzer)
├── 2.2 ブラウザ操作実行 (browser-operator)
└── 2.3 エラーハンドリング

Phase 3: 結果抽出
├── 3.1 データ抽出 (result-extractor)
├── 3.2 スクリーンショット整理
└── 3.3 結果レポート

Phase 1: 環境準備

1.1 Python環境確認

python3 --version  # 3.11以上が必要

1.2 browser-use インストール確認・実行

# インストール確認
pip show browser-use

# 未インストールの場合
pip install browser-use[cli]
# または
uv add browser-use && uvx browser-use install

1.3 API キー設定（オプション）

ChatBrowserUse モデルを使用する場合:

export BROWSER_USE_API_KEY=your-api-key

OpenAI を使用する場合:

export OPENAI_API_KEY=your-api-key

Phase 2: タスク実行

2.1 タスク分析

Task ツールで task-analyzer エージェントに委譲:

入力:
- ユーザーからの自然言語タスク指示
- ターゲット URL（指定がある場合）

出力:
- 実行可能なタスク記述
- ブラウザモード推奨
- 認証要件の有無

エージェント仕様: agents/task-analyzer.md

2.2 ブラウザ操作実行

Task ツールで browser-operator エージェントに委譲:

入力:
- タスク記述
- ターゲット URL
- ブラウザモード設定

出力:
- 操作結果
- 取得データ
- スクリーンショット（必要時）

エージェント仕様: agents/browser-operator.md

実行方法

CLI での実行

# URLを開く
browser-use open https://example.com

# 現在の状態取得
browser-use state

# 要素クリック
browser-use click --selector "#login-btn"

# テキスト入力
browser-use type --selector "#email" --text "[email protected]"

# スクリーンショット
browser-use screenshot --output result.png

Python スクリプトでの実行

from browser_use import Agent, Browser
import asyncio

async def main():
    browser = Browser()
    agent = Agent(
        task="GitHubリポジトリのスター数を調べてください",
        browser=browser,
    )
    history = await agent.run()
    return history

asyncio.run(main())

ブラウザモード

モード	選択基準	設定方法
Headless	デフォルト。高速、GUIなし	`--headless`
Headed	可視ウィンドウで動作確認	`--headed`
Real Chrome	既存ログイン状態を維持	プロファイル指定
Cloud Browser	ステルス+プロキシ対応	`CloudBrowser()`

Phase 3: 結果抽出

3.1 データ抽出

Task ツールで result-extractor エージェントに委譲:

入力:
- 操作結果
- 抽出対象の指定
- 期待する出力形式

出力:
- 構造化データ（JSON/テキスト）
- メタデータ（取得日時、ソースURL）

エージェント仕様: agents/result-extractor.md

3.2 結果レポート

ユーザーへの報告内容:
- 実行したタスクの概要
- 取得したデータ/結果
- 操作中の注意点・エラー（あれば）
- スクリーンショット（必要時）

参照リソース

リソース	用途	読み込みタイミング
`references/cli-reference.md`	CLI コマンド一覧	CLI実行時
`references/browser-modes.md`	ブラウザモード設定	モード選択時
`references/task-patterns.md`	タスクパターン	タスク分析時
`references/error-handling.md`	エラー処理	エラー発生時

使用例

基本: ページ情報取得

/browser-use https://example.com ページの概要を教えて

リサーチ自動化

/browser-use RTX 4090とRTX 4080の価格と性能を比較して

フォーム入力

/browser-use https://form.example.com 問い合わせフォームに以下を入力: 名前=山田太郎

データ収集

/browser-use https://news.example.com 最新ニュースの見出しを5件取得

注意事項

Python 3.11以上が必要
認証情報はログに出力しない
破壊的な操作（削除、送信）は実行前に確認
レート制限のあるサイトでは適切な待機を入れる
個人情報を含むデータの取り扱いに注意
Playwright MCP と同時使用時はブラウザ競合に注意

e2e-test スキルとの使い分け

観点	browser-use	e2e-test (Playwright MCP)
操作方式	自然言語指示	セレクタ/ref指定
用途	汎用ブラウザ自動化	テスト・検証
言語	Python	TypeScript (MCP経由)
強み	柔軟な指示、スクレイピング	再現性、テストレポート

# Supported AI Coding Agents

This skill is compatible with the SKILL.md standard and works with all major AI coding agents:

⚡ Amp 🚀 Antigravity 🤖 Claude Code 🦀 Clawdbot 📝 Codex ▶️ Cursor 🤖 Droid 💎 Gemini CLI 🐙 GitHub Copilot 🪿 Goose 📊 Kilo Code 🔧 Kiro CLI 💻 OpenCode 🦘 Roo Code 🌲 Trae 🏄 Windsurf

Learn more about the SKILL.md standard and how to use these skills with your preferred AI coding agent.