探索 browser-use：让大模型轻松驾驭浏览器的开源神器

luler · 2025-03-18T17:27:58+00:00

一、简介 browser-use 是一个开源工具，通过将 AI 能力与浏览器自动化相结合，实现网页的智能化操作支持视觉识别、html提取、多tab管理、元素追踪、自定义动作、自动纠错、多种AI模型开源地址：https://github.com/browser-use/browser-use 网页代理准确...

luler

一、简介

browser-use 是一个开源工具，通过将 AI 能力与浏览器自动化相结合，实现网页的智能化操作
支持视觉识别、html提取、多tab管理、元素追踪、自定义动作、自动纠错、多种AI模型
开源地址：https://github.com/browser-use/browser-use
网页代理准确度领先于其他工具

二、安装使用

提前安装python环境，版本大于等于3.11

安装browser-use

pip install browser-use

安装浏览器自动化工具playwright

playwright install

代码操作示例

import asyncio

from browser_use import Agent
from langchain_openai import ChatOpenAI

async def main():
    agent = Agent(
        task="请严格使用中文回答，帮我看看开源项目browser-use/browser-use有多少颗星星了",
        llm=ChatOpenAI(
            model="gpt-4o", # 可以设置成其他模型
            base_url="https://api.openai.com/v1", # 设置成你的模型访问基础路径
            openai_api_key="sk-xxx" //设置成你的模型访问秘钥
        ),
    )
    await agent.run()


asyncio.run(main())

执行效果：

三、总结

非常好的探索性项目，值得关注，有助于扩展大模型的能力
除了python代码控制，还可以部署成可视化操作web-ui界面（支持docker部署），参考：https://github.com/browser-use/web-ui
browser-use对于复杂任务的处理效果还是有待优化。比如输入我的github账号，叫他爬取我有多少个开源项目，他只会找到我的主页上几个开源项目，还不能自动深度挖掘和分页处理