一个基于 Crawl4AI 的网页爬虫工具,具有图形用户界面,支持 AI 内容筛选功能。 https://github.com/unclecode/crawl4ai
- 图形用户界面,操作简单直观
- 支持多种内容类型爬取(文本、图片、视频)
- 支持 JSON 和 Markdown 格式输出
- 智能递归爬取,可控制爬取深度
- 特别优化支持 GitHub 代码仓库爬取
- 可选的 OpenAI 内容筛选功能
- Python 3.7+
- Windows/Linux/MacOS
- 克隆仓库:
git clone https://github.com/gewei1986/crawl4ai-ui.git
cd crawl4ai-ui
- 安装依赖:
pip install -r requirements.txt
- 配置 OpenAI(可选): 在
.env
文件中配置你的 OpenAI API 密钥:
OPENAI_API_KEY=your_api_key_here
OPENAI_API_URL=https://api.openai.com/v1
运行基础版本(不含 AI 功能):
python app.py
运行带 AI 功能的版本:
python ai/crawl4ai-ai-ui.py
WEB服务器版
``````bash
python ai/web.py
### 界面操作说明
1. 输入目标网站 URL
2. 选择保存路径和文件名
3. 选择输出格式(JSON/Markdown)
4. 输入关键词(可选,用逗号分隔)
5. 选择要爬取的内容类型
6. 设置最大爬取页面数(0表示不限制)
7. 设置爬取深度(1-10)
8. 启用/禁用 OpenAI 内容筛选(仅高级版本)
9. 点击"开始爬取"按钮
## 功能对比
### 基础版本 (app.py)
- 基本爬虫功能
- 图形界面操作
- 多格式输出
- GitHub 仓库特别支持
### 高级版本 (crawl4ai-ai-ui.py)
包含基础版本所有功能,另加:
- OpenAI 内容筛选
- 可调节爬取深度
- 更智能的内容处理
## 注意事项
- 请遵守目标网站的爬虫政策
- 建议设置合理的爬取限制,避免对目标服务器造成压力
- 使用 OpenAI 功能需要有效的 API 密钥
- 建议在爬取大型网站时设置适当的页面限制
## 许可证
MIT License
## 作者
gewei1986
## 更新日志
- v1.0.0: 初始版本发布
``