Crawl4AI-UI

一个基于 Crawl4AI 的网页爬虫工具，具有图形用户界面，支持 AI 内容筛选功能。 https://github.com/unclecode/crawl4ai

功能特点

图形用户界面，操作简单直观
支持多种内容类型爬取（文本、图片、视频）
支持 JSON 和 Markdown 格式输出
智能递归爬取，可控制爬取深度
特别优化支持 GitHub 代码仓库爬取
可选的 OpenAI 内容筛选功能

系统要求

Python 3.7+
Windows/Linux/MacOS

安装

克隆仓库：

git clone https://github.com/gewei1986/crawl4ai-ui.git
cd crawl4ai-ui

安装依赖：

pip install -r requirements.txt

配置 OpenAI（可选）：在

.env

文件中配置你的 OpenAI API 密钥：

OPENAI_API_KEY=your_api_key_here
OPENAI_API_URL=https://api.openai.com/v1

使用方法

基础版本

运行基础版本（不含 AI 功能）：

python app.py

高级版本

运行带 AI 功能的版本：

python ai/crawl4ai-ai-ui.py

WEB服务器版
``````bash
python ai/web.py

### 界面操作说明

1. 输入目标网站 URL
2. 选择保存路径和文件名
3. 选择输出格式（JSON/Markdown）
4. 输入关键词（可选，用逗号分隔）
5. 选择要爬取的内容类型
6. 设置最大爬取页面数（0表示不限制）
7. 设置爬取深度（1-10）
8. 启用/禁用 OpenAI 内容筛选（仅高级版本）
9. 点击"开始爬取"按钮

## 功能对比

### 基础版本 (app.py)
- 基本爬虫功能
- 图形界面操作
- 多格式输出
- GitHub 仓库特别支持

### 高级版本 (crawl4ai-ai-ui.py)
包含基础版本所有功能，另加：
- OpenAI 内容筛选
- 可调节爬取深度
- 更智能的内容处理

## 注意事项

- 请遵守目标网站的爬虫政策
- 建议设置合理的爬取限制，避免对目标服务器造成压力
- 使用 OpenAI 功能需要有效的 API 密钥
- 建议在爬取大型网站时设置适当的页面限制

## 许可证

MIT License

## 作者

gewei1986

## 更新日志

- v1.0.0: 初始版本发布
``

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
ai		ai
crawler		crawler
src		src
README.md		README.md
app.py		app.py
chat-pa		chat-pa
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Crawl4AI-UI

功能特点

系统要求

安装

使用方法

基础版本

高级版本

About

Uh oh!

Releases

Packages

Uh oh!

Languages

gewei100/crawl4ai-ui

Folders and files

Latest commit

History

Repository files navigation

Crawl4AI-UI

功能特点

系统要求

安装

使用方法

基础版本

高级版本

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages