10000 GitHub - gewei100/crawl4ai-ui
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

gewei100/crawl4ai-ui

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Crawl4AI-UI

一个基于 Crawl4AI 的网页爬虫工具,具有图形用户界面,支持 AI 内容筛选功能。 https://github.com/unclecode/crawl4ai

功能特点

  • 图形用户界面,操作简单直观
  • 支持多种内容类型爬取(文本、图片、视频)
  • 支持 JSON 和 Markdown 格式输出
  • 智能递归爬取,可控制爬取深度
  • 特别优化支持 GitHub 代码仓库爬取
  • 可选的 OpenAI 内容筛选功能

系统要求

  • Python 3.7+
  • Windows/Linux/MacOS

安装

  1. 克隆仓库:
git clone https://github.com/gewei1986/crawl4ai-ui.git
cd crawl4ai-ui
  1. 安装依赖:
pip install -r requirements.txt
  1. 配置 OpenAI(可选): 在

.env

文件中配置你的 OpenAI API 密钥:

OPENAI_API_KEY=your_api_key_here
OPENAI_API_URL=https://api.openai.com/v1

使用方法

基础版本

运行基础版本(不含 AI 功能):

python app.py

高级版本

运行带 AI 功能的版本:

python ai/crawl4ai-ai-ui.py

WEB服务器版
``````bash
python ai/web.py

### 界面操作说明

1. 输入目标网站 URL
2. 选择保存路径和文件名
3. 选择输出格式(JSON/Markdown)
4. 输入关键词(可选,用逗号分隔)
5. 选择要爬取的内容类型
6. 设置最大爬取页面数(0表示不限制)
7. 设置爬取深度(1-10)
8. 启用/禁用 OpenAI 内容筛选(仅高级版本)
9. 点击"开始爬取"按钮

## 功能对比

### 基础版本 (app.py)
- 基本爬虫功能
- 图形界面操作
- 多格式输出
- GitHub 仓库特别支持

### 高级版本 (crawl4ai-ai-ui.py)
包含基础版本所有功能,另加:
- OpenAI 内容筛选
- 可调节爬取深度
- 更智能的内容处理

## 注意事项

- 请遵守目标网站的爬虫政策
- 建议设置合理的爬取限制,避免对目标服务器造成压力
- 使用 OpenAI 功能需要有效的 API 密钥
- 建议在爬取大型网站时设置适当的页面限制

## 许可证

MIT License

## 作者

gewei1986

## 更新日志

- v1.0.0: 初始版本发布
``

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0