这是一个基于通义千问 Qwen2.5-VL-72B-Instruct 大模型的图像分析工具,提供了简单易用的Web界面,可以上传图片并获取AI的分析结果。
- 🖼️ 支持图片上传和分析
- 💬 支持自定义提示词
- 🚀 实时流式响应
- 🌐 友好的Web界面
- 🔄 支持批量处理
- 📱 响应式设计,支持移动端
- Python 3.8+
- pip 包管理器
- 克隆仓库:
git clone https://github.com/KamiOrz/qwen-vl-ocr.git
cd qwen-vl-ocr
- 安装依赖:
pip install -r requirements.txt
- 运行应用:
python app.py
- 打开浏览器访问:
http://localhost:8080
- 在Web界面上传一张图片
- (可选)在文本框中输入自定义提示词
- 点击"Submit"按钮
- 等待AI分析结果
本项目使用ModelScope API,默认配置如下:
base_url = 'https://api-inference.modelscope.cn/v1/'
model = 'Qwen/Qwen2.5-VL-72B-Instruct'
如果需要使用自己的API密钥,可以创建.env
文件:
MODELSCOPE_API_KEY=your_api_key_here
- "描述这幅图片的内容"
- "这张图片中有什么物体?"
- "分析图中人物的表情和情绪"
- "这个场景可能在什么地方?"
.
├── app.py # 主应用程序
├── requirements.txt # 项目依赖
├── README.md # 项目文档
└── .env.example # 环境变量示例
- Gradio - Web界面框架
- OpenAI API - API客户端
- ModelScope - AI模型服务
- Pillow - 图像处理
欢迎提交Issue和Pull Request!
- Fork本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature
) - 提交更改 (
git commit -m 'Add some AmazingFeature'
) - 推送到分支 (
git push origin feature/AmazingFeature
) - 开启Pull Request
本项目采用 MIT 协议 - 详见 LICENSE 文件
- ModelScope 提供的模型服务
- 通义千问 团队开发的优秀模型
- Gradio 团队提供的出色框架
- 项目作者:[Kami Studio]
- GitHub:@kamiorz
- 🎉 首次发布
- ✨ 基础图像分析功能
- 🎨 用户友好的Web界面