8000 GitHub - KamiOrz/qwen-vl-ocr: 基于Qwen2.5 VL 72B实现的ocr识别程序
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

KamiOrz/qwen-vl-ocr

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

Qwen VL OCR

这是一个基于通义千问 Qwen2.5-VL-72B-Instruct 大模型的图像分析工具,提供了简单易用的Web界面,可以上传图片并获取AI的分析结果。

功能特点

  • 🖼️ 支持图片上传和分析
  • 💬 支持自定义提示词
  • 🚀 实时流式响应
  • 🌐 友好的Web界面
  • 🔄 支持批量处理
  • 📱 响应式设计,支持移动端

快速开始

环境要求

  • Python 3.8+
  • pip 包管理器

安装步骤

  1. 克隆仓库:
git clone https://github.com/KamiOrz/qwen-vl-ocr.git
cd qwen-vl-ocr
  1. 安装依赖:
pip install -r requirements.txt
  1. 运行应用:
python app.py
  1. 打开浏览器访问:
http://localhost:8080

使用说明

  1. 在Web界面上传一张图片
  2. (可选)在文本框中输入自定义提示词
  3. 点击"Submit"按钮
  4. 等待AI分析结果

API配置

本项目使用ModelScope API,默认配置如下:

base_url = 'https://api-inference.modelscope.cn/v1/'
model = 'Qwen/Qwen2.5-VL-72B-Instruct'

自定义配置

如果需要使用自己的API密钥,可以创建.env文件:

MODELSCOPE_API_KEY=your_api_key_here

示例提示词

  • "描述这幅图片的内容"
  • "这张图片中有什么物体?"
  • "分析图中人物的表情和情绪"
  • "这个场景可能在什么地方?"

项目结构

.
├── app.py              # 主应用程序
├── requirements.txt    # 项目依赖
├── README.md          # 项目文档
└── .env.example       # 环境变量示例

技术栈

贡献指南

欢迎提交Issue和Pull Request!

  1. Fork本仓库
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 开启Pull Request

开源协议

本项目采用 MIT 协议 - 详见 LICENSE 文件

致谢

联系方式

  • 项目作者:[Kami Studio]
  • GitHub:@kamiorz

更新日志

[1.0.0] - 2024-03-25

  • 🎉 首次发布
  • ✨ 基础图像分析功能
  • 🎨 用户友好的Web界面

About

基于Qwen2.5 VL 72B实现的ocr识别程序

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

0