LLaVA Qwen-VL Yi-VL InternLM-XComposer2 CogVLM MiniCPM-V DeepSeek-VL
部分商业模型:
阿里通义千问VL 百度文心大模型 360智脑
商业模型:
GPT-4 Vision Claude 3(支持图像) Gemini Pro Anthropic Claude OpenAI ChatGPT Vision
国内模型:
文心一言 讯飞星火 阿里通义千问 百度智能云 360智脑
Web服务:
MidJourney DALL-E Stable Diffusion Web Runway ML
主要特点:
需要网络访问 通过API或网页交互 部分需要付费 模型能力较强 实时更新
普通微调 (normal fine-tuning):
最基础的方法 用你自己的数据重新训练一下模型 就像"补习",让模型更擅长你需要的任务
提示词微调 (prompt tuning):
只调整模型理解文字描述的部分 更轻量级的训练方式 像"教新词",让模型更好理解你的描述方式
重参数化微调 (reparameterized fine-tuning):
适合特殊场景(比如医疗图像) 让模型更适应特定领域 像"专业培训",让模型成为某个领域的专家