Xiong Wang wangxiongts

Speech/LLM Algorithm Engineer@Alibaba Qwen Team

Achievements

QwenLM/Qwen2.5-Omni QwenLM/Qwen2.5-Omni Public

Qwen2.5-Omni is an end-to-end multimodal model by Qwen team at Alibaba Cloud, capable of understanding text, audio, vision, video, and performing real-time speech generation.

Jupyter Notebook 2.9k 215
VITA-MLLM/VITA VITA-MLLM/VITA Public

✨✨VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Python 2.3k 169
VITA-MLLM/Freeze-Omni VITA-MLLM/Freeze-Omni Public

✨✨Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

Python 314 20