mcp-qwen-omni
这是一个基于通义千问(Qwen-Omni)实现的多模态 AI 服务,通过 Model Context Protocol (MCP) 将其强大的看图、听音、语音合成及视频理解能力无缝集成到支持MCP服务的 AI 助手(如 Claude, Cursor)中。让你的 AI 瞬间升级为全能型选手,轻松实现多模态交互!
claude mcp add --transport stdio zk-b612-mcp-qwen-omni python -m qwen_omni_mcp.server \ --env DASHSCOPE_API_KEY="你的阿里云DASHSCOPE_API_KEY"
How to use
Qwen-Omni MCP Server 将阿里云通义千问的多模态能力接入到你的 MCP 生态中。通过这个服务器,AI 工具可以实现图像理解、音频分析、视频理解以及语音合成等多模态能力,并提供多种音色的语音输出,甚至可以开启思考模式展示推理过程。服务器基于 FastMCP 框架,支持与支持 MCP 的客户端无缝通信,玩家可以通过任意兼容工具(如 Claude Desktop、Qwen Code、Cursor IDE 等)访问图像理解、音频识别、视频理解、文本转语音等功能。要使用它,你需要提供阿里云的 DASHSCOPE_API_KEY(用于调用通义千问 API),并按照脚本的引导完成配置,随后即可在你的 AI 助手工具链中体验“看图说话、听音辨物、多声线对话”等能力。快速体验通常只需克隆仓库、运行一键启动脚本,并按提示填入 API Key 即可。
How to install
安装步骤(先决条件与运行示例):
- 先决条件
- Python 3.10 及以上
- Git
- 互联网访问以安装依赖并访问阿里云 API
- 安装与配置
-
克隆仓库: git clone https://github.com/zk-b612/qwen-omni-mcp.git cd qwen-omni-mcp
-
安装依赖(若仓库提供 requirements.txt,请执行以下命令;若无,请跳过): python -m pip install -r requirements.txt
-
运行一键启动脚本,按照提示输入 API Key(DASHSCOPE_API_KEY)等信息: python quickstart.py
-
按照脚本提示完成阿里云 API Key 的配置,脚本会启动 MCP 服务并对接通义千问能力。
- 验证运行
- 一旦脚本完成并启动,你应能看到服务进入就绪状态,并可使用兼容的 MCP 客户端连接进行测试。
备注:如果你选择直接运行模块方式,可以使用以下命令启动服务器(替换为实际路径与环境变量): DASHSCOPE_API_KEY=your_key python -m qwen_omni_mcp.server
确保你的环境变量设置正确,并且具有对外暴露的访问端口以便客户端连接。
Additional notes
常见提示与注意事项:
- DASHSCOPE_API_KEY 是与阿里云通义千问 API 的凭证,务必妥善保管,不要在公共环境中暴露。
- 服务器基于 MCP 协议,确保你的客户端工具版本与 FastMCP 2.0 兼容以获得最佳性能。
- 17 种音色支持:在语音输出配置中可选择不同音色,如 Cherry、Ethan、Nofish、Jennifer 等,具体音色与场景请参考文档。
- 如果遇到网络或 API 调用延迟,请提高超时时间或调整“思考模式”设置以优化推理流程。
- 本项目计划包含 Docker 镜像与更多模型接入,关注仓库更新以获取新功能。
- 运行脚本时若遇权限或路径问题,确保你在具有合适权限的目录中执行,并且 Python 可以找到 qwen_omni_mcp.server 模块。
Related MCP Servers
mssql
MSSQL Server MCP implementation written in C#
mcp-python-interpreter
MCP Python Interpreter: run python code. Python-mcp-server, mcp-python-server, Code Executor
guidance-for-scalable-model-inference-and-agentic-ai-on-amazon-eks
Comprehensive, scalable ML inference architecture using Amazon EKS, leveraging Graviton processors for cost-effective CPU-based inference and GPU instances for accelerated inference. Guidance provides a complete end-to-end platform for deploying LLMs with agentic AI capabilities, including RAG and MCP
mcp-file-operations
A Model Context Protocol (MCP) server that provides enhanced file operation capabilities with streaming, patching, and change tracking support.
growthbook
Official GrowthBook MCP server for creating flags, getting experiments, and more.
cstrike
Autonomous offensive security platform — 6-container Docker stack, real-time web dashboard, AI-driven 9-phase attack pipeline, 35+ tools. Multi-provider AI (OpenAI, Anthropic, Ollama, Grok) with MCP tool server, nftables VPN kill switch, Metasploit RPC, KasmVNC remote browser, and pre-built VM images. For authorized red team ops.