UltraEval-Audio——全球首个同时支持语音理解和语音生成评估的开源框架,专为语音大模型评估打造,集合了34项权威Benchmark,覆盖语音、声音、医疗及音乐四大领域,支持十种语言,涵盖十二类任务。选择UltraEval-Audio,您将体验到前所未有的便捷与高效:
- 一键式基准管理 📥:告别繁琐的手动下载与数据处理,UltraEval-Audio为您自动化完成这一切,轻松获取所需基准测试数据。
- 内置评估利器 ⚙️:无需再四处搜寻评估工具,UltraEval-Audio内置八种常用的评估方法(如WER、WER-ZH、BLEU、G-Eval),无论是基于规则还是模型驱动,都能满足您的需求。
- 功能强大,灵活易用 🛠️:支持预览测试、随机样本、错误重试、断点重跑等功能,确保评估过程灵活可控,提升效率与准确性。
- 无缝集成自定义数据集 💼:不仅支持公开benchmark,还提供强大的自定义数据集功能,让您在各种工程场景下也能迅速应用。
- 轻松对接现有系统 🔗:具备优秀的扩展性和标准化设计,即使您已拥有一套完善的评估体系,UltraEval-Audio也能无缝对接,简化项目管理流程,输出结果统一规范。
- [2025/10/30]
- 支持VoxCPM TTS模型:
--model voxcpm-tts--model voxcpm-vc - 使用uv加速模型安装依赖🚀
- 支持VoxCPM TTS模型:
- [2025/10/17]
- [2025/05/22]
- [2025/05/12]
- 支持Qwen2.5-Omni
qwen2.5-omni-audio, qwen2.5-omni-speech, Kimi-Audio-7B-Instructkimiaudio, kimiaudio-speech模型,并且更新音频理解榜单
- 支持Qwen2.5-Omni
- [2025/05/8]
- 更加快捷断点续评, -r/--resume参数,不指定文件可以自动搜索最近一次的断点续评结果
- 支持从推理文件开始评测, --infer-file参数,可以直接从推理文件开始评测,无需重新生成推理文件
- [2025/03/23]
- 新增支持step-audio模型评测和排名
- 排名详情见:leaderboard.md
- 评测支持:Step-Audio-Chat
- 新增支持step-audio模型评测和排名
- [2025/03/04]
- 支持断点[续评] [resume evaluation](docs/Procedures for Restarting an Incomplete Evaluation.md), 命令行参数
--resume $checkpoint_res_file - glm-4-voice服务部署,支持UltraEval-Audio评测, 详情见GLM-4-Voice
- 并行评测支持,命令行参数
--workers $num_workers
- 支持断点[续评] [resume evaluation](docs/Procedures for Restarting an Incomplete Evaluation.md), 命令行参数
- [2025/01/13] release v1.0.0
Audio Understanding Audio Foundation Models: Speech + Text → Text
WER (
$\downarrow$ ) for ASR, BLEU ($\uparrow$ ) for AST, and ACC ($\uparrow$ ) for EMO. Best results are in bold.
| Model | ASR Librispeech dev-clean|dev-other test-clean|test-other |
ASR TED-LIUM |
ASR CV-15 en|zh |
ASR Aishell-1 |
ASR FLEURS-zh |
ASR Wenet -test-net |
AST covost2-en2zh |
AST covost2-zh2en |
EMO MELD |
|---|---|---|---|---|---|---|---|---|---|
| GPT-4o-Realtime | 2.30|5.60 2.60|5.50 |
4.80 | 27.44|37.44 | 7.30 | 5.40 | 28.90 | 37.10 | 15.70 | 33.20 |
| Gemini-1.5-Pro | 2.60|4.40 2.90|4.90 |
3.00 | 8.36|13.26 | 4.50 | 5.90 | 14.30 | 47.30 | 22.60 | 48.40 |
| Gemini-1.5-Flash | 5.90|7.20 21.90|16.30 |
6.90 | 208.00|84.37 | 9.00 | 85.90 | 279.90 | 33.40 | 8.20 | 45.20 |
| Qwen2-Audio -Instruction |
2.90|5.50 3.10|5.70 |
5.90 | 10.68|8.39 | 2.60 | 6.90 | 10.30 | 39.50 | 22.90 | 17.40 |
| MiniCPM-o 2.6 | 1.60|3.40 1.70|4.40 |
3.00 | 10.30|9.60 | 1.60 | 4.40 | 6.90 | 48.20 | 27.20 | 52.40 |
| Qwen2.5-Omni | 2.10|4.20 2.40|4.20 |
4.70 | 8.70|5.20 | 1.10 | 4.60 | 6.00 | 42.50 | 11.50 | 53.60 |
| Kimi-Audio-7B-Instruct | 1.18|2.34 1.28|2.44 |
2.96 | 7.09|5.72 | 0.60 | 2.53 | 5.55 | 36.61 | 18.30 | 59.23 |
| Qwen2-Audio | 1.57|3.50 1.60|3.88 |
3.43 | 8.67|7.03 | 1.52 | 5.89 | 8.09 | 45.30 | 24.84 | 42.87 |
| MiDaShengLM-7B | 2.20|4.75 2.21|5.16 |
146.53 | 13.66|29.13 | 1.23 | 3.28 | 16.56 | 38.52 | 22.68 | 53.96 |
| Gemini-2.5-Flash | 3.73|6.71 3.28|12.03 |
3.53 | 46.76|36.15 | 6.40 | 6.45 | 126.07 | 3.67 | 10.61 | 51.53 |
| Qwen3-Omni-30B -A3B-Instruct |
1.25|2.27 1.36|2.57 |
2.82 | 6.00|4.32 | 0.87 | 2.61 | 4.82 | 46.58 | 29.40 | 56.81 |
| Gemini-2.5-Pro | 5.30|4.51 2.84|6.74 |
2.52 | 9.42|11.04 | 3.36 | 4.25 | 16.83 | 41.75 | 27.84 | 46.59 |
Audio Understanding Audio Foundation Models: Speech → Speech Table: Audio generation performance (
$\uparrow$ ). *Acoustic metrics (UTMOS | DNSMOS P.835 | DNSMOS P.808, scale 1--5) are evaluated on the generated audio responses from the speech tasks. Best results are in bold.
| Models | Speech Web Questions |
Speech TriviaQA |
Speech CMMLU |
SpeechHSK | Speech AlpacaEval | Acoustics* |
|---|---|---|---|---|---|---|
| GPT-4o-Realtime | 51.60 | 69.70 | 70.05 | 98.69 | 74.00 | 4.29|3.44|4.26 |
| GLM-4-Voice | 32.00 | 36.40 | 52.61 | 71.06 | 51.00 | 4.21|3.46|4.07 |
| MiniCPM-o 2.6 | 40.00 | 40.20 | 51.37 | 80.68 | 51.00 | 4.12|3.39|4.02 |
| Qwen2.5-Omni | 38.89 | 39.94 | 73.72 | 95.65 | 54.00 | 4.23|3.48|4.27 |
| Kimi-Audio-7B-Instruct | 33.69 | 38.20 | 71.25 | 97.42 | 34.40 | 2.94|3.22|3.62 |
| Qwen3-Omni-30B-A3B-Instruct | 51.50 | 55.27 | 47.83 | 40.27 | 67.97 | 4.44|3.45|4.12 |
Audio Codec: Speech → Speech. Table: Audio Codec Performance: ASR-WER (
$\downarrow$ ), ASR-CER ($\downarrow$ ), SIM ($\uparrow$ ), and Quality (UTMOS|DNSMOS P.835|DNSMOS P.808,$\uparrow$ ). Note: The hyphen (-) indicates that UTMOS is not applicable to Chinese speech (Aishell-1). Best results are in bold.
| Models | Librispeech-dev-clean ASR-WER |
Librispeech-dev-clean SIM |
Librispeech-dev-clean Quality |
Librispeech-test-clean ASR-WER |
Librispeech-test-clean SIM |
Librispeech-test-clean Quality |
Aishell-1 ASR-CER |
Aishell-1 SIM |
Aishell-1 Quality |
|---|---|---|---|---|---|---|---|---|---|
| Encodec-24k | 4.56 | 59.40 | 1.58|3.12|2.36 | 4.32 | 59.40 | 1.57|3.12|2.36 | 13.95 | 47.48 | -|2.93|2.03 |
| Encodec-48k | 3.85 | 65.53 | 1.52|2.88|2.42 | 3.80 | 66.00 | 1.48|2.87|2.40 | 6.85 | 68.78 | -|2.79|2.21 |
| Chattts-DVAE | 7.49 | 34.83 | 1.30|2.66|2.11 | 6.75 | 36.21 | 1.29|2.64|2.12 | 32.36 | 32.36 | -|2.24|1.57 |
| Mimi (32bit) | 2.04 | 92.18 | 3.83|2.87|2.44 | 1.96 | 92.68 | 3.84|2.92|2.49 | 2.82 | 84.80 | -|2.43|1.89 |
| Mimi (8bit) | 2.76 | 72.15 | 3.52|2.78|2.37 | 2.83 | 73.13 | 3.53|2.83|2.43 | 6.82 | 60.63 | -|2.42|2.04 |
| Mimi-streaming (8bit) | 6.76 | 54.02 | 1.65|2.78|2.37 | 6.19 | 54.32 | 1.63|2.83|2.43 | 19.62 | 40.67 | -|2.42|2.04 |
| WavTokenizer-large-v2-75-tokens | 4.31 | 69.97 | 4.01|3.64|3.26 | 4.05 | 68.15 | 4.00|3.63|3.27 | 8.97 | 64.27 | -|3.11|2.85 |
| WavTokenizer-large-40-tokens | 8.13 | 60.26 | 3.78|3.70|3.13 | 7.73 | 56.63 | 3.77|3.70|3.16 | 25.52 | 49.21 | -|3.13|2.50 |
| Spark | 2.39 | 79.94 | 4.18|3.85|3.24 | 2.53 | 79.53 | 4.18|3.83|3.24 | 3.66 | 74.76 | -|3.63|2.85 |
git clone https://github.com/OpenBMB/UltraEval-Audio.git
cd UltraEval-Audio
conda create -n env python=3.10 -y
conda activate env
pip install -r requirements.txtor use uv for faster installation:
uv venv env python 3.10
source env/bin/activate
uv pip install -r requirements.txtexport PYTHONPATH=$PWD:$PYTHONPATH
# 针对部分地区可能需要加速下载 需要设置:export HF_ENDPOINT=https://hf-mirror.com
# 测试MiniCPM-o 2.6语音理解能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset sample --prompt mini-cpm-omni-asr-zh --model MiniCPMo2_6-audio
# 测试MiniCPM-o 2.6语音生成能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset llama-questions-s2t --model MiniCPMo2_6-speech
# 测试GPT-4o-Realtime语音理解能力
export OPENAI_API_KEY=$your-key
python audio_evals/main.py --dataset sample --model gpt4o_audio
# 测试GPT-4o-Realtime语音生成能力
export OPENAI_API_KEY=$your-key
python audio_evals/main.py --dataset llama-questions-s2t --model gpt4o_speech
# 测试gemini-1.5-pro语音理解能力
export GOOGLE_API_KEY=$your-key
python audio_evals/main.py --dataset sample --model gemini-pro
# 测试qwen2-audio-offline语音理解能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset sample --model qwen2-audio-chat遇到报错或者不能复现Mini-CPM-o 2.6的结果,可以先看常见问题
评测完毕,结果文件如下:
- res
|-- $model-name
|-- $dataset
|-- $time.jsonl
|-- $time-overview.jsonl评测命令:
python audio_evals/main.py --dataset <dataset_name> --model <model_name><dataset_name> 指定要评测的数据集,支持的数据集可以通过python cli/list_availabel.py查看
构造你自己的数据集: docs/how add a dataset.md
model_name 指定要评测的模型,支持的模型可以通过python cli/list_availabel.py查看
评测你自己的模型 docs/how eval your model.md
我们参考了evals 中registry代码
如果你有任何建议或疑问可以提issue或者加入discord群组: https://discord.gg/PHGy66QP


