Overview

🚀超凡体验，尽在UltraEval-Audio🚀

UltraEval-Audio——全球首个同时支持语音理解和语音生成评估的开源框架，专为语音大模型评估打造，集合了34项权威Benchmark，覆盖语音、声音、医疗及音乐四大领域，支持十种语言，涵盖十二类任务。选择UltraEval-Audio，您将体验到前所未有的便捷与高效：

一键式基准管理 📥：告别繁琐的手动下载与数据处理，UltraEval-Audio为您自动化完成这一切，轻松获取所需基准测试数据。
内置评估利器 ⚙️：无需再四处搜寻评估工具，UltraEval-Audio内置八种常用的评估方法（如WER、WER-ZH、BLEU、G-Eval），无论是基于规则还是模型驱动，都能满足您的需求。
功能强大，灵活易用 🛠️：支持预览测试、随机样本、错误重试、断点重跑等功能，确保评估过程灵活可控，提升效率与准确性。
无缝集成自定义数据集 💼：不仅支持公开benchmark，还提供强大的自定义数据集功能，让您在各种工程场景下也能迅速应用。
轻松对接现有系统 🔗：具备优秀的扩展性和标准化设计，即使您已拥有一套完善的评估体系，UltraEval-Audio也能无缝对接，简化项目管理流程，输出结果统一规范。

更新日志🔥

[2025/10/30]
- 支持VoxCPM TTS模型: --model voxcpm-tts --model voxcpm-vc
- 使用uv加速模型安装依赖🚀
[2025/10/17]
- 支持seed-tts-eval数据集
[2025/05/22]
- 使用音频质量指标
[2025/05/12]
- 支持Qwen2.5-Omniqwen2.5-omni-audio, qwen2.5-omni-speech, Kimi-Audio-7B-Instructkimiaudio, kimiaudio-speech模型，并且更新音频理解榜单
[2025/05/8]
- 更加快捷断点续评, -r/--resume参数，不指定文件可以自动搜索最近一次的断点续评结果
- 支持从推理文件开始评测, --infer-file参数，可以直接从推理文件开始评测，无需重新生成推理文件
[2025/03/23]
- 新增支持step-audio模型评测和排名
  - 排名详情见：leaderboard.md
  - 评测支持：Step-Audio-Chat
[2025/03/04]
- 支持断点[续评] [resume evaluation](docs/Procedures for Restarting an Incomplete Evaluation.md), 命令行参数 --resume $checkpoint_res_file
- glm-4-voice服务部署，支持UltraEval-Audio评测, 详情见GLM-4-Voice
- 并行评测支持，命令行参数 --workers $num_workers
[2025/01/13] release v1.0.0

Leaderboard

Audio Understanding Leaderboard

Audio Understanding Audio Foundation Models: Speech + Text → Text

WER ($\downarrow$) for ASR, BLEU ($\uparrow$) for AST, and ACC ($\uparrow$) for EMO. Best results are in bold.

Model	ASR Librispeech dev-clean\|dev-other test-clean\|test-other	ASR TED-LIUM	ASR CV-15 en\|zh	ASR Aishell-1	ASR FLEURS-zh	ASR Wenet -test-net	AST covost2-en2zh	AST covost2-zh2en	EMO MELD
GPT-4o-Realtime	2.30\|5.60 2.60\|5.50	4.80	27.44\|37.44	7.30	5.40	28.90	37.10	15.70	33.20
Gemini-1.5-Pro	2.60\|4.40 2.90\|4.90	3.00	8.36\|13.26	4.50	5.90	14.30	47.30	22.60	48.40
Gemini-1.5-Flash	5.90\|7.20 21.90\|16.30	6.90	208.00\|84.37	9.00	85.90	279.90	33.40	8.20	45.20
Qwen2-Audio -Instruction	2.90\|5.50 3.10\|5.70	5.90	10.68\|8.39	2.60	6.90	10.30	39.50	22.90	17.40
MiniCPM-o 2.6	1.60\|3.40 1.70\|4.40	3.00	10.30\|9.60	1.60	4.40	6.90	48.20	27.20	52.40
Qwen2.5-Omni	2.10\|4.20 2.40\|4.20	4.70	8.70\|5.20	1.10	4.60	6.00	42.50	11.50	53.60
Kimi-Audio-7B-Instruct	1.18\|2.34 1.28\|2.44	2.96	7.09\|5.72	0.60	2.53	5.55	36.61	18.30	59.23
Qwen2-Audio	1.57\|3.50 1.60\|3.88	3.43	8.67\|7.03	1.52	5.89	8.09	45.30	24.84	42.87
MiDaShengLM-7B	2.20\|4.75 2.21\|5.16	146.53	13.66\|29.13	1.23	3.28	16.56	38.52	22.68	53.96
Gemini-2.5-Flash	3.73\|6.71 3.28\|12.03	3.53	46.76\|36.15	6.40	6.45	126.07	3.67	10.61	51.53
Qwen3-Omni-30B -A3B-Instruct	1.25\|2.27 1.36\|2.57	2.82	6.00\|4.32	0.87	2.61	4.82	46.58	29.40	56.81
Gemini-2.5-Pro	5.30\|4.51 2.84\|6.74	2.52	9.42\|11.04	3.36	4.25	16.83	41.75	27.84	46.59

Audio Generation Leaderboard

Audio Understanding Audio Foundation Models: Speech → Speech Table: Audio generation performance ($\uparrow$). *Acoustic metrics (UTMOS | DNSMOS P.835 | DNSMOS P.808, scale 1--5) are evaluated on the generated audio responses from the speech tasks. Best results are in bold.

Models	Speech Web Questions	Speech TriviaQA	Speech CMMLU	SpeechHSK	Speech AlpacaEval	Acoustics*
GPT-4o-Realtime	51.60	69.70	70.05	98.69	74.00	4.29\|3.44\|4.26
GLM-4-Voice	32.00	36.40	52.61	71.06	51.00	4.21\|3.46\|4.07
MiniCPM-o 2.6	40.00	40.20	51.37	80.68	51.00	4.12\|3.39\|4.02
Qwen2.5-Omni	38.89	39.94	73.72	95.65	54.00	4.23\|3.48\|4.27
Kimi-Audio-7B-Instruct	33.69	38.20	71.25	97.42	34.40	2.94\|3.22\|3.62
Qwen3-Omni-30B-A3B-Instruct	51.50	55.27	47.83	40.27	67.97	4.44\|3.45\|4.12

Audio Codec Leaderboard

Audio Codec: Speech → Speech. Table: Audio Codec Performance: ASR-WER ($\downarrow$), ASR-CER ($\downarrow$), SIM ($\uparrow$), and Quality (UTMOS|DNSMOS P.835|DNSMOS P.808, $\uparrow$). Note: The hyphen (-) indicates that UTMOS is not applicable to Chinese speech (Aishell-1). Best results are in bold.

Models	Librispeech-dev-clean ASR-WER	Librispeech-dev-clean SIM	Librispeech-dev-clean Quality	Librispeech-test-clean ASR-WER	Librispeech-test-clean SIM	Librispeech-test-clean Quality	Aishell-1 ASR-CER	Aishell-1 SIM	Aishell-1 Quality
Encodec-24k	4.56	59.40	1.58\|3.12\|2.36	4.32	59.40	1.57\|3.12\|2.36	13.95	47.48	-\|2.93\|2.03
Encodec-48k	3.85	65.53	1.52\|2.88\|2.42	3.80	66.00	1.48\|2.87\|2.40	6.85	68.78	-\|2.79\|2.21
Chattts-DVAE	7.49	34.83	1.30\|2.66\|2.11	6.75	36.21	1.29\|2.64\|2.12	32.36	32.36	-\|2.24\|1.57
Mimi (32bit)	2.04	92.18	3.83\|2.87\|2.44	1.96	92.68	3.84\|2.92\|2.49	2.82	84.80	-\|2.43\|1.89
Mimi (8bit)	2.76	72.15	3.52\|2.78\|2.37	2.83	73.13	3.53\|2.83\|2.43	6.82	60.63	-\|2.42\|2.04
Mimi-streaming (8bit)	6.76	54.02	1.65\|2.78\|2.37	6.19	54.32	1.63\|2.83\|2.43	19.62	40.67	-\|2.42\|2.04
WavTokenizer-large-v2-75-tokens	4.31	69.97	4.01\|3.64\|3.26	4.05	68.15	4.00\|3.63\|3.27	8.97	64.27	-\|3.11\|2.85
WavTokenizer-large-40-tokens	8.13	60.26	3.78\|3.70\|3.13	7.73	56.63	3.77\|3.70\|3.16	25.52	49.21	-\|3.13\|2.50
Spark	2.39	79.94	4.18\|3.85\|3.24	2.53	79.53	4.18\|3.83\|3.24	3.66	74.76	-\|3.63\|2.85

快速上手

环境准备

git clone https://github.com/OpenBMB/UltraEval-Audio.git
cd UltraEval-Audio
conda create -n env python=3.10 -y
conda activate env
pip install -r requirements.txt

or use uv for faster installation:

uv venv env python 3.10
source env/bin/activate
uv pip install -r requirements.txt

运行示例

export PYTHONPATH=$PWD:$PYTHONPATH

# 针对部分地区可能需要加速下载 需要设置：export HF_ENDPOINT=https://hf-mirror.com
# 测试MiniCPM-o 2.6语音理解能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset sample --prompt mini-cpm-omni-asr-zh --model MiniCPMo2_6-audio

# 测试MiniCPM-o 2.6语音生成能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset llama-questions-s2t --model MiniCPMo2_6-speech

# 测试GPT-4o-Realtime语音理解能力
export OPENAI_API_KEY=$your-key
python audio_evals/main.py --dataset sample --model gpt4o_audio

# 测试GPT-4o-Realtime语音生成能力
export OPENAI_API_KEY=$your-key
python audio_evals/main.py --dataset llama-questions-s2t --model gpt4o_speech

# 测试gemini-1.5-pro语音理解能力
export GOOGLE_API_KEY=$your-key
python audio_evals/main.py --dataset sample --model gemini-pro


# 测试qwen2-audio-offline语音理解能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset sample --model qwen2-audio-chat

遇到报错或者不能复现Mini-CPM-o 2.6的结果，可以先看常见问题

res

评测完毕，结果文件如下:

- res
    |-- $model-name
        |-- $dataset
            |-- $time.jsonl
            |-- $time-overview.jsonl

Usage

评测命令:

python audio_evals/main.py --dataset <dataset_name> --model <model_name>

数据集选择

<dataset_name> 指定要评测的数据集，支持的数据集可以通过python cli/list_availabel.py查看

构造你自己的数据集: docs/how add a dataset.md

模型选择

model_name 指定要评测的模型，支持的模型可以通过python cli/list_availabel.py查看评测你自己的模型 docs/how eval your model.md

致谢

我们参考了evals 中registry代码

联系我们

如果你有任何建议或疑问可以提issue或者加入discord群组: https://discord.gg/PHGy66QP

Name		Name	Last commit message	Last commit date
Latest commit History 130 Commits
assets		assets
audio_evals		audio_evals
cli		cli
docs		docs
registry		registry
requirments		requirments
tests		tests
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
FAQ.md		FAQ.md
LICENSE		LICENSE
README.md		README.md
README_en.md		README_en.md
requirements.txt		requirements.txt
requirments-offline-model.txt		requirments-offline-model.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

中文 | English | 💬discord

目录

Overview

🚀超凡体验，尽在UltraEval-Audio🚀

更新日志🔥

Leaderboard

Audio Understanding Leaderboard

Audio Generation Leaderboard

Audio Codec Leaderboard

快速上手

环境准备

运行示例

res

Usage

数据集选择

模型选择

致谢

联系我们

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 4

Uh oh!

Languages

License

OpenBMB/UltraEval-Audio

Folders and files

Latest commit

History

Repository files navigation

中文 | English | 💬discord

目录

Overview

🚀超凡体验，尽在UltraEval-Audio🚀

更新日志🔥

Leaderboard

Audio Understanding Leaderboard

Audio Generation Leaderboard

Audio Codec Leaderboard

快速上手

环境准备

运行示例

res

Usage

数据集选择

模型选择

致谢

联系我们

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 4

Uh oh!

Languages

Packages