Skip to content

OpenBMB/UltraEval-Audio

Repository files navigation

assets/logo.png

中文 | English | 💬discord

目录

Overview

🚀超凡体验,尽在UltraEval-Audio🚀

UltraEval-Audio——全球首个同时支持语音理解和语音生成评估的开源框架,专为语音大模型评估打造,集合了34项权威Benchmark,覆盖语音、声音、医疗及音乐四大领域,支持十种语言,涵盖十二类任务。选择UltraEval-Audio,您将体验到前所未有的便捷与高效:

  • 一键式基准管理 📥:告别繁琐的手动下载与数据处理,UltraEval-Audio为您自动化完成这一切,轻松获取所需基准测试数据。
  • 内置评估利器 ⚙️:无需再四处搜寻评估工具,UltraEval-Audio内置八种常用的评估方法(如WER、WER-ZH、BLEU、G-Eval),无论是基于规则还是模型驱动,都能满足您的需求。
  • 功能强大,灵活易用 🛠️:支持预览测试、随机样本、错误重试、断点重跑等功能,确保评估过程灵活可控,提升效率与准确性。
  • 无缝集成自定义数据集 💼:不仅支持公开benchmark,还提供强大的自定义数据集功能,让您在各种工程场景下也能迅速应用。
  • 轻松对接现有系统 🔗:具备优秀的扩展性和标准化设计,即使您已拥有一套完善的评估体系,UltraEval-Audio也能无缝对接,简化项目管理流程,输出结果统一规范。

UEA_Architecture

更新日志🔥

  • [2025/10/30]
    • 支持VoxCPM TTS模型: --model voxcpm-tts --model voxcpm-vc
    • 使用uv加速模型安装依赖🚀
  • [2025/10/17]
  • [2025/05/22]
  • [2025/05/12]
    • 支持Qwen2.5-Omniqwen2.5-omni-audio, qwen2.5-omni-speech, Kimi-Audio-7B-Instructkimiaudio, kimiaudio-speech模型,并且更新音频理解榜单
  • [2025/05/8]
    • 更加快捷断点续评, -r/--resume参数,不指定文件可以自动搜索最近一次的断点续评结果
    • 支持从推理文件开始评测, --infer-file参数,可以直接从推理文件开始评测,无需重新生成推理文件
  • [2025/03/23]
  • [2025/03/04]
    • 支持断点[续评] [resume evaluation](docs/Procedures for Restarting an Incomplete Evaluation.md), 命令行参数 --resume $checkpoint_res_file
    • glm-4-voice服务部署,支持UltraEval-Audio评测, 详情见GLM-4-Voice
    • 并行评测支持,命令行参数 --workers $num_workers
  • [2025/01/13] release v1.0.0

Leaderboard

Audio Understanding Leaderboard

Audio Understanding Audio Foundation Models: Speech + Text → Text

WER ($\downarrow$) for ASR, BLEU ($\uparrow$) for AST, and ACC ($\uparrow$) for EMO. Best results are in bold.

Model ASR
Librispeech
dev-clean|dev-other
test-clean|test-other
ASR
TED-LIUM
ASR
CV-15
en|zh
ASR
Aishell-1
ASR
FLEURS-zh
ASR
Wenet
-test-net
AST
covost2-en2zh
AST
covost2-zh2en
EMO
MELD
GPT-4o-Realtime 2.30|5.60
2.60|5.50
4.80 27.44|37.44 7.30 5.40 28.90 37.10 15.70 33.20
Gemini-1.5-Pro 2.60|4.40
2.90|4.90
3.00 8.36|13.26 4.50 5.90 14.30 47.30 22.60 48.40
Gemini-1.5-Flash 5.90|7.20
21.90|16.30
6.90 208.00|84.37 9.00 85.90 279.90 33.40 8.20 45.20
Qwen2-Audio
-Instruction
2.90|5.50
3.10|5.70
5.90 10.68|8.39 2.60 6.90 10.30 39.50 22.90 17.40
MiniCPM-o 2.6 1.60|3.40
1.70|4.40
3.00 10.30|9.60 1.60 4.40 6.90 48.20 27.20 52.40
Qwen2.5-Omni 2.10|4.20
2.40|4.20
4.70 8.70|5.20 1.10 4.60 6.00 42.50 11.50 53.60
Kimi-Audio-7B-Instruct 1.18|2.34
1.28|2.44
2.96 7.09|5.72 0.60 2.53 5.55 36.61 18.30 59.23
Qwen2-Audio 1.57|3.50
1.60|3.88
3.43 8.67|7.03 1.52 5.89 8.09 45.30 24.84 42.87
MiDaShengLM-7B 2.20|4.75
2.21|5.16
146.53 13.66|29.13 1.23 3.28 16.56 38.52 22.68 53.96
Gemini-2.5-Flash 3.73|6.71
3.28|12.03
3.53 46.76|36.15 6.40 6.45 126.07 3.67 10.61 51.53
Qwen3-Omni-30B
-A3B-Instruct
1.25|2.27
1.36|2.57
2.82 6.00|4.32 0.87 2.61 4.82 46.58 29.40 56.81
Gemini-2.5-Pro 5.30|4.51
2.84|6.74
2.52 9.42|11.04 3.36 4.25 16.83 41.75 27.84 46.59

Audio Generation Leaderboard

Audio Understanding Audio Foundation Models: Speech → Speech Table: Audio generation performance ($\uparrow$). *Acoustic metrics (UTMOS | DNSMOS P.835 | DNSMOS P.808, scale 1--5) are evaluated on the generated audio responses from the speech tasks. Best results are in bold.

Models Speech
Web Questions
Speech
TriviaQA
Speech
CMMLU
SpeechHSK Speech AlpacaEval Acoustics*
GPT-4o-Realtime 51.60 69.70 70.05 98.69 74.00 4.29|3.44|4.26
GLM-4-Voice 32.00 36.40 52.61 71.06 51.00 4.21|3.46|4.07
MiniCPM-o 2.6 40.00 40.20 51.37 80.68 51.00 4.12|3.39|4.02
Qwen2.5-Omni 38.89 39.94 73.72 95.65 54.00 4.23|3.48|4.27
Kimi-Audio-7B-Instruct 33.69 38.20 71.25 97.42 34.40 2.94|3.22|3.62
Qwen3-Omni-30B-A3B-Instruct 51.50 55.27 47.83 40.27 67.97 4.44|3.45|4.12

Audio Codec Leaderboard

Audio Codec: Speech → Speech. Table: Audio Codec Performance: ASR-WER ($\downarrow$), ASR-CER ($\downarrow$), SIM ($\uparrow$), and Quality (UTMOS|DNSMOS P.835|DNSMOS P.808, $\uparrow$). Note: The hyphen (-) indicates that UTMOS is not applicable to Chinese speech (Aishell-1). Best results are in bold.

Models Librispeech-dev-clean
ASR-WER
Librispeech-dev-clean
SIM
Librispeech-dev-clean
Quality
Librispeech-test-clean
ASR-WER
Librispeech-test-clean
SIM
Librispeech-test-clean
Quality
Aishell-1
ASR-CER
Aishell-1
SIM
Aishell-1
Quality
Encodec-24k 4.56 59.40 1.58|3.12|2.36 4.32 59.40 1.57|3.12|2.36 13.95 47.48 -|2.93|2.03
Encodec-48k 3.85 65.53 1.52|2.88|2.42 3.80 66.00 1.48|2.87|2.40 6.85 68.78 -|2.79|2.21
Chattts-DVAE 7.49 34.83 1.30|2.66|2.11 6.75 36.21 1.29|2.64|2.12 32.36 32.36 -|2.24|1.57
Mimi (32bit) 2.04 92.18 3.83|2.87|2.44 1.96 92.68 3.84|2.92|2.49 2.82 84.80 -|2.43|1.89
Mimi (8bit) 2.76 72.15 3.52|2.78|2.37 2.83 73.13 3.53|2.83|2.43 6.82 60.63 -|2.42|2.04
Mimi-streaming (8bit) 6.76 54.02 1.65|2.78|2.37 6.19 54.32 1.63|2.83|2.43 19.62 40.67 -|2.42|2.04
WavTokenizer-large-v2-75-tokens 4.31 69.97 4.01|3.64|3.26 4.05 68.15 4.00|3.63|3.27 8.97 64.27 -|3.11|2.85
WavTokenizer-large-40-tokens 8.13 60.26 3.78|3.70|3.13 7.73 56.63 3.77|3.70|3.16 25.52 49.21 -|3.13|2.50
Spark 2.39 79.94 4.18|3.85|3.24 2.53 79.53 4.18|3.83|3.24 3.66 74.76 -|3.63|2.85

快速上手

环境准备

git clone https://github.com/OpenBMB/UltraEval-Audio.git
cd UltraEval-Audio
conda create -n env python=3.10 -y
conda activate env
pip install -r requirements.txt

or use uv for faster installation:

uv venv env python 3.10
source env/bin/activate
uv pip install -r requirements.txt

运行示例

export PYTHONPATH=$PWD:$PYTHONPATH

# 针对部分地区可能需要加速下载 需要设置:export HF_ENDPOINT=https://hf-mirror.com
# 测试MiniCPM-o 2.6语音理解能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset sample --prompt mini-cpm-omni-asr-zh --model MiniCPMo2_6-audio

# 测试MiniCPM-o 2.6语音生成能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset llama-questions-s2t --model MiniCPMo2_6-speech

# 测试GPT-4o-Realtime语音理解能力
export OPENAI_API_KEY=$your-key
python audio_evals/main.py --dataset sample --model gpt4o_audio

# 测试GPT-4o-Realtime语音生成能力
export OPENAI_API_KEY=$your-key
python audio_evals/main.py --dataset llama-questions-s2t --model gpt4o_speech

# 测试gemini-1.5-pro语音理解能力
export GOOGLE_API_KEY=$your-key
python audio_evals/main.py --dataset sample --model gemini-pro


# 测试qwen2-audio-offline语音理解能力
CUDA_VISIBLE_DEVICES=0 python audio_evals/main.py --dataset sample --model qwen2-audio-chat

遇到报错或者不能复现Mini-CPM-o 2.6的结果,可以先看常见问题

res

评测完毕,结果文件如下:

- res
    |-- $model-name
        |-- $dataset
            |-- $time.jsonl
            |-- $time-overview.jsonl

Usage

assets/img_1.png

评测命令:

python audio_evals/main.py --dataset <dataset_name> --model <model_name>

数据集选择

<dataset_name> 指定要评测的数据集,支持的数据集可以通过python cli/list_availabel.py查看

构造你自己的数据集: docs/how add a dataset.md

模型选择

model_name 指定要评测的模型,支持的模型可以通过python cli/list_availabel.py查看 评测你自己的模型 docs/how eval your model.md

致谢

我们参考了evalsregistry代码

联系我们

如果你有任何建议或疑问可以提issue或者加入discord群组: https://discord.gg/PHGy66QP

About

An easy-to-use, fast, and easily integrable tool for evaluating audio LLM

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •  

Languages