作者你好,如果不用音色克隆每次推理出来的音色都是不一样的,效果确实很好,有没有固定的音色模型。用参考音频进行音色克隆出现很多问题,1、对参考音频的音质很严格。不然会出现吞字和出现莫名奇妙的声音。2、参考音频不变,有时候推理出来的音频效果很好,再次推理可能效果就不行了,会出现语音变长的现象,开头会出现莫名奇怪的声音,有时候还会跟文本内容完全不一致。