Volcengine Voice Clone Lab

Seed TTS 声音复刻工作台

上传样本音频训练专属音色,再输入文本、语速、语气提示词进行复刻合成。密钥只在 Nuxt 服务端读取,前端只负责创作流。

Current pipeline

Nuxt API -> evlog wide event -> Volcengine OpenSpeech

支持 `seed-icl-2.0` 复刻音色和 TTS V3 单向流式合成,后续可以继续扩展 WebSocket 实时播报。

Step 01

上传样本,训练复刻音色

新版 V3 训练接口一次注册后可在多款语音模型中使用。Speaker ID 需要来自同一火山项目下的声音复刻音色资源。

从火山控制台或音色下单流程获取,需和 API Key 同项目同资源
可选

Audio sample

选择 wav / mp3 / m4a 等音频文件,单文件不超过 10MB

接口支持 wav、mp3、ogg、m4a、aac、pcm;pcm 需 24k 单声道。

可选,用于 WER 对齐
可选

Clone status

音色训练状态

Speaker ID

尚未提交

复刻上传idle

Output

合成音频

这里会出现合成后的播放器和下载入口。小小录音棚,等待开麦。