ElevenLabs – AI语音生成与克隆工具使用教程:从入门到精通
从选型到落地的可执行指南,适合个人与团队快速上手。
教程正文
从选型到落地的实战步骤。
前言
ElevenLabs 是当前最领先的 AI 语音生成平台之一,支持多语言、多风格的文本转语音(TTS),并提供了强大的语音克隆功能。无论你是播客创作者、视频配音师、有声书制作者,还是需要为产品生成语音的开发者,ElevenLabs 都能帮你快速生成近乎真人般的语音。本教程将带你从零开始,一步步掌握所有核心功能。

第一步:注册与登录
访问 ElevenLabs官网,点击右上角的 Sign Up。支持 Google 账号或邮箱注册。免费套餐每月提供 10,000 字符额度,足以体验基础功能。
- 填写邮箱、设置密码,或直接使用 Google 账号一键登录。
- 登录后完成邮箱验证(如果使用邮箱注册)。
- 进入 Dashboard 主界面。

第二步:熟悉工作台
主界面左侧是导航栏,包含以下几个核心区域:
- Speech Synthesis:文本转语音主操作区。
- Voice Library:官方预设音色库,包含多种性别、年龄、口音。
- VoiceLab:语音克隆入口,可上传样本生成专属音色。
- History:历史生成记录,可回放或下载。
- Settings:账户设置与 API 密钥管理。
右侧区域则是预览与编辑面板。

第三步:文本转语音基础操作
在 Speech Synthesis 页面,选择一款预设音色(例如 Rachel、Domi 等),输入文本,点击 Generate 即可生成语音。以下是详细步骤:
- 在 Voice 下拉框中选择一个声音。建议初学者先试听几个热门声音,点击声音旁的播放按钮即可试听。
- 在 Text 输入框中粘贴或输入需要转换的文字(最多 2500 字符/次,付费套餐可提升)。
- 调整 Stability 和 Similarity 滑块:
- Stability:数值越高,语音越平稳;数值低则会带有更多情绪波动。
- Similarity:控制生成音色与原始音色的相似度,对克隆声音影响较大。
- 点击 Generate,几秒后即可播放生成的音频。
- 若满意,点击右侧的 Download 按钮保存为 MP3 文件。
技巧:在文本中使用 <break time="500ms"/> 可以插入停顿,例如:“今天天气很好<break time=’1s’/>适合出门散步”。
第四步:语音克隆
ElevenLabs 提供两种克隆模式:Instant Voice Cloning(瞬时克隆)和 Professional Voice Cloning(专业克隆)。
4.1 瞬时克隆(免费用户可用)
- 点击左侧导航栏的 VoiceLab 进入语音实验室。
- 在 Instant Voice Cloning 标签下,点击 Add Voice。
- 上传一段目标声音的清晰录音(建议 1~5 分钟,无背景噪音,纯人声)。
- 命名你的声音,点击 Create。
- 稍等几秒钟,克隆完成,该声音会出现在你的音色列表中。
4.2 专业克隆(付费套餐)
需要提供更长的高质量录音(30 分钟以上),适合对音质有极高要求的商用场景。操作类似,但需通过人工审核。专业克隆的声音更自然,且支持更多语言。
重要:克隆他人声音需获得授权,ElevenLabs 严禁未经许可的克隆行为。
第五步:高级设置与效果优化
在生成面板中,除了基础的 Stability 和 Similarity,还有以下重要参数:
- Style Exaggeration:控制声音的夸张程度,适合需要强烈表现力的角色配音。
- Speaker Boost:增强说话人的辨识度,常用于多人对话场景。
- Temperature:随机性,数值越高,每次生成的语调略不同;低则更稳定。
另外,ElevenLabs 支持 SSML(语音合成标记语言)。你可以在文本中嵌入标签实现精细控制,例如:
<prosody rate="slow">这段文字念慢一点</prosody><emphasis level="strong">非常重要的部分</emphasis>
SSML 标签仅在使用“Eleven Multilingual v2”模型时生效。
第六步:导出与集成
生成后的音频可以直接下载为 MP3,也可以通过 API 集成到你的应用或工作流中。
批量导出
在 History 页面,你可以勾选多条记录,然后点击 Export Selected 一次性下载。
API 使用
ElevenLabs 提供了 RESTful API。首先在 Settings 中生成你的 API 密钥,然后使用如下示例(Python):
import requests
url = "https://api.elevenlabs.io/v1/text-to-speech/21m00Tcm4TlvDq8ikWAM"
headers = {
"Accept": "audio/mpeg",
"Content-Type": "application/json",
"xi-api-key": "你的API密钥"
}
data = {
"text": "你好,世界!",
"voice_settings": {
"stability": 0.5,
"similarity_boost": 0.8
}
}
response = requests.post(url, json=data, headers=headers)
with open("output.mp3", "wb") as f:
f.write(response.content)
更多语言的 API 文档见 官方文档。
实用技巧与常见问题
- Tip 1:英文文本可使用
[laughter]标签表示笑声,例如“That’s funny [laughter]”。 - Tip 2:为获得最自然的克隆声音,上传样本时请确保录音没有回声、杂音,且语速均衡。
- Tip 3:免费用户每次只能生成 2500 个字符,但可以通过分段生成后使用音频编辑软件拼接。
- Tip 4:善于利用 Voice Library 的筛选功能(按性别、语言、风格),快速找到合适的声音。
- 常见问题:生成的语音有机械感?尝试降低 Stability 或增加 Temperature。无法克隆声音?检查音频格式(支持 MP3、WAV,采样率 22kHz 以上)。
总结
至此,你已经掌握了 ElevenLabs 从注册到高级应用的全部技能。无论是快速生成旁白,还是克隆你自己的声音用于短视频创作,这个工具都能极大提升你的工作效率。记住:多尝试不同的参数组合,你会找到最适合的“声音配方”。现在就去生成你的第一段 AI 语音吧!
相关教程推荐
继续学习相关主题。
Cline – 开源AI编程助手,支持多模型本地部署的VS Code插件使用教程:从入门到精通
Cline是一款开源VS Code插件,支持本地部署多种AI模型,实现离线代码补全、对话生成与修复。本教程从安装、配置到进阶自定义,手把手带你掌握这个隐私友好的编程助手。
Midjourney – AI绘画生成工具,创意视觉内容创作平台使用教程:从入门到精通
从注册Discord、输入/imagine指令,到掌握参数、Remix、Pan等高级技巧,本教程带你零基础学会Midjourney,生成专业级AI画作。
DeepSeek使用教程:从入门到精通
从注册到高阶技巧,全面掌握DeepSeek的使用方法,包括文件上传、联网搜索、长文本处理等实用功能。
Qodo(科多)AI代码质量平台 – 智能代码审查与测试生成使用教程:从入门到精通
Qodo(科多)AI代码质量平台使用教程:从安装GitHub App、配置项目,到智能代码审查和自动生成单元测试,手把手带你提升代码质量。