ElevenLabs – AI语音生成与克隆工具使用教程：从入门到精通

从选型到落地的可执行指南，适合个人与团队快速上手。

教程正文

从选型到落地的实战步骤。

前言

ElevenLabs 是当前最领先的 AI 语音生成平台之一，支持多语言、多风格的文本转语音（TTS），并提供了强大的语音克隆功能。无论你是播客创作者、视频配音师、有声书制作者，还是需要为产品生成语音的开发者，ElevenLabs 都能帮你快速生成近乎真人般的语音。本教程将带你从零开始，一步步掌握所有核心功能。

第一步：注册与登录

访问 ElevenLabs官网，点击右上角的 Sign Up。支持 Google 账号或邮箱注册。免费套餐每月提供 10,000 字符额度，足以体验基础功能。

填写邮箱、设置密码，或直接使用 Google 账号一键登录。
登录后完成邮箱验证（如果使用邮箱注册）。
进入 Dashboard 主界面。

第二步：熟悉工作台

主界面左侧是导航栏，包含以下几个核心区域：

Speech Synthesis：文本转语音主操作区。
Voice Library：官方预设音色库，包含多种性别、年龄、口音。
VoiceLab：语音克隆入口，可上传样本生成专属音色。
History：历史生成记录，可回放或下载。
Settings：账户设置与 API 密钥管理。

右侧区域则是预览与编辑面板。

第三步：文本转语音基础操作

在 Speech Synthesis 页面，选择一款预设音色（例如 Rachel、Domi 等），输入文本，点击 Generate 即可生成语音。以下是详细步骤：

在 Voice 下拉框中选择一个声音。建议初学者先试听几个热门声音，点击声音旁的播放按钮即可试听。
在 Text 输入框中粘贴或输入需要转换的文字（最多 2500 字符/次，付费套餐可提升）。
调整 Stability 和 Similarity 滑块：
- Stability：数值越高，语音越平稳；数值低则会带有更多情绪波动。
- Similarity：控制生成音色与原始音色的相似度，对克隆声音影响较大。
点击 Generate，几秒后即可播放生成的音频。
若满意，点击右侧的 Download 按钮保存为 MP3 文件。

技巧：在文本中使用 <break time="500ms"/> 可以插入停顿，例如：“今天天气很好<break time=’1s’/>适合出门散步”。

第四步：语音克隆

ElevenLabs 提供两种克隆模式：Instant Voice Cloning（瞬时克隆）和 Professional Voice Cloning（专业克隆）。

4.1 瞬时克隆（免费用户可用）

点击左侧导航栏的 VoiceLab 进入语音实验室。
在 Instant Voice Cloning 标签下，点击 Add Voice。
上传一段目标声音的清晰录音（建议 1~5 分钟，无背景噪音，纯人声）。
命名你的声音，点击 Create。
稍等几秒钟，克隆完成，该声音会出现在你的音色列表中。

4.2 专业克隆（付费套餐）

需要提供更长的高质量录音（30 分钟以上），适合对音质有极高要求的商用场景。操作类似，但需通过人工审核。专业克隆的声音更自然，且支持更多语言。

重要：克隆他人声音需获得授权，ElevenLabs 严禁未经许可的克隆行为。

第五步：高级设置与效果优化

在生成面板中，除了基础的 Stability 和 Similarity，还有以下重要参数：

Style Exaggeration：控制声音的夸张程度，适合需要强烈表现力的角色配音。
Speaker Boost：增强说话人的辨识度，常用于多人对话场景。
Temperature：随机性，数值越高，每次生成的语调略不同；低则更稳定。

另外，ElevenLabs 支持 SSML（语音合成标记语言）。你可以在文本中嵌入标签实现精细控制，例如：

<prosody rate="slow">这段文字念慢一点</prosody>
<emphasis level="strong">非常重要的部分</emphasis>

SSML 标签仅在使用“Eleven Multilingual v2”模型时生效。

第六步：导出与集成

生成后的音频可以直接下载为 MP3，也可以通过 API 集成到你的应用或工作流中。

批量导出

在 History 页面，你可以勾选多条记录，然后点击 Export Selected 一次性下载。

API 使用

ElevenLabs 提供了 RESTful API。首先在 Settings 中生成你的 API 密钥，然后使用如下示例（Python）：

import requests

url = "https://api.elevenlabs.io/v1/text-to-speech/21m00Tcm4TlvDq8ikWAM"
headers = {
    "Accept": "audio/mpeg",
    "Content-Type": "application/json",
    "xi-api-key": "你的API密钥"
}
data = {
    "text": "你好，世界！",
    "voice_settings": {
        "stability": 0.5,
        "similarity_boost": 0.8
    }
}
response = requests.post(url, json=data, headers=headers)
with open("output.mp3", "wb") as f:
    f.write(response.content)

更多语言的 API 文档见官方文档。

实用技巧与常见问题

Tip 1：英文文本可使用 [laughter] 标签表示笑声，例如“That’s funny [laughter]”。
Tip 2：为获得最自然的克隆声音，上传样本时请确保录音没有回声、杂音，且语速均衡。
Tip 3：免费用户每次只能生成 2500 个字符，但可以通过分段生成后使用音频编辑软件拼接。
Tip 4：善于利用 Voice Library 的筛选功能（按性别、语言、风格），快速找到合适的声音。
常见问题：生成的语音有机械感？尝试降低 Stability 或增加 Temperature。无法克隆声音？检查音频格式（支持 MP3、WAV，采样率 22kHz 以上）。

总结

至此，你已经掌握了 ElevenLabs 从注册到高级应用的全部技能。无论是快速生成旁白，还是克隆你自己的声音用于短视频创作，这个工具都能极大提升你的工作效率。记住：多尝试不同的参数组合，你会找到最适合的“声音配方”。现在就去生成你的第一段 AI 语音吧！