常见问题 - 讯飞智作官网

什么是讯飞智作？

讯飞智作是科大讯飞推出的一站式AI语音合成与内容创作平台。用户可以通过在线界面或API接口，使用海量高品质虚拟主播音色、多语种配音、情感化定制等功能，快速生成广播级音频内容。平台基于讯飞最新的语音合成技术（如多风格韵律建模、情感迁移），支持文本到自然语音的实时转换，广泛用于媒体、教育、营销、有声读物等场景。

讯飞智作支持哪些语言和方言？

平台支持普通话、英语、日语、韩语、法语、德语、西班牙语、阿拉伯语等20余种主流语言。中文方面除了标准普通话，还包含粤语、四川话、东北话、台湾国语等多款方言音色。每种语言均提供男声、女声、童声等不同风格选择，部分语言还支持情感变化和语速调节。

平台有多少种音色？如何分类？

讯飞智作目前累计提供超过800个音色（含基础、精品、情感、多语种等类别）。按使用场景分为主播音色（新闻、营销、纪录片）、角色音色（游戏、动画、广播剧）、AI歌手（唱歌功能）以及定制音色。每个音色都有详细的标签，如“温暖男声”“甜美女生”“浑厚播音”等，方便快速筛选。

如何开始使用讯飞智作？是否需要下载软件？

完全无需下载任何软件。访问官网 peiyin.xunfei.cn 注册账号后，即可在网页端直接使用。支持 Chrome、Edge、Safari 等主流浏览器。平台也提供移动端H5界面，适配手机和平板操作。如果是企业用户，还可申请私有化部署或API集成。

讯飞智作的收费模式是怎样的？有免费额度吗？

平台采用“基础免费+按量付费+订阅会员”混合模式。新用户注册后赠送一定量的免费合成时长（通常为2000字符或10分钟试用）。超出后可以选择按次充值（1元/1000字符起）或购买包月/包年会员套餐（含更多精品音色和商用授权）。教育、公益等特定用途可申请免费配额。

合成出来的音频能商用吗？版权归属如何？

使用付费会员或按量充值的账号生成的音频，可在商业项目中使用（包括广告、影视、有声书、视频发布等），版权归用户所有。但需注意：不得对音色进行逆向工程、二次转售或用于侵犯他人权益的内容。具体条款在用户协议中有详细说明，免费试用的音频一般仅限个人测试，商用需升级付费。

支持长文本或书籍级合成吗？有没有字数限制？

支持，网页端单次合成上限为10万字（约1小时音频长度）。如果超过10万字，可以分多次操作或通过API接口进行长文本分段合成。平台还提供“批量合成”功能，可一次性上传多个文本文件，自动排队输出。对于超长有声书项目，建议使用“长文本模式”以获得更稳定的韵律和停顿效果。

能否导入自定义词典或控制特定词语的读音？

可以。讯飞智作提供“多音字矫正”和“SSML标签”功能。用户可在文本中标记读音、停顿、重音、语速变化等。此外，平台内置专业词典（如人名地名、科技词汇），若遇到特殊专有名词，可在合成前通过“自定义词典”功能添加读音规则（拼音或多语种注音）。

合成声音的情感效果能做到什么程度？

讯飞智作的情感能力分为基础情感（高兴、悲伤、愤怒、平静等）和高级情感（如“温柔鼓励”“严肃警告”“欢快促销”）。用户可以在合成界面直接选择预设的情感风格，或通过调节“热情度”“语气强度”等参数微调。部分精品音色甚至支持“渐变情感”，适合有声书情节递进。

支持实时语音合成（流式输出）吗？延迟如何？

支持。通过API接口可以实现流式合成，首字延迟通常在500-800毫秒（视网络和文本长度而定），适合直播、语音助手、实时配音等场景。网页端也支持“边输入边试听”的实时预览功能，但完整导出时仍为一次性合成以保证音质。

如何保证生成音频的质量和自然度？

平台采用讯飞自研的“DFSMN+WaveNet”混合架构，结合韵律预测和跨语言发音模型。所有音色均由专业播音员录制后训练，并经过多轮人工听评校准。用户还可以在合成后使用“增强引擎”提升清晰度和饱满度。针对不同平台（如广播级、短视频、室内播报）有对应的音质优化选项。

除了文字转语音，讯飞智作还能做什么？

平台集成了多种内容生产工具：文字转字幕（自动生成SRT/ASS）、音乐合成（AI作曲搭配朗诵）、视频配音（上传视频后合成同步口型）、多角色对话剧本（多人配音一键生成）。此外还提供“样音试听”和“声音克隆”定制服务（需提交少量录音样本，由人工审核后生成专属音色）。

移动端和网页端功能完全一样吗？有App吗？

功能基本一致，但移动端网页对触屏操作做了优化，可快速试听、下载和分享。目前讯飞智作没有独立的原生App，但用户可将网页端添加到手机桌面（PWA应用），使用体验接近App。如果需要大批量生产，仍建议使用电脑端以获得更好的编辑体验。

导出音频支持哪些格式？能直接用于视频编辑吗？

支持导出MP3（320kbps）、WAV（16bit 44.1kHz）、AAC、OGG等常见格式。每个音频文件均可独立下载，也支持批量导出zip压缩包。输出音频直接兼容PR、剪映、Premiere、Final Cut等主流视频编辑软件，无需二次转码。

如何解决合成后个别字词发音不准的问题？

一是使用SSML标签标注正确读音（如你好）。二是利用平台“发音纠正”功能：在文本框中选中错误音节，点击“自定义发音”输入拼音或国际音标。三是联系在线客服提交音库优化需求，官方会定期更新词典数据。若问题频繁出现，建议更换为该语言下的“精品音色”系列，准确性更高。

讯飞智作与同类产品（如百度TTS、阿里云语音合成）相比有什么优势？

核心优势在于音色数量多（800+）、情感细腻程度高（渐变情感）、多语言方言覆盖范围广，以及内置了原创有声书、视频配音等创作工具。同时讯飞深耕语音技术20余年，在中文发音的韵律、音调连贯性上表现更自然。价格方面，同等字符量的付费方案也更具性价比，尤其是包月会员不限音色使用次数。

可以把自己的声音克隆成专属音色吗？需要什么条件？

可以。用户可通过“音色定制”服务，提供1小时以上的清晰、无噪声朗读录音（建议在安静室内使用专业麦克风录制），提交后由讯飞工程师进行模型训练，约3-7个工作日交付专属音色。费用根据音色用途（个人/商用）和制作难度而定，通常在数千元起。定制后的音色可在讯飞智作平台永久使用，并支持跨语言合成（如用你的声音说英语）。

平台支持多人协作或团队管理吗？

针对企业版用户，讯飞智作提供团队管理后台：可创建子账号、分配合成额度、统一管理音频素材库、设置资源使用权限。所有操作记录均有日志，方便审计。个人版用户暂不支持多账号协作，但可通过分享音频链接或导出文件实现基本协作。

如果遇到技术问题或需要接入API，有技术文档吗？

官网“开发者”板块提供详细的API接口文档（RESTful/WebSocket），包含Python、Java、Node.js等多语言SDK示例。技术支持渠道包括在线客服（工作时段）、工单系统、技术交流社区。企业级用户可申请专属项目经理进行对接，协助完成集成测试。