什么是讯飞智作?
讯飞智作是科大讯飞推出的一站式AI语音合成与内容创作平台。用户可以通过在线界面或API接口,使用海量高品质虚拟主播音色、多语种配音、情感化定制等功能,快速生成广播级音频内容。平台基于讯飞最新的语音合成技术(如多风格韵律建模、情感迁移),支持文本到自然语音的实时转换,广泛用于媒体、教育、营销、有声读物等场景。
讯飞智作支持哪些语言和方言?
平台支持普通话、英语、日语、韩语、法语、德语、西班牙语、阿拉伯语等20余种主流语言。中文方面除了标准普通话,还包含粤语、四川话、东北话、台湾国语等多款方言音色。每种语言均提供男声、女声、童声等不同风格选择,部分语言还支持情感变化和语速调节。
平台有多少种音色?如何分类?
讯飞智作目前累计提供超过800个音色(含基础、精品、情感、多语种等类别)。按使用场景分为主播音色(新闻、营销、纪录片)、角色音色(游戏、动画、广播剧)、AI歌手(唱歌功能)以及定制音色。每个音色都有详细的标签,如“温暖男声”“甜美女生”“浑厚播音”等,方便快速筛选。
如何开始使用讯飞智作?是否需要下载软件?
完全无需下载任何软件。访问官网 peiyin.xunfei.cn 注册账号后,即可在网页端直接使用。支持 Chrome、Edge、Safari 等主流浏览器。平台也提供移动端H5界面,适配手机和平板操作。如果是企业用户,还可申请私有化部署或API集成。
讯飞智作的收费模式是怎样的?有免费额度吗?
平台采用“基础免费+按量付费+订阅会员”混合模式。新用户注册后赠送一定量的免费合成时长(通常为2000字符或10分钟试用)。超出后可以选择按次充值(1元/1000字符起)或购买包月/包年会员套餐(含更多精品音色和商用授权)。教育、公益等特定用途可申请免费配额。
合成出来的音频能商用吗?版权归属如何?
使用付费会员或按量充值的账号生成的音频,可在商业项目中使用(包括广告、影视、有声书、视频发布等),版权归用户所有。但需注意:不得对音色进行逆向工程、二次转售或用于侵犯他人权益的内容。具体条款在用户协议中有详细说明,免费试用的音频一般仅限个人测试,商用需升级付费。
支持长文本或书籍级合成吗?有没有字数限制?
支持,网页端单次合成上限为10万字(约1小时音频长度)。如果超过10万字,可以分多次操作或通过API接口进行长文本分段合成。平台还提供“批量合成”功能,可一次性上传多个文本文件,自动排队输出。对于超长有声书项目,建议使用“长文本模式”以获得更稳定的韵律和停顿效果。
能否导入自定义词典或控制特定词语的读音?
可以。讯飞智作提供“多音字矫正”和“SSML标签”功能。用户可在文本中标记读音、停顿、重音、语速变化等。此外,平台内置专业词典(如人名地名、科技词汇),若遇到特殊专有名词,可在合成前通过“自定义词典”功能添加读音规则(拼音或多语种注音)。
合成声音的情感效果能做到什么程度?
讯飞智作的情感能力分为基础情感(高兴、悲伤、愤怒、平静等)和高级情感(如“温柔鼓励”“严肃警告”“欢快促销”)。用户可以在合成界面直接选择预设的情感风格,或通过调节“热情度”“语气强度”等参数微调。部分精品音色甚至支持“渐变情感”,适合有声书情节递进。
支持实时语音合成(流式输出)吗?延迟如何?
支持。通过API接口可以实现流式合成,首字延迟通常在500-800毫秒(视网络和文本长度而定),适合直播、语音助手、实时配音等场景。网页端也支持“边输入边试听”的实时预览功能,但完整导出时仍为一次性合成以保证音质。
如何保证生成音频的质量和自然度?
平台采用讯飞自研的“DFSMN+WaveNet”混合架构,结合韵律预测和跨语言发音模型。所有音色均由专业播音员录制后训练,并经过多轮人工听评校准。用户还可以在合成后使用“增强引擎”提升清晰度和饱满度。针对不同平台(如广播级、短视频、室内播报)有对应的音质优化选项。
除了文字转语音,讯飞智作还能做什么?
平台集成了多种内容生产工具:文字转字幕(自动生成SRT/ASS)、音乐合成(AI作曲搭配朗诵)、视频配音(上传视频后合成同步口型)、多角色对话剧本(多人配音一键生成)。此外还提供“样音试听”和“声音克隆”定制服务(需提交少量录音样本,由人工审核后生成专属音色)。
移动端和网页端功能完全一样吗?有App吗?
功能基本一致,但移动端网页对触屏操作做了优化,可快速试听、下载和分享。目前讯飞智作没有独立的原生App,但用户可将网页端添加到手机桌面(PWA应用),使用体验接近App。如果需要大批量生产,仍建议使用电脑端以获得更好的编辑体验。
导出音频支持哪些格式?能直接用于视频编辑吗?
支持导出MP3(320kbps)、WAV(16bit 44.1kHz)、AAC、OGG等常见格式。每个音频文件均可独立下载,也支持批量导出zip压缩包。输出音频直接兼容PR、剪映、Premiere、Final Cut等主流视频编辑软件,无需二次转码。
如何解决合成后个别字词发音不准的问题?
一是使用SSML标签标注正确读音(如
讯飞智作与同类产品(如百度TTS、阿里云语音合成)相比有什么优势?
核心优势在于音色数量多(800+)、情感细腻程度高(渐变情感)、多语言方言覆盖范围广,以及内置了原创有声书、视频配音等创作工具。同时讯飞深耕语音技术20余年,在中文发音的韵律、音调连贯性上表现更自然。价格方面,同等字符量的付费方案也更具性价比,尤其是包月会员不限音色使用次数。
可以把自己的声音克隆成专属音色吗?需要什么条件?
可以。用户可通过“音色定制”服务,提供1小时以上的清晰、无噪声朗读录音(建议在安静室内使用专业麦克风录制),提交后由讯飞工程师进行模型训练,约3-7个工作日交付专属音色。费用根据音色用途(个人/商用)和制作难度而定,通常在数千元起。定制后的音色可在讯飞智作平台永久使用,并支持跨语言合成(如用你的声音说英语)。
平台支持多人协作或团队管理吗?
针对企业版用户,讯飞智作提供团队管理后台:可创建子账号、分配合成额度、统一管理音频素材库、设置资源使用权限。所有操作记录均有日志,方便审计。个人版用户暂不支持多账号协作,但可通过分享音频链接或导出文件实现基本协作。
如果遇到技术问题或需要接入API,有技术文档吗?
官网“开发者”板块提供详细的API接口文档(RESTful/WebSocket),包含Python、Java、Node.js等多语言SDK示例。技术支持渠道包括在线客服(工作时段)、工单系统、技术交流社区。企业级用户可申请专属项目经理进行对接,协助完成集成测试。