语音识别/合成技术哪家强?
正在利用春节假期开发一个更轻量灵活的开源语音聊天机器人 wukong-robot,接入了BAT+科大讯飞的ASR和TTS技术,说说我的感受:
- ASR方面:百度、阿里、科大讯飞主要支持pcm、wav两种格式的上传,而腾讯云则支持mp3和wav,腾讯云还支持选择服务区域,所以不论是接入点还是文件体积,都是最有优势的,速度也最快。另外腾讯云还提供了免费的流式识别,支持silk格式;
- TTS方面:百度、阿里和科大讯飞都支持返回 mp3。腾讯云语音最搓,只支持返回 wav 。建议后面支持 silk 。
- 接入成本方面,百度封装了一个AiSpeech类,无需自己处理参数和POST请求,最为方便。阿里和科大讯飞提供了详实的文档和代码示例,也比较友好。最搓的是腾讯云,文档实在是无力吐槽。
- 免费版本友好度方面,BAT都没有太过苛刻的限制,而科大讯飞要添加ip白名单才能调用,这对没有固定公网ip的普通家庭用户而言几乎是没法用。