语音识别/合成技术哪家强？正在利用春节假期开发一个更轻量灵活的开源语音聊天机器人 [wukong-robot](https://github.com/wzpan/wukong-robot)，接入了BAT+科大讯飞的ASR和TTS技术，说说我的感受： 1. ASR方面：百度、阿里、科大讯飞主要支持pcm、wav两种格式的上传，而腾讯云则支持mp3和wav，腾讯云还支持选择服务区域，所以不论是接入点还是文件体积，都是最有优势的，速度也最快。另外腾讯云还提供了免费的流式识别，支持silk格式； 2. TTS方面：百度、阿里和科大讯飞都支持返回 mp3。腾讯云语音最搓，只支持返回 wav 。建议后面支持 silk 。 3. 接入成本方面，百度封装了一个AiSpeech类，无需自己处理参数和POST请求，最为方便。阿里和科大讯飞提供了详实的文档和代码示例，也比较友好。最搓的是腾讯云，文档实在是无力吐槽。 4. 免费版本友好度方面，BAT都没有太过苛刻的限制，而科大讯飞要添加ip白名单才能调用，这对没有固定公网ip的普通家庭用户而言几乎是没法用。

@"wzpan"#p1420 感觉很多时候要处理的都是日常的指令，应该不会复杂?

语音识别/合成技术哪家强？

语音识别/合成技术哪家强？

正在利用春节假期开发一个更轻量灵活的开源语音聊天机器人 wukong-robot，接入了BAT+科大讯飞的ASR和TTS技术，说说我的感受：

ASR方面：百度、阿里、科大讯飞主要支持pcm、wav两种格式的上传，而腾讯云则支持mp3和wav，腾讯云还支持选择服务区域，所以不论是接入点还是文件体积，都是最有优势的，速度也最快。另外腾讯云还提供了免费的流式识别，支持silk格式；
TTS方面：百度、阿里和科大讯飞都支持返回 mp3。腾讯云语音最搓，只支持返回 wav 。建议后面支持 silk 。
接入成本方面，百度封装了一个AiSpeech类，无需自己处理参数和POST请求，最为方便。阿里和科大讯飞提供了详实的文档和代码示例，也比较友好。最搓的是腾讯云，文档实在是无力吐槽。
免费版本友好度方面，BAT都没有太过苛刻的限制，而科大讯飞要添加ip白名单才能调用，这对没有固定公网ip的普通家庭用户而言几乎是没法用。

除了接入体验方面，识别的准确率如何呢

0x0001 其实准确率反而是见仁见智的东西，因为谁家都会标榜自己的最准确。一种提高准确度的方案就是导入更多自己的专业词汇，这样的话识别到这些词的权重就更高。

wzpan 感觉很多时候要处理的都是日常的指令，应该不会复杂?