百度语音合成在python中的使用

今天来说一下在python中如何使用百度的语音合成功能；即输入一段文字，请求百度相关服务器后，会返回来一段二进制语音流，将这段二进制数据经过base64编码返回给前端，前端解码后，可以播放出这段语音；也可以将这段二进制语音流保存到一个wav文件中。

使用百度的语音合成，首先需要在百度的ai开放平台上注册。

具体代码如下:

import asyncio
from aiohttp import ClientSession

def get_baidu_voice(text, baidu_voice_token):
    content_audio = {
        'tex': text,
        'tok': baidu_voice_token,
        'cuid': 'default',
        'ctp': '1',
        'lan': 'zh',
        'per': '4',

    }
    
    speech_url = 'https://tsn.baidu.com/text2audio?'
    headers = {
        # 'Content-Type': 'audio/mp3'
        'Content-Type': 'application/json'
    }
    async with ClientSession() as session:
        async with session.post(url=speech_url, data=content_audio,
                                headers=headers) as res:
            ret = await res.content.read()
            try:
                # 将bytes类型转换为str类型
                ret_str = str(ret, encoding="utf-8")
            except Exception as e:
                # 正常返回
                self.speech = base64.b64encode(ret)
            else:
                # 异常返回
                ret_dict = json.loads(ret_str)
                if ret_dict["err_no"] == 502:
                    raise RuntimeError("access token expired, please check")
                elif ret_dict["err_no"] == 501:
                    raise RuntimeError("the input arguments is incorrect, please check")
                elif ret_dict["err_no"] == 503:
                    raise RuntimeError("合成后端出错")
                elif ret_dict["err_no"] == 500:
                    raise RuntimeError("unsupport input")

需要传入两个参数，分别是：需要转换成语音的文本和百度的语音token。

百度语音token的获取方式如下:

def get_baidu_voice_token():
    # client_id 为官网获取的AK， client_secret 为官网获取的SK
    host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id='+ client_id + '&client_secret=' + client_secret
    request = urllib.request.Request(host)
    request.add_header('Content-Type', 'application/json; charset=UTF-8')
    response = urllib.request.urlopen(request)
    content_bytes = response.read()
    content_dict = json.loads(str(content_bytes, encoding="utf-8"))
    if content_dict:
        # 28天过期
        return content_dict["access_token"]

注意，token是有有效期的，需要定时获取新的token。

以上就是百度语音合成的调用，如有错误，欢迎交流指正！

百度语音合成在python中的使用

jibkfv

相关推荐

新研究起底人类和机器注意力机制的区别｜一周AI最火论文

百度大脑5.0发布，宣布与华为重要合作，全新AI芯片「鸿鹄」面世

「微信同声传译」小程序插件：快速实现语音转文字、文本翻译、语音合成等能力

基于深度前馈序列记忆网络，如何将语音合成速度提升四倍？

在Python中使用科大讯飞Web API进行语音合成

极大提升合成速度，百度提出首个全并行语音合成模型ParaNet

语音合成首个完全端到端模型，百度并行音频波形生成模型ClariNet

基于深度前馈序列记忆网络，如何将语音合成速度提升四倍？

阿里巴巴语音交互智能团队：基于线性网络的语音合成说话人自适应

智能语音交互：阿里的研究和实践

语音合成到了跳变点？深度神经网络变革TTS最新研究汇总

谷歌全端到端语音合成系统Tacotron：直接从字符合成语音

人工智能已经掌握人类语言了吗？外表有时会骗人

无需蝴蝶结变声器也能一秒变柯南——语音合成+深度学习

为了合成让人类听懂的语音，机器做了哪些“深度学习”？

从技术到产品，苹果Siri深度学习语音合成技术揭秘

用于语音合成的深度前馈序列记忆网络

讯飞语音JavaWeb语音合成解决方案

XML在语音合成中的应用