您好,欢迎来到九壹网。
搜索
您的当前位置:首页一种用于语音合成的语音片段拼接系统和方法[发明专利]

一种用于语音合成的语音片段拼接系统和方法[发明专利]

来源:九壹网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号(10)申请公布号 CN 104517605 A (43)申请公布日(43)申请公布日 2015.04.15

(21)申请号 201410734257.X(22)申请日 2014.12.04

(71)申请人北京云知声信息技术有限公司

地址100191 北京市海淀区花园路2号牡丹

科技楼A座5层(72)发明人松

(74)专利代理机构北京轻创知识产权代理有限

公司 11212

代理人杨立(51)Int.Cl.

G10L 13/033(2013.01)

权利要求书2页 说明书6页 附图2页

(54)发明名称

一种用于语音合成的语音片段拼接系统和方法(57)摘要

本发明涉及一种用于语音合成的语音片段拼接系统和方法,首先,从语音库中提取待拼接的两个语音片段作为第一语音片段和第二语音片段,并从第一语音片段和第二语音片段中选择出最佳采样点;然后,对最佳采样点进行一阶平滑,生成语音拼接点;一阶平滑方法为:计算最佳采样点U1、U2处的斜率ka、kb,以及最佳采样点U1、U2的数值差异值deltaU;根据斜率ka、kb和差异值deltaU进行预测,生成语音拼接点。最后,将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。本发明解决了现有技术中直接拼接出现的语音频谱跳变的问题,以及通过自相关查找再累加平滑方法计算量过大的问题,通过一阶平滑的方法使拼接处的频谱获得良好的连续性,增强了用户听觉感受。 C N 1 0 4 5 1 7 6 0 5 A CN 104517605 A

权 利 要 求 书

1/2页

1.一种用于语音合成的语音片段拼接系统,其特征在于,包括语音库、采样点选择模块、语音拼接点生成模块和拼接模块;

所述语音库,其用于存储录制并完成标注的语音片段;所述采样点选择模块,其用于从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点;

所述语音拼接点生成模块,其用于对最佳采样点进行一阶平滑,生成语音拼接点;所述拼接模块,其用于将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。

2.根据权利要求1所述一种用于语音合成的语音片段拼接系统,其特征在于,所述采样点选择模块包括搜索单元和筛选单元;

所述搜索单元,其用于对所述第一语音片段和第二语音片段进行搜索得到至少两个候选采样点;

所述筛选单元,其用于从至少两个候选采样点中筛选出第一语音片段的最佳采样点U1和第二语音片段的最佳采样点U2。

3.根据权利要求2所述一种用于语音合成的语音片段拼接系统,其特征在于,所述语音拼接点生成模块包括计算单元和预测单元;

所述计算单元,其用于计算所述最佳采样点U1处的斜率ka和所述最佳采样点U2处的斜率kb,以及最佳采样点U1的数值与最佳采样点U2的数值的差异值deltaU;

所述预测单元,其用于根据斜率ka、斜率kb和差异值deltaU进行预测,生成语音拼接点。

4.根据权利要求2所述一种用于语音合成的语音片段拼接系统,其特征在于,所述搜索单元中对第一语音片段和第二语音片段进行搜索采用的搜索方式为双向搜索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜索方式。

5.根据权利要求4所述一种用于语音合成的语音片段拼接系统,其特征在于,实行所述双向搜索得出的候选采样点满足的条件为:

条件一,第一语音片段和第二语音片段在候选采样点斜率的绝对值之差小于设定的阈值Tk,即abs(ka-kb)条件二,第一语音片段和第二语音片段在候选采样点数值之差的绝对值小于可调参数ratio与第一语音片段在候选采样点斜率的绝对值的乘积,即abs(Sa-Sb)6.根据权利要求2所述一种用于语音合成的语音片段拼接系统,其特征在于,筛选最佳采样点采用最小错误代价准则,最小错误代价为采样点U*处的斜率代价和数值差异代价的加权之和,U*=argmin(w1*Dratio+w2*Dval),其中,w1为最佳采样点U*处的斜率差异代价的加权权重,w2为最佳采样点U*数值差异代价的加权权重,Dratio为最佳采样点U*处的斜率差异函数,Dval为最佳采样点U*数值差异函数。

7.一种用于语音合成的语音片段拼接方法,其特征在于,包括以下步骤,步骤1:从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点;

步骤2:对最佳采样点进行一阶平滑,生成语音拼接点;步骤3:将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。

2

CN 104517605 A

权 利 要 求 书

2/2页

8.根据权利要求7所述一种用于语音合成的语音片段拼接方法,其特征在于,所述步骤1具体为,

101:从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段;

102:对所述第一语音片段和第二语音片段进行搜索得到至少两个候选采样点;103:从至少两个候选采样点中筛选出第一语音片段的最佳采样点U1和第二语音片段的最佳采样点U2。

9.根据权利要求8所述一种用于语音合成的语音片段拼接方法,其特征在于,所述步骤2具体为,

201:计算所述最佳采样点U1处的斜率ka和所述最佳采样点U2的斜率kb,以及最佳采样点U1的数值与最佳采样点U2的数值的差异值deltaU;

202:根据斜率ka、斜率kb和差异值deltaU进行预测,生成语音拼接点。10.根据权利要求8所述一种用于语音合成的语音片段拼接方法,其特征在于,步骤102中所述对第一语音片段和第二语音片段进行搜索采用的搜索方式为双向搜索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜索方式,实行所述双向搜索得出的候选采样点满足的条件为:

条件一,第一语音片段和第二语音片段在候选采样点斜率的绝对值之差小于设定的阈值,即abs(ka-kb)条件二,第一语音片段和第二语音片段在候选采样点数值之差的绝对值小于可调参数ratio与第一语音片段在候选采样点斜率的绝对值的乘积,即abs(Sa-Sb)3

CN 104517605 A

说 明 书

一种用于语音合成的语音片段拼接系统和方法

1/6页

技术领域

[0001]

本发明涉及语音合成领域,特别涉及一种用于语音合成的语音片段拼接系统和方

法。背景技术

现有语音合成方法有基于语音特征参数和基于波形拼接两种方法。相对于基于参数的方法,基于波形拼接的语音合成能够得到质量更高的合成语音,声音听起来也更自然,更为接近原始发音人的音色。因此,目前主流的在线语音合成都是偏重于采用基于波形拼接的语音合成方案。

[0003] 基于波形拼接的语音合成方法原理为:先从预先录制和完成标注的语音库中挑选合适的语音单元作为待拼接的语音片段,然后通过语音片段之间的拼接得到最终的合成语音。采用这种拼接方法,如果拼接的片段在连接处处理不好,在频谱上会出现跳变,就会导致用户在听觉感受上的不自然。因此一个关键的技术问题是:采用什么样的拼接方法使得完成拼接的语音片段能够流畅的输出。

[0004] 目前现有的拼接方法是采用对语音片段先对齐之后再累加平滑的方法,这种拼接方法输出的语音片段平滑效果一般,存在语音片段频谱间的跳变的问题。另外,在一些情况下,这种拼接方法存在找不到平滑对齐点的问题。从用户听感上,会出现‘啪’声的高频爆破音,会影响用户的听觉感受。因此,需要一种能够输出流畅的语音片段的语音片段拼接方法。

[0002]

发明内容

[0005]

本发明所要解决的技术问题是提供一种能够输出流畅的语音片段的语音片段拼

接方法。

本发明解决上述技术问题的技术方案如下:一种用于语音合成的语音片段拼接系

统,包括语音库、采样点选择模块、语音拼接点生成模块和拼接模块;[0007] 所述语音库,其用于存储录制并完成标注的语音片段;[0008] 所述采样点选择模块,其用于从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点;

[0009] 所述语音拼接点生成模块,其用于对最佳采样点进行一阶平滑,生成语音拼接点;

[0010] 所述拼接模块,其用于将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。

[0006]

本发明的有益效果是:解决了现有技术中通过周期查找再移动累加平滑方法出现

的语音频谱跳变的问题,通过一阶平滑的方法使语音在拼接处的频谱获得良好的连续性,也增强了用户听觉感受。另外,一阶平滑拼接方法在查找拼接位置候选采样点时,不需要计

[0011]

4

CN 104517605 A

说 明 书

2/6页

算语音信号的自相关,从而更加简单准确的查找到拼接位置,大大降低了计算量,提高了运行速度。

[0012] 在上述技术方案的基础上,本发明还做出以下改进。[0013] 进一步,所述采样点选择模块包括搜索单元和筛选单元;[0014] 所述搜索单元,其用于对所述第一语音片段和第二语音片段进行搜索得到至少两个候选采样点;

[0015] 所述筛选单元,其用于从至少两个候选采样点中筛选出第一语音片段的最佳采样点U1和第二语音片段的最佳采样点U2。[0016] 进一步,所述语音拼接点生成模块包括计算单元和预测单元;[0017] 所述计算单元,其用于计算所述最佳采样点U1处的斜率ka和所述最佳采样点U2处的斜率kb,以及最佳采样点U1的数值与最佳采样点U2的数值的差异值deltaU;[0018] 所述预测单元,其用于根据斜率ka、斜率kb和差异值deltaU进行预测,生成语音拼接点。

[0019] 进一步,所述搜索单元中对第一语音片段和第二语音片段进行搜索采用的搜索方式为双向搜索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜索方式。

[0020] 进一步,实行所述双向搜索得出的候选采样点满足的条件为:[0021] 条件一,第一语音片段和第二语音片段在候选采样点斜率的绝对值之差小于设定的阈值Tk,即abs(ka-kb)[0023] 进一步,筛选最佳采样点采用最小错误代价准则,最小错误代价为斜率差异代价和数值差异代价的加权之和,即U*=argmin(w1*Dratio+w2*Dval),其中,w1为最佳采样点U*处的斜率代价的加权权重,w2为最佳采样点U*数值差异代价的加权权重,Dratio为最佳采样点U*处的斜率差异函数,Dval为最佳采样点U*数值差异函数。[0024] 为了解决上述技术问题,本发明还提供一种用于语音合成的语音片段拼接方法,包括以下步骤,[0025] 步骤1:从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点;[0026] 步骤2:对最佳采样点进行一阶平滑,生成语音拼接点;[0027] 步骤3:将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。

[0028] 进一步,所述步骤1具体为,[0029] 101:从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段;

102:对所述第一语音片段和第二语音片段进行搜索得到至少两个候选采样点;

[0031] 103:从至少两个候选采样点中筛选出第一语音片段的最佳采样点U1和第二语音片段的最佳采样点U2。

[0030]

5

CN 104517605 A[0032]

说 明 书

3/6页

进一步,所述步骤2具体为,[0033] 201:计算所述最佳采样点U1处的斜率ka和所述最佳采样点U2的斜率kb,以及最佳采样点U1的数值与最佳采样点U2的数值的差异值deltaU;[0034] 202:根据斜率ka、斜率kb和差异值deltaU进行预测,生成语音拼接点。[0035] 进一步,步骤102中所述对第一语音片段和第二语音片段进行搜索采用的搜索方式为双向搜索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜索方式,实行所述双向搜索得出的候选采样点满足的条件为:[0036] 条件一,第一语音片段和第二语音片段在候选采样点斜率的绝对值之差小于设定的阈值,即abs(ka-kb)附图说明

[0038] 图1为本发明一种用于语音合成的语音片段拼接系统模块结构示意图;

[0039] 图2为本发明一种用于语音合成的语音片段拼接系统对语音片段进行双向搜索方向示意图;

[0040] 图3为本发明一种用于语音合成的语音片段拼接方法步骤流程图。[0041] 附图中,各标号所代表的部件列表如下:[0042] 1、语音库, 2、采样点选择模块, 3、语音拼接点生成模块,[0043] 4、拼接模块, 21、搜索单元, 22、筛选单元,[0044] 31、计算单元, 32、预测单元。具体实施方式

[0045] 以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

[0046] 图1为本发明一种用于语音合成的语音片段拼接系统模块结构示意图,如图1所示,一种用于语音合成的语音片段拼接系统,包括语音库1、采样点选择模块2、语音拼接点生成模块3和拼接模块4;语音库1存储录制并完成标注的语音片段;语音库1中语音片段的数量为至少2个。采样点选择模块,用于从语音库1中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点。语音拼接点生成模块,用于对最佳采样点进行一阶平滑,生成语音拼接点;拼接模块,用于将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。[0047] 采样点选择模块2包括:搜索单元21和筛选单元22,语音拼接点生成模块3包括计算单元31和预测单元32。

[0048] 搜索单元21用于对第一语音片段和第二语音片段进行搜索得到至少两个候选采样点;对于待拼接的两个语音片段,将前一段语音片段称之为第一语音片段,后一段语音片段称之为第二语音片段。[0049] 如图2所示,对第一语音片段和第二语音片段进行搜索采用的搜索方式为双向搜

6

CN 104517605 A

说 明 书

4/6页

索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜索方式。实行双向搜索得出的候选采样点需要满足两个条件:[0050] abs(ka-kb)[0051] abs(Sa-Sb)*

[0056] 筛选最佳采样点U(即U1、U2、U3、U4……),采用最小错误代价的准则从候选采样点中选择最佳采样点U*作为后续平滑插值的位置。最小错误代价为最佳采样点U*处斜率差异代价和数值差异代价的加权之和。

*

[0057] U=argmin(w1*Dratio+w2*Dval)[0058] 其中,w1为最佳采样点U*处的斜率代价的加权权重,w2为最佳采样点U*数值差异代价的加权权重。Dratio为最佳采样点U*处的斜率差异的代价函数,Dval为最佳采样点U*数值差异的代价函数。最终根据最小错误代价准则得出最佳采样点U1、U2。

[0059] 计算单元31计算最佳采样点U1处的斜率ka和所述最佳采样点U2处的斜率kb,以及最佳采样点U1的数值与最佳采样点U2的数值的差异值deltaU;[0060] 预测单元32根据斜率ka、斜率kb和差异值deltaU进行预测,生成语音拼接点。预测过程为:

[0061] 斜率预测,设第一语音片段的最佳拼接点U1为第T时刻的采样点,幅值大小为S,则第T-1时刻的采样点T-1的幅值大小为ST-1=S-ka,其中ka为最佳拼接点U1的斜率,则可预测出第一语音片段第T+1时刻的采样点幅值为

设第二语音片段的最

佳拼接点U2为第N时刻的采样点,幅值大小为V,则第N+1时刻的采样点N+1的幅值大小为VN+1=V+Kb,其中kb为最佳拼接点的斜率,则可预测第二语音片段第N-1时刻的采样点幅值为

由斜率预测可知,第一语音片段和第二语音片段在各自的最佳拼接点连接处存在采样点预测差异

[0062]

7

CN 104517605 A[0063]

说 明 书

5/6页

这种差异导致两者不能够直接拼接在一起,因此,需要对采样点数值进行修正,得出修正后的采样点数值为

[00] [0065]

最终的拼接序列为

[0067] …… S-ka S E V V+Kb ………

[0068] 由于以上所述对第一语音片段和第二语音片段拼接的最佳采样点进行平滑方式利用了斜率信息(一阶信息),故这种平滑方式为一阶平滑法。

[0069] 图3为本发明一种用于语音合成的语音片段拼接方法步骤流程图,如3所示,一种用于语音合成的语音片段拼接方法,包括以下步骤,[0070] 步骤1:从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段,并从所述第一语音片段和第二语音片段中选择出最佳采样点;[0071] 步骤2:对最佳采样点进行一阶平滑,生成语音拼接点;[0072] 步骤3:将语音拼接点插入第一语音片段和第二语音片段之间,生成第三语音片段。

[0073] 步骤1具体为,[0074] 101:从语音库中提取出待拼接的两个语音片段分别作为第一语音片段和第二语音片段;

[0075] 102:对所述第一语音片段和第二语音片段进行搜索得到至少两个候选采样点;[0076] 103:从至少两个候选采样点中筛选出第一语音片段的最佳采样点U1和第二语音片段的最佳采样点U2。[0077] 步骤102中,对第一语音片段和第二语音片段进行搜索采用的搜索方式为双向搜索,第一语音片段采用从后向前的搜索方式,第二语音片段采用从前向后的搜索方式,实行所述双向搜索得出的候选采样点满足的条件为:[0078] 条件一,第一语音片段和第二语音片段在候选采样点斜率的绝对值之差小于设定的阈值,即abs(ka-kb)[0066]

同时满足上述两个条件语音点,作为拼接的候选采样点。在固定第一语音片段的

候选采样点的同时,第二语音片段后移搜索。一轮搜索完毕,第一语音片段的候选采样点前移,继续下一轮搜索。搜索终止条件为寻找到备选拼接候选采样点以及第一语音片段和第二语音片段移动达到上限值。搜索终止时,可以得到多个(至少两个)候选采样点,且这些候选采样点个数为偶数,即分别从第一语音片段和第二语音片段采集到的候选采样点。[0081] 步骤103中,筛选最佳采样点U*(即U1、U2、U3、U4……),采用最小错误代价的准则从候选采样点中选择最佳采样点U*作为后续平滑插值的位置。最小错误代价为最佳采样点U*处斜率差异代价和数值差异代价的加权之和。

*

[0082] U=argmin(w1*Dratio+w2*Dval)

[0080]

8

CN 104517605 A[0083]

说 明 书

6/6页

其中,w1为最佳采样点U*处的斜率代价的加权权重,w2为最佳采样点U*数值差异代价的加权权重。Dratio为最佳采样点U*处的斜率差异的代价函数,Dval为最佳采样点U*数值差异的代价函数。最终根据最小错误代价准则得出最佳采样点U1、U2。[0084] 步骤2具体为,[0085] 201:计算所述最佳采样点U1处的斜率ka和所述最佳采样点U2的斜率kb,以及最佳采样点U1的数值与最佳采样点U2的数值的差异值deltaU;[0086] 202:根据斜率ka、斜率kb和差异值deltaU进行预测,生成语音拼接点。[0087] 步骤202中,预测过程为:[0088] 斜率预测,设第一语音片段的最佳拼接点U1为第T时刻的采样点,幅值大小为S,则第T-1时刻的采样点T-1的幅值大小为ST-1=S-ka,其中ka为最佳拼接点U1的斜率,则可预测出第一语音片段第T+1时刻的采样点幅值为ST+1=S+ka。设第二语音片段的最佳拼接点U2为第N时刻的采样点,幅值大小为V,则第N+1时刻的采样点N+1的幅值大小为VN+1=V+Kb,其中kb为最佳拼接点的斜率,则可预测第二语音片段第N-1时刻的采样点幅值为

由斜率预测可知,第一语音片段和第二语音片段在各自的最佳拼接点连接处存在采样点预测差异

[00] [0090]

这种差异导致两者不能够直接拼接在一起,因此,需要对采样点数值进行修正,得

出修正后的采样点数值为

[0091] [0092]

最终的拼接序列为

[0094] …… S-ka S E V V+Kb ………

[0095] 本发明解决了现有技术中通过周期查找再移动累加平滑方法出现的语音频谱跳变的问题,通过一阶平滑的方法使语音在拼接处的频谱获得良好的连续性,也增强了用户听觉感受。另外,一阶平滑拼接方法在查找拼接位置候选采样点时,不需要计算语音信号的自相关,从而更加简单准确的查找到拼接位置,大大降低了计算量,提高了运行速度。[0096] 以上所述仅为本发明的较佳实施例,并不用以本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

[0093]

9

CN 104517605 A

说 明 书 附 图

1/2页

图1

图2

10

CN 104517605 A

说 明 书 附 图

2/2页

图3

11

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务