您的当前位置：首页正文

语音合成技术的功能设计和实现

来源：九壹网

用技术‘　文章编号：１６７４—９１４６（２０１６）１２—００８４—０４　语音台成技术的Ｉ１】能设计和实现　韩超　（山西新闻出版广电局无线管理中心７４０２台，山西　昔阳０４５３００）　械耍　筏要贪鳃７　Ｓ０Ｋ￣ｇ　ＳＡｅＸ通　＿裁玛示馘懒介绍　ＩＳｐＶ０ｉｅｅ接口的讯硪步骤和絮　飘方法　基专　＼　设诗妥现飞语音阈谖畚跷及实　ｋ许　阚进飞。该轶译妥现她王要葫能。试论弋语普接镳诵礴的　４令类和闵读电容的存储方式　“　。　｜一　０　关键强　ｓ　中圈　号　；ｓＡ矾　乱孥　ｃ　语莆合氓｜Ｉ｜　１２．３３≮ＴＰ３１７．５２　ｌｌ　文献书　志码：Ａｊ　ｃＩｏＩ　１ｏ０ｌ９６９／ｊ　ｉｓｓｒ　１６７４＿９ｌ４６；２０１６Ａ２：０８４　１　语音合成技术简介　目前。语音合成技术已经十分广泛地应用到了　现在，随着电脑的普及和互联网的广泛应用，　网络上的资源越来越丰富、越来越全面，越来越多　爱好读书的人将目光从以前的纸制书本投向了电子　书籍，这不仅节省了寻找书本的时间，而且节省了　各个领域上。语音合成技术比较成熟的有美国微软　公司、我国科大讯飞公司等，其中微软已经公布了　部分语音合成及识别所调用的函数和相应的调用文　档，现在市面上一般的语音方面的产品也主要以微　软提供的ＳＤＫ为根本。因此笔者以微软的ＳＤＫ为　例，讲述如何完成文本到语音的转换。　２　ＳＤＫ和ＳＡＰＩ　读书的开支。可是，问题也随之而来，长时间使用　电子设备看书对人们的视力影响极其不好，越来越　多的年轻人早早地戴上了厚厚的近视镜。如果有一　种方法，既能满足人们阅读网络上种类齐全、价格　便宜的电子书籍，又能很好地保护人们的视力。该　有多好。　２．１　ＳＤＫ简介及其配置　Ｍｉｃｒｏｓｏｆｔ　Ｓｐｅｅｃｈ　ＳＤＫ（微软标准语音开发工　具）是微软公司为开发Ｗｉｎｄｏｗｓ平台上的语音应用　利用语音合成就能满足人们的这个需求。语音　合成就是人Ｔ通过一定的机器设备产生出语音，它　是人机语音通信的重要组成部分。语音合成研究的　目的就是制造一种会说话的机器，解决的就是如何　能够让机器像人那样说话的问题，使一些以其他方　程序而提供的软件开发包，它主要兼容了Ｗｉｎ３２的　语音应用程序编程接口（Ｓｐｅｅｃｈ　Ａｐｐｌｉｃａｔｉｏｎ　Ｐｒｏ—　ｇｒａｍｍｉｎｇ　Ｉｎｔｅｒｆａｃｅ，ＳＡＰＩ）、编译和调试语音应用程　序的工具以及帮助文档。目前几乎所有的文本朗读　１＝具都是使用这个ＳＤＫ开发的，语音合成已经在　一式表示或者存储的信息能够转换成语音，让人们通　过听觉而方便地获得这些信息ｌ１ｌ。　现在，科学家们已经搜集并录制了大量的不同　语种的单词和词汇到合成的语音库中，一些技术成　熟的公司已经将所需的关键技术点封装成函数供语　音开发人员调用，编程开发人员只要掌握了调用该　函数的方法和相关的注意事项，通过相应的ＳＡＰＩ　接口正确调用函数就能够完成文本到语音的转换翻。　定程度上得到了广泛使用１３Ｊ。　Ｍｉｃｒｏｓｏｆｔ　Ｓｐｅｅｃｈ　ＳＤＫ可以在微软的官方网站上　免费下载，目前的版本是５．１，为了支持中文或者　其他语种如日文，还要把附加的语言包（Ｌａｎｇ—　Ｐａｃｋ）一起下载。然后安装Ｍｉｃｒｏｓｏｆｔ　Ｓｐｅｅｃｈ　ＳＤＫ　ｖｅｒｓｉｏｎ　５．１后在Ｃ：＼Ｐｒｏｆｒａｍ　Ｆｉｌｅｓ＼Ｃｏｍｍｏｎ　Ｆｉｌｅｓ＼Ｍｉ—　ｃｒｏｓｏｆｔ　Ｓｈａｒｅｄ＼Ｓｐｅｅｃｈ目录下找到ｓａｐｉ．ｄｌ１．并将ｓａｐｉ．　ｄｕ复制到项目文件下。还有一种方法是使用向导将　收稿日期：２０１６－１０一ｌ０；修回日期：２０１６—１　１－１５　作者简介：韩超（１９９０一），男，山西昔阳人，在读硕士，助理工程师，主要从事电子与通信工程研究　Ｅ～ｍａｉｌ：ｈａｎｃｈａｏｌ３１＠１６３．ＣＯＩｌ１。　　ＳＣＩｉ－ＴＥＣＨ　ＩＮＮＯＶＡＴＩＯＮ＆ＰＲＯＤＵＣＴＩＶＩＴＹ　。’～……　一　一０８４一　Ｎ　ｌ２Ｏｅｃ・２０１６，Ｔｏｔａｌ　Ｎｏ．２７５　应用技　ｓａｐｉ．１ｉｂ手动添加到项目中去，如果下载不到ｓａｐｉ．　／／获取ＩＳｐＶｏｉｃｅ接口，接口指针存人ｐＶｏｉｃｅ中　ＨＲＥＳＵＬＴ　ｈｒ＝ＣｏＣｒｅａｔｅＩｎｓｔａｎｃｅ（ＣＬＳＩＤ——ＳｐＶｏｉｃｅ，　ＮＵＬＬ，　ｄｌ１．可以采用添加ｓａｐｉ．１ｉｂ的方式下面介绍的例子　都是采用第二种方式，注意只有正确配置ＳＤＫ才　能完成文本到语音的成功转化［４１。　２．２　ＳＡＰＩ简介　ＳＤＫ提供的Ｓｐｅｅｃｈ　ＡＰＩ（ＳＡＰＩ）的两种基本类　型是ＡＰＩ　ｆｏｒ　Ｔｅｘｔ—ｔｏ—Ｓｐｅｅｃｈ和ＡＰＩ　ｆｏｒ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇ—　ＣＬＳＣＴＸＡＬＬ，　——ＩＩＤＩＳｐＶｏｉｃｅ，　——（ｖｏｉｄ料）＆ｐＶｏｉｃｅ）；　读出”Ｔｈｉｓ　ｉｓ　ａ　ｓｙｓｔｅｍ　ｗｈｉｃｈ　ｃａｎ　ｓｐｅａｋ　ｙｏｕｒ　ｔｅｘｔ”　，　ｎｉｔｉｏｎ。其中ＡＰＩ　ｆｏｒ　Ｔｅｘｔ—ｔｏ—Ｓｐｅｅｃｈ就是文本语音　转换（Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ，ＴＴＳ）引擎，，ｒＩ’Ｓ可以将文　ｉｆ（ＳＵＣＣＥＥＤＥＤ（ｈｒ））　本中的字符或者文档合成为语音并“说”出来，通　过它可以很容易地建立功能强大的文本语音程序Ｉ５ｌ。　应用程序可以通过ＩＳｐＶｏｉｃｅ　ＣＯＭ接口控制使　用ＴＴｓ。应用程序一旦建立了ＩＳｐＶｏｉｃｅ对象，它只　需调用ＩＳｐＶｏｉｃｅ：：Ｓｐｅａｋ来从文本数据生成语音。　另外．ＩＳｐＶｏｉｃｅ接口同样提供了多种方式来改变程　序所发出的声音、音调和其他属性，例如Ｉｓ—　ｐＶｏｉｃｅ：：ＳｅｔＲａｔｅ改变语音速度．ＩＳｐＶｏｉｃｅ：：ＳｅｔＶｏｌ—　ｕｍｅ改变语音音量等［６１。　除了ＩＳｐＶｏｉｃｅ接口之外。ＳＡＰＩ同样提供更多　的高级１Ｔｒｓ应用——通过手动控制ＣＯＭ接口。　３　ＩＳｐＶｏｉｃｅ接口详解　３．１　ＩＳｐＶｏｉｃｅ接Ｅｌ调用步骤　ＩＳｐＶｏｉｃｅ是ＣＯＭ标准提供的一组对语音操控的　接口．它是由微软架构在ＣＯＭ之上的ＳＡＰＩ实现　的。调用ＩＳｐＶｏｉｃｅ接口大致分为５个步骤：一是初　始化ＣＯＭ（由于ＩＳｐＶｏｉｃｅ是ＣＯＭ标准中提供的接　口）；二是获取指向ＩＳｐＶｏｉｃｅ接口的指针；三是通　过该指针控制，ｒｒＳ引擎；四是释放指针；五是关闭　ＣＯＭ接口　。　３．２　ＩＳｐＶｏｉｃｅ接口调用代码示例　下面这段代码示例就是为了让大家更清晰更具　体地了解如何获取ＩＳｐＶｏｉｃｅ接口指针，并利用其操　作ＳＡＰＩ中的ｒｒｒＳ（文本合成语音）引擎，同时作为　初学者也可以在这个基础上练习如何使用此接口。　＃ｉｎｃｌｕｄｅ＜ｓａｐｉ．ｈ＞　／／Ｃｏｌｎｉｔｉａｌｉｚｅ　ＣｏＣｒｅａｔｅＩｎｓｔａｎｃｅ需要调用ｏｌｅ３２．ｄｌｌ　＃ｐｒａｇｍａ　ｃｏｍｍｅｎｔ（１ｉｂ，”ｏｌｅ３２．１ｉｂ”）　Ｅｓａｐｉ．１ｉｂ在ＳＤＫ的ｌｉｂ目录，必须正确配置　＃ｐｒａｇｍａ　ｃｏｍｍｅｎｔ（１ｉｂ，”ｓａｐｉ．１ｉｂ”）　ｉｎｔ　ｍａｉｎ（ｉｎｔ　ａｒｇｃ，ｃｈａｒ　ａｒｇｖ［】）　｛　／／ＩＳｐＶｏｉｃｅ接口类型指针　ＩＳｐＶｏｉｃｅ　ｐＶｏｉｃｅ＝ＮＵＬＬ；　／／ＣＯＭ初始化　ｉｆ（ＦＡＩＬＥＤ（：：ＣｏＩｎｉｔｉａｌｉｚｅ（ＮＵＬＬ）））　ｒｅｔｕｒｎ　ＦＡＬＳＥ；　｛　ｈｒ　ｐＶｏｉｃｅ一＞Ｓｐｅａｋ（Ｌ”Ｔｈｉｓ　ｉｓ　ａ　ｓｙｓｔｅｍ　ｗｈ—　ｉｃｈ　ｃａｎ　ｓｐｅａｋ　ｙｏｕｒ　ｔｅｘｔ”，０，ＮＵＬＬ）；　ｐＶｏｉｃｅ一＞Ｒｅｌｅａｓｅ（）；　ｐＶｏｉｃｅ＝ＮＵＬＬ；　｝　，／千万不要忘记关闭ＣＯＭ接口　：：ＣｏＵｎｉｎｉｔｉａｌｉｚｅ（）；　ｒｅｔｕｒｎ　ＴＲＵＥ；　）　注意：一定要先释放指针，然后再关闭ＣＯＭ　接口，否则程序很有可能会发生崩溃。　３．３　ＩｓｐＶｏｉｃｅ接口常用方法　成功调用ＩＳｐＶｏｉｃｅ接Ｅｌ后，接下来就可以使用　ＩＳｐＶｏｉｃｅ的主要函数控制语音阅读了．下面给出的　是ＩＳｐＶｏｉｃｅ的几种常用控制方法［８－９１。　ＳｅｔＶｏｉｃｅ（）：设置综合文本所使用声音的特　性。默认时，ＩＳｐＶｏｉｃｅ可以使用控制面板里面的语　言属性来进行设置里面的设定。　Ｓｐｅａｋ（）：阅读文本或文档的内容，其中它的　第二个参数可以设置为同步或者异步，两者的主要　区别在于，同步不可以实现对语音的适时控制，而　异步则可以实现对语音的适时控制，大多数程序使　用的都是异步方式。　ＳｅｔＲａｔｅ（）：设置实时阅读速度。　ＳｅｔＶｏｌｕｍｅ（）：设置实时阅读音量。　ＳｅｔＶｏｉｃｅ（）：设置发音人。　ＧｅｔＳｔａｔｕｓ（）：获取当前所读状态信息。　Ｐａｕｓｅ（）：暂停发音。　Ｒｅｓｕｍｅ（）：恢复发音。　４语音阅读的实现　笔者基于微软Ｓｐｅｅｃｈ　ＳＤＫ中的ＳＡＰＩ内ｒｒｒＳ引　擎．设计实现了语音阅读系统及其软件。ＴＴｓ引擎　可以根据输入的字符串自动合成与之相对应的语音　并输出。该语音阅读系统能够将接收到的文字（ＡＮ—　ｓＩ或ＵＮＩＣＯＤＥ标准）串或者字符串传人引擎内来　科拮刨葡与生产力ｌ　２０１６￣－１２月　警第　期一Ｊ一０８５—　用技术衄　完成文本到语音的转换。该语音阅读系统的界面开　发应用微软基础类（Ｍｉｃｒｏｓｏｆｔ　Ｆｏｕｎｄａｔｉｏｎ　Ｃｌａｓｓｅｓ，　ＭＦＣ）完成　ＩＯｑ２ｌ。　该语音阅读软件主要实现对输入字符或从电脑　上载人的文本文档等进行汉语、英语、日语以及混　合发音的阅读，并且可以随意切换发音人，调节阅　读的语音音量和语音速度，还可以将音频保存到　ＷＡＶ文件中　Ｉ　４．１　主要功能　要实现一款好的语音阅读软件．只是能够实现　文本到语音的转换是远远不够的，还需要具备其他　多种功能。图１为笔者设计的语音阅读软件的主要　功能　图１　语音阅读软件的主要功能　笔者设计的软件使用的主要开发工具是Ｍｉ—　ｔ．ｒ（　ｆｌ　Ｖｉｓｕａｌ　Ｓｔｕｄｉｏ　２０１０，如果没有此开发系统，　也町以使川Ｍｉｃｒｏｓｏｆｔ　Ｖｉｓｕａｌ　Ｓｔｕｄｉｏ　２００８或者Ｖｃ＋＋　６．０进行开发，使刖ＭＦＣ模式，建立基于对话框的　Ｔ程　４．２相关类介绍　语音Ｉ列读实际上就是对语音接口的成功调用，　之卡Ｈ关的主要行３个类：ＣＳＡＰＩＷｒａｐｐｅｒ，　ＣＳＡＰＩ４Ｗｔａｐｐｅｒ和ＣＳＡＰＩ５Ｗｒａｐｐｅｒ。还有一个比较　重要的类川ＣＳｐｅｅｃｂＣｏｕｌ￣・ｏＪｌｅｔ类，以下对这４个类　分别予以介绍　４．２．１　ＣＳＡＰＩ４Ｗｒａｐｐｅｒ椰ＣＳＡＰＩ５Ｗｒａｐｐｅｒ　南ｌ『ＣＳＡＰｌ４Ｗｒａｐｐｅｒ和ＣＳＡＰＩ５Ｗｒａｐｐｅｒ这两个　类结构相似，所以在这里将它们一并介绍，它们的　别在于第一个类使用的是ＳＡＰＩ４．其对ＴＴＳ引擎　的渊用没有像ＳＡＰＩ５那样的方便．最主要应用到的　接口有Ｉ３ＴＳＣｅｎｔｒａｌ和ＩＴＴＳＡｔｔｒｉｂｕｔｅｓ．下面先来看　一看他们的相同点　它们都采用异步方式对文档内容进行阅读，以　便能够在阅读的同时对语音等进行控制．主要包含　以下操作　ＳｐｅａｋＴｅｘｔ（）：渎ｆｆ：输入的文本。　ＳｔｏｐＳｐｅａｋ（）：停止读文本。　ＰａｕｓｅＳｐｅａｋ（）：暂停读文本。　ＲｅｓｕｍｅＳｐｅａｋ（）：恢复读文本　｝　ＳＣＩ＿ＴＥＣＨ　ＩＮＮ０ｖＡＴ１０Ｎ＆ＰＲ０ＤＵＣＴＩＶＩＴＹ　２　一　一　Ｎｏ・１２　Ｄｅｃ．２０１６，Ｔｏｔａｌ　Ｎｏ．２７５　ＳｅｔＶｏｌｕｍｅ（）：设置声音大小。　ＳｅｔＲａｔｅ（）：设置语速。　ＣｈａｎｇｅＶｏｉｃｅ（）：改变发音者。　以上方法都是在ＣＳＡＰｌ５Ｗｒａｐｐｅｒ通过Ｉｓ—　ｐＶｏｉｃｅ＊类型的成员变量ｍ＿ｐＶｏｉｃｅ指针来调用　ＳＡＰＩ５的ｒＩＹＩ、Ｓ引擎来实现发音的。而对于ＣＳＡＰＩ４　Ｗｒａｐｐｅｒ则略有不同。它需要调用多个接口。主要　有ＩＴＴＳＣｅｎｔｍ】和ＩＴｒＳＡｔｔｒｉｂｕｔｅｓ。　通过ＩＴｌ＇ＳＣｅｎｔｒａｌ接口可以控制１ＴｒＳ引擎的阅　读、暂停等功能，主要包含以下操作。　ＴｅｘｔＤａｔａ（）：读文本。　ＡｕｄｉｏＰａｕｓｅ（）：暂停。　ＡｕｄｉｏＲｅｓｕｍｅ（）：恢复。　ＡｕｄｉｏＲｅｓｅｔ（）：停止。　通过ＩＴＴＳＡｔｔｒｉｂｕｔｅｓ接口可以调用ＴＴＳ引擎的　音量、语速等控制功能，主要包含以下操作。　ＳｐｅｅｄＳｅｔ（）：设置语速。　ＶｏｌｕｍｅＳｅｔ（）：设置音量。　４．２．２　ＣＳＡＰＩＷｒａｐｐｅｒ　它涵盖了以上两个类的所有操作，其作用就是　将操作细节封装起来，让对它的使用变得更方便而　不用在意下面是如何运行的。它对两个ＳＡＰＩ的集　成是通过一个枚举类型ＷＲＡＰＰＥＲＴＹＰＥ作为其私　有变量来完成的，当ＷＲＡＰＰＥＲＴＹＰＥ等于ＳＡＰＩ４　时则调用ＣＳＡＰＩ４　Ｗｒａｐｐｅｒ对象的方法，否则调用　ＣＳＡＰＩ５　Ｗｒａｐｐｅｒ对象的方法。　４．２．３　ＣｓｐｅｅｃｈＣ０ｎｔｒｏｌｌｅｒ　这个类位于逻辑控制层，它提供了用户界面对　语音控制所需要的所有接口，其最重要的成员变量　就是ＣＳＡＰＩ　Ｗｒａｐｐｅｒ对象ｍ＿ｃＳＡＰＩＷｒａｐｐｅｒＯｂｊ，该　对象会提供具体的执行动作。这个类主要包含以下　操作。　Ｐｌａｙ（）：播放。　Ｐａｕｓｅ（）：暂停。　Ｒｅｓｕｍｅ（）：恢复。　Ｓｔｏｐ（）：停止。　ＣｈａｎｇｅＡｎｎ０ｕｎｃｅｒ（）：变换发音人。　ＳａｖｅＦｉｌｅ（）：保存文件。　这个类会把用户进行的操作通过ｍ＿ｃＳＡＰＩ—　ＷｒａｐｐｅｒＯｂｊ转换成具体的底层操作，转换过程都在　各个成员函数内部中进行。具体示例如下。　ｖｏｉｄ　ＣＳｐｅｅｃｈＣｏｎｔｒ０ｌｌｅｒ：：ＣｈａｎｇｅＡｎｎｏｕｎｃｅｒ　（ｉｎｔ　ｅｎＴｙ—　应用技Ｉｌ　ｌ　ｐｅ）　｛　ｍ—ｃＳＡＰＩＷｒａｐｐｅｒＯｂｊ．ＳｔｏｐＳｐｅａｋ（）；　ｃＳＡＰＩＷｒａｐｐｅｒＯｂｊ．ＣｈａｎｇｅＶｏｉｃｅ（ｅｎＴｙｐｅ）；　开发中的工作。　４）分别讲述了语音合成开发语音方面的软件　使用的基本类和类中包含的函数以及该函数的功　能，进一步使读者了解了语音合成。　参考文献：　ｍ—ｒｅｔｕｒｎ；　）　［１】　王炳锡，王洪．变速率语音编码［Ｍ】．西安：西安电子科技大　该函数就把用户需要的变换发音人的操作转换　成了停止发音和设定新的发音人两个操作。这个类　学出版社，２００４．　【２Ｊ刘幺和，宋庭新．语音识别与控制应用技术【Ｍ】．北京：科学　出版社．２００８．　是为了联系上层界面和连接底层语音控制而设计　的．它与底层具有一对一的聚集关系。　４．３阅读内容的存储方式　笔者把阅读的内容存储在一个ＣＳｔｒｉｎｇ类型的　向量容器ｖｅｃｔｏｒ中．因为无论是ＣＳｔｒｉｎｇ还是ｖｅｃｔｏｒ　［３】Ｍｏｕｌｉｎｅｓ　Ｅｒｉｃ．Ｃｈａｒｐｅｎｔｉｅｒ　Ｆｒａｎｃｉｓ．Ｐｉｔｃｈ—ｓｙｎｃｈｒｏｎｏｕｓ　ｗａｖ—　ｅｆｏｒｍ　ｐｒｏｃｅｓｓｉｎｇ　ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　ｔｅｘｔ——ｔｏ——ｓｐｅｅｃｈ　ｓｙｎｔｈｅｓｉｓ　ｕｓ——　ｉｎｇ　ｄｉｐｈｏｎｅｓ［Ｊ］．Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ．１９９０（９）：１—１０．　【４】Ｓｌｅｅｐｗｏｍ．ＶＣ使用ＴＴＳ发声［ＥＢ／ＯＬ］．［２０１０—０５—１８］．　ｈｔｔｐ：／／ｗｗｗ．ｃｐｐｂｌｏｇ．ｃｏｍ／ｓｌｅｅｐｗｏｍ／ａｒｃｈｉｖｅ／２０１０／０５／１８／　１　１５７４２．ｈｔｍ１．　都是通过动态分配内存存储的自动管理，所以不必　过分关注内存组织或异常情况。把每一次打开的文　件内容都先加载到一个临时ＣＳｔｒｉｎｇ中再存人ｖｅｃｔｏｒ　内并将其显示在主界面文本框中，在每一次重新读　文本时，都会用文本框的内容刷新当前所读ＣＳｔｒｉｎｇ　并换掉ｖｅｃｔｏｒ中相应位置元素。这样就实现了对文　本的修改与读音同步。这种存储方式不仅对文档的　内容进行了存储，还轻松地实现了对所加载的多篇　文档进行切换【　。　５结束语　【５］王立峰，梁智颖．微软产品集成［Ｍ］．北京：科学出版社，２００５．　ｆ６１　杨家沅．语音识别与合成ｆＭ】．成都：四川科学技术出版社，　１９９４．　【７］　潘爱民，刘彤．ＣＯＭ原理与应用［Ｍ】．北京：清华大学出版　社，２００２．　【８］　党建成，周晶．语音合成技术及其应用　计算机与信息技　术，２００７（６）：３１—３３．　【９］　Ｍｉｃｒｏｓｏｆｔ　Ｃｏｒｐｏｒａｔｉｏｎ．Ｍｉｃｒｏｓｏｆｔ　Ｗｉｎｄｏｗｓ　ＳＤＫ　ｏｒｆ　Ｗｉｎ—　ｄｏｗｓ　７　ａｎｄ．ＮＥＴ　Ｆｒａｍｅｗｏｒｋ　４【ＥＢ／Ｏ　Ｌ１．【２０１６—０１—０１１．　ｈｔｔｐ：／／ｗｗｗ．ｍｉｃｒｏｓｏｆｔ．ｃｏｒｎ／ａｎ—ｕｓ／ｄｏｗｎｌｏａｄ／ｄｅｔａｉｌｓ．ａｓｐｘ？　ｉｄ＝８２７９．　鉴于语音合成技术的广泛应用，笔者以微软的　ＳＤＫ为例，为编程开发人员或者有一定软件相关基　础的初学者讲述了开发文本到语音转换相关系统的　些基本知识，设计了语音阅读系统的基本功能框　架。笔者的主要工作和成果如下。　一［１Ｏ】　赵常寿，昊红权，张玉忠．Ｖｃ＋＋开发基于Ｍｉｃｒｏｓｏｆｔ　Ｓｐｅｅ—　ｃｈ　ＳＤＫ的ＴＴＳ软件Ｕ］＿电脑编程技巧与维护，２０１３（１９）：　１３—１８．　［１１】韩忠军．．ＮＥＴ平台下ＳＡＰＩ语音接口的ｃ＃开发与应　用Ｕ］．实验室研究与探索，２０１０（８）：１７５—１７９．　［１２】　张艳．基于ＭＦＣ平台下的语音识别系统的设计　电脑　与电信．２０１０（３）：５３—５５．　１）讲述语音合成技术使用的ＳＤＫ工具以及相　应接口。　２）列举文本到语音转换时经常用到的相应的　接口和相关的函数．使读者基本了解到要使用语音　合成开发语音方面的软件基本要做的工作。　３）设计语音阅读系统的基本功能框架。方便　读者根据股票功能框架了解基本的技术点，减少了　［１３】　吴振宇．个性特征的语音合成与模拟技术研究【Ｄ】．上海：　华东师范大学，２０１１．　［１４】　Ｓｔａｎｌｅｙ　Ｂ，Ｌｉｐｐｍａｎ　Ｂａｒｂａｒａ　Ｅ，Ｍｏｏ　Ｊｏｓ∈ｅ　ＬａＪｏｉｅ．ｃ＋＋　Ｐｒｉｍｅｒ中文版　】．李师贤，译．４版，北京：人民邮电出版　社．２００６．　（责任编辑邸开宇）　Ｆｕｎｃｔｉｏｎａｌ　Ｄｅｓｉｇｎ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　Ｓｐｅｅｃｈ　Ｓｙｎｔｈｅｓｉｓ　Ｔｅｃｈｎｏｌｏｇｙ　Ｈａｎ　Ｃｈａｏ　（Ｗｉｒｅｌｅｓｓ　Ａｄｍｉｎｉｓｔｒａｔｉｏｎ　Ｃｅｎｔｅｒ　７０２４　Ｒａｄｉｏ，Ｓｈａｎｘｉ　Ａｄｍｉｎｉｓｔｒａｔｉｏｎ　ｏｆ　Ｐｒｅｓｓ，Ｐｕｂｌｉｃａｔｉｏｎ，Ｒａｄｉｏ，　Ｆｉｌｍ　ａｎｄ　Ｔｅｌｅｖｉｓｉｏｎ，Ｘｉｙａｎｇ　０４５３００　Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ｂｒｉｅｆｌｙ　ｉｎｔｒｏｄｕｃｅｓ　ｔｈｅ　ｓｐｅｅｃｈ　ｓｙｎｔｈｅｓｉｓ　ｔｅｃｈｎｏｌｏｇｙ，ＳＤＫ　ａｎｄ　ｉｔｓ　ｃｏｎｆｉｇｕｒａｔｉｏｎ，ＳＡＰＩ．Ｉｔ　ｉｎｔｒｏｄｕｃｅｓ　ｔｈｅ　ｓｔｅｐｓ　ａｎｄ　ｍｅｔｈｏｄｓ　ｏｆ　ｉｎｖｏｋｉｎｇ　ＩＳｐＶｏｉｃｅ　ｉｎｔｅｒｆａｃｅ　ｔｈｒｏｕｇｈ　ｃｏｄｅ　ｅｘａｍｐｌｅ，ｄｅｓｉｇｎｓ　ｔｈｅ　ｖｏｉｃｅ　ｒｅａｄｉｎｇ　ｓｙｓｔｅｍ　ａｎｄ　ｓｏｆｔｗａｒｅ　ｂａｓｅｄ　ｏｎ　ＴＴＳ　ｅｎｇｉｎｅ．Ｔｈｅｎ　ｉｔ　ｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ｍａｉｎ　ｆｕｎｃｔｉｏｎｓ　ｏｆ　ｔｈｅ　ｓｏｆｔｗａｒｅ，ｄｉｓｃｕｓｓｅｓ　ｆｏｕｒ　ｃｌａｓｓｅｓ　ｏｆ　ｉｎｖｏｋｉｎｇ　ｖｏｉｃｅ　ｉｎｔｅｒｆａｃｅ　ａｎｄ　ｔｈｅ　ｓｔｏｒａｇｅ　ｍｏｄｅ　ｏｆ　ｒｅａｄｉｎｇ　ｃｏｎｔｅｎｔｓ．　Ｋｅｙ　ｗｏｒｄｓ：Ｓｐｅｅｃｈ　ＳＤＫ；ＳＡＰＩ；ＴＴＳ　ｅｎｇｉｎｅ；ＭＦＣ；ｓｐｅｅｃｈ　ｓｙｎｔｈｅｓｉｓ　科接翻蕊与生产力ｆ　２０１６＃－１２月总管２７ｓ翘一ｊ—Ｄ８　—　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文