语音识别系统 Sphinx-4 介绍

jopen 13年前
     <div class="entry-content">     <p>sphinx系统是一个拥有悠久历史的语音识别系统,<br /> 传说中是第一个实用的10数字语音系统。<br /> 是由卡奈基.美隆大学研发。</p>     <p>sphinx3.x是基于C语言的最新版本,sphinx和sphinx2请大家不要去研究了。<br /> sphinx for ppc是一个在PocketPc上实现的嵌入式语音识别系统。</p>     <p>而sphinx4是完全用JAVA编写实现的语音识别系统,<br /> 因为JAVA的特性,在平台间移植方便很多。</p>     <p>需要注意的是sphinx3和sphinx4不是先后的关系,而是平行的,<br /> 主要区别是前一个用C语言实现,后一个用JAVA语言实现。</p>     <p>因为种种原因我研究sphinx4有一个月时间了,<br /> 根据自己需要阅读修改了FrontEnd部分源代码,</p>     <p>1.sphinx4主页是<br /> <a style="color:#003377;text-decoration:none;" class="ilink" href="/misc/goto?guid=4959499877552681292" target="_blank">http://cmusphinx.sourceforge.net/sphinx4/</a><br /> 请把它加入收藏,谢谢。<br /> 上面有下载的连接。</p>     <p>现在最新的版本应该是这个sphinx4-1.0beta-bin.zip <br /> 解压到e:\sphinx4 <br /> (我以这个目录为例,以后的讲述都是假设这个为根目录,<br /> 而且以"sphinx4>"这个代替命令行下的这个目录 )</p>     <p>给PC接上麦克风(Mic),cmd进入命令行<br /> 运行<br /> sphinx4> java -jar bin/HelloDigits.jar<br /> 这是一个识别单个数字的DEMO程序</p>     <p>2.如果你还没能用那个识别数字的DEMO<br /> 检查了一下自己英语数字的发音。</p>     <p>那么说明你环境有问题,请检查以下事项</p>     <p>a.是否有JAVA运行环境,在命令行下敲 java<br /> 若没有,这样的一些演示<br /> “Usage: java [-options] class [args… "<br /> 说明JAVA运行环境有问题,<br /> 到http://java.sun.com/j2se/1.4.2/download.html<br /> 点连接"Download J2SE JRE "下载并安装JAVA运行环境。</p>     <p>b.若可以启动,但对着麦克风说话,DEMO没能正确识别出来。<br /> 那么请检查麦克风是否接好,在QQ,或MSN,或SKYPE中语聊一会<br /> 确认自己的麦克风连接没有问题。</p>     <p>如果你是用的LINUX系统或其他类UNIX系统,<br /> 那么需要修改配置文件,才能正确开始。</p>     <p> </p>     <div style="font-size:14px;">      <span style="line-height:25px;">3. 如果你已经成功运行DEMO,那么你已经对SPHINX4有了感性认识。<br /> 下面来深入一些,了解从语音到识别的这样一个过程。</span>      <p> </p>      <p><span style="line-height:25px;">附件是识别器的示意图。</span></p>      <p><span style="line-height:25px;">下面简单说一下各模块的用处</span></p>      <p><span style="line-height:25px;">FrontEnd:<br /> 前端处理模块,把语音转换成特征就是由这个模块完成。<br /> FrontEnd经过简单的配置后可以<br /> 将Wav文件、麦克风甚至倒谱(cepstrum)文件做为输入。</span></p>      <p><span style="line-height:25px;">Decoder:<br /> 解码器,将搜索语言模型,找出与特征相对应的识别项(一般是音素)</span></p>      <p><span style="line-height:25px;">Linguist:<br /> 金山给的翻译是语言学家,这样称为语言模型更贴切。<br /> 它包括三个部分,<br /> AcousticModel:声学模型,建立输入声音和音素的关系<br /> Dictionary:字典,可以接受的音素范围。<br /> LanguageModel:语言模型,建立字与字之间先后语言关系。<br /> 这三个模型是预先建立好的,我会在模型创建那段去<br /> 仔细讲这三个模型。</span></p>      <p><span style="line-height:25px;">更详细的信息从下面的白皮书上可以查到<br /> <a style="color:#003377;text-decoration:none;" class="ilink" href="/misc/goto?guid=4959499877647950233" target="_blank">http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4Whitepaper.pdf</a> </span></p>     </div>     <p><img border="0" alt="语音识别系统 Sphinx-4 介绍" src="https://simg.open-open.com/show/9f1ce447c8912c5d9bd578532ded9f9f.jpg" width="508" height="421" /><br /> <br /> </p>     <p><strong>项目主页:</strong><a href="http://www.open-open.com/lib/view/home/1324807508858" target="_blank">http://www.open-open.com/lib/view/home/1324807508858</a></p>     <p><br /> 转自:http://www.xiruibin.com/archives/57</p>    </div>