MFCC语音特征参数提取方法后产生的图如何经过DTW算法进行特征对齐

一、人工智能
  从LeNex手写数字识别,AlexNet图像识别,到无人驾驶汽车,再到Alpha Go、Alpha Go Zero的横空出世,人工智能无疑已经成为了当下科技的大热。那么什么是人工智能呢?直白点,人工智能就是让机器拥有人的智能。科学家们为了让机器拥有智能,从人是如何识别、思考、解决问题的角度出发,为机器量身订做了一套方案。
  神经网络就是一个最好的例子:早期,科学家们从鸟儿的翅膀发明了飞机,现在,科学家们从人是如何思考的,大脑是如何运作的出发,进而发明了神经网络。下面我们要引出本篇博客的重点mfcc特征提取算法,这也是基于人类的行为而发明出来的。
二、mfcc算法
  mfcc是为了完成声音识别而开发出来的一套算法,基于人是如何识别声音的。首先明确四点:
  1.语音信号的大部分信息包含在低频分量中;
  2.语音信号的大部分信息包含在低幅部分中;
  3.人耳听到的声音高低与声音频率不成线性关系,但是与该声音频率的对数近似成线性正比关系;
  4.人并不能区分所有频率分量,只有两个频率分量相差一定带宽时(1000hz以下,带宽恒定100hz;1000hz以上,带宽与中心频率成指数关系),人类才能区分,否则人就会把两个音调听成一个,这称为屏蔽效应,带宽称为临界带宽;(中心频率:声音高低主要与频率有关,由于的太宽(从20Hz到20000Hz),为便于进行,将其分为若干段,称为。每频程的上限与下限频率的称为该频程的中心频率)
  MFCC在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的研究成果,采用这种技术语音识别系统的性能有一定提高。
  mfcc是一种特征,这个特征在自动语音和说话人识别中广泛的使用。
  如果现在给我们一段语音,我们首先得到它的频谱包络(连接所有共振峰值点的平滑曲线,共振峰值携带了声音的辨识属性,如同人的身份证),但是对于人类来说,人类听觉的感知至聚焦在某些特定的区域而不是整个频谱包络,而MEL频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量。它在低频区域有很多的滤波器,在高频区域则较少。
  人耳听觉的特性与Mel频率的增长一致,Mel滤波器能向人一样的去提取特征。(而gfcc是基于GT滤波器的)
阅读(...) 评论()网站已改版,请使用新地址访问:
DTW 语音识别的matlab仿真,有文档详细说明,MFCC特征提取,DTW算法 。对10个简单
266万源代码下载- www.pudn.com
&文件名称: DTW& & [
& & & & &&]
&&所属分类:
&&开发工具: matlab
&&文件大小: 1011 KB
&&上传时间:
&&下载次数: 64
&&提 供 者:
&详细说明:语音识别的matlab仿真,有文档详细说明,MFCC特征提取,DTW算法识别。对10个简单语音命令进行识别-Speech recognition matlab simulation, documentation detailed description, MFCC feature extraction, DTW algorithm to identify. On 10 simple voice command recognition
文件列表(点击判断是否您需要的文件,如果是垃圾请在下面评价投诉):
&&myVoice&&.......\dtw.m&&.......\dtwtest.m&&.......\DTW算法原理分析与源码.doc&&.......\enframe.exe&&.......\enframe.m&&.......\enframe_mex.mexw32&&.......\mfcc.m&&.......\mfcc.mat&&.......\readme.txt&&.......\test&&.......\....\01.wav&&.......\....\11.wav&&.......\....\21.wav&&.......\....\31.wav&&.......\....\41.wav&&.......\....\51.wav&&.......\....\61.wav&&.......\....\71.wav&&.......\....\81.wav&&.......\....\91.wav&&.......\train&&.......\train.m&&.......\.....\00.wav&&.......\.....\10.wav&&.......\.....\20.wav&&.......\.....\30.wav&&.......\.....\40.wav&&.......\.....\50.wav&&.......\.....\60.wav&&.......\.....\70.wav&&.......\.....\80.wav&&.......\.....\90.wav&&.......\vad.m&&.......\基于DTW算法的语音识别原理与实现.doc
&[]:很好,推荐下载&[]:很好,推荐下载
&近期下载过的用户:
&&&&&&&&&&&&[]
&相关搜索:
&输入关键字,在本站266万海量源码库中尽情搜索:
&[] - stm32f105rb 开发的 带UCOSII操作系统的 LED驱动程序,使用了USART2中断和FLASH在线编程
&[] - multisim仿真实例,包含内容全面,有模拟电路,数字电路课程里常用的各种仿真。
&[] - MFCC,即倒谱系数,也是语音的一个特征之一,能够充分利用人耳的特性
% 具体的求法就是预处理,然后加窗,进行傅立叶变换,再求出功率普
% 然后得出其自然对数,最后进行dct变换
% 代码是用matlab写的,用到的一个语音工具箱,可以从网络上下载。
&[] - 机器人语音识别系统,通过麦克风输入命令,能够识别十几种命令,window7编译通过
&[] - MFCC特征提取, DTW匹配,老外写的,值得学习。
&[] - 隐马尔科夫模型是语音识别中的重要算法思想,这里在matlab下实现了一个原理性的算法
&[] - 这是一段语音识别的c++源程序,包括预处理,端点检测,线性倒谱系数,DTW算法模式匹配。
&[] - 0到9的数字语音识别 包含matlab源代码 DTW算法
&[] - 关于语音识别的Matlab程序
&[] - 本文介绍了基于MATLAB的语音识别系统,包括对语音信号的特征提取,包括语音信号的特征提取,快速傅立叶变换,离散余弦转换,线性预测分析,梅尔频率倒谱系数以及高斯混合模型。基于DSP的车载语音识别控制系统的设计--《武汉理工大学》2013年硕士论文
基于DSP的车载语音识别控制系统的设计
【摘要】:随着语音识别技术的飞速发展以及大规模集成电路的不断改进,语音识别技术在电子产品中已经得到广泛的应用。时代的进步使得汽车在人们日常生活中的应用不断普及,将语音识别技术应用在车载设备上则可以大大提高汽车的安全性能与舒适性。
论文设计的是一种基于DSP芯片TMS320VC5509A特定人、小词汇量车载语音识别系统。在对语音识别算法进行仿真设计与对比的基础上,对算法进行选取。进行了系统硬件设计以及基于DSP软件开发环境的算法程序设计工作。将算法程序移植到DSP硬件环境中,按照识别结果对显示设备进行控制。
首先结合国内外语音识别技术的研究现状,阐述本课题研究背景及意义。根据语音识别系统的组成,对语音信号预处理、端点检测、特征参数提取以及识别匹配等处理过程的相关算法进行介绍,并给出了各个部分在车载噪声背景下仿真程序设计方法。重点对比分析LPC以及MFCC特征参数提取方法,HMM模型以及DTW语音识别算法。并以此为基础,确定本系统所选用的算法。
其次在借鉴已有技术的情况下,结合硬件系统设计框图,阐述了本系统的硬件设计方案。重点对信号处理核心单元、语音采集模块、CPLD控制模块、外部显示接口、车载电源模块等进行设计,并给出硬件设计的电路连接图。在电路连接图的基础上,对各个模块的相关重点信号如何工作及控制进行细致分析。
然后基于DSP软件开发环境,对语音识别各个工作模块的算法进行软件设计。给出预处理、端点检测、特征参数提取、语音识别、外设控制等各个部分的算法程序设计流程图,对各个算法在基于DSP开发时遇到的重难点以及处理方法进行了说明,详细叙述了在定点芯片编程时,Q定标的方法。
最后给出基于硬件环境下的软件设计流程框图,详细阐述使用CSL库进行硬件驱动配置的方法、链接命令文件和中断服务程序的编写方法。在此基础上,将基于DSP软件开发环境编写的算法软件移植到硬件系统中,以图形方式给出每个算法模块在DSP中运行的结果,根据识别结果控制相应的显示设备进行显示,以检验算法的可行性。在实际车载噪声背景下,对多个语音词汇进行识别率的对比,对本系统设计效果进行评估并对本文进行总结,指出今后工作方向。
【学位授予单位】:武汉理工大学【学位级别】:硕士【学位授予年份】:2013【分类号】:TN912.34
欢迎:、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
黎塔;蔡尚;赵庆卫;潘接林;颜永红;;[J];东南大学学报(自然科学版);2009年S1期
周跃海;童峰;洪青阳;;[J];厦门大学学报(自然科学版);2012年02期
中国博士学位论文全文数据库
杜俊;[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库
周旭;[D];吉林大学;2011年
文林;[D];中南大学;2011年
符聪;[D];湖南大学;2008年
肖勇;[D];中南大学;2009年
韩玉强;[D];山东大学;2010年
周春荣;[D];重庆大学;2010年
黄文龙;[D];重庆大学;2010年
胡优;[D];电子科技大学;2010年
刘德;[D];哈尔滨工业大学;2009年
斯芸芸;[D];重庆大学;2012年
【共引文献】
中国期刊全文数据库
徐华军;;[J];安徽电气工程职业技术学院学报;2006年01期
王明艳;张海峰;;[J];安防科技;2008年01期
蒲东兵;马志强;庞长明;孙英娟;于哲舟;;[J];安防科技;2008年02期
罗云贵;张友纯;;[J];安防科技;2010年02期
张道信,周爱毓;[J];安徽大学学报(自然科学版);2004年04期
陈蕴谷;;[J];安庆师范学院学报(自然科学版);2010年01期
蔡文海;[J];安徽水利水电职业技术学院学报;2003年01期
王琳;周起勃;;[J];半导体光电;2008年06期
郭颖,方光荣;[J];半导体技术;2005年03期
邱宽民,赵胜凯;[J];北方交通大学学报;2000年05期
中国重要会议论文全文数据库
王鹤鸣;;[A];天津市电视技术研究会2012年年会论文集[C];2012年
董静;刘健刚;;[A];2011'中国西部声学学术交流会论文集[C];2011年
张辉;戴敬;;[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
李曼曼;杨鸿武;洪宁;杨硕;刘亚丽;;[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
黄晓丹;洪青阳;李琳;李稀敏;梁大伟;陈万里;吕伟辰;丘敬云;王薇;;[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
林喜荣;潘鹏;于政涛;夏雄武;蔡良伟;;[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
陈华明;孙广富;卢焕章;常青;;[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
方杰;李英;陶泯;;[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
闵刚;蒋永生;杨吉斌;张雄伟;;[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
杨威明;;[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库
黄湘松;[D];哈尔滨工程大学;2010年
柳春;[D];西北民族大学;2010年
尹伟;[D];武汉大学;2009年
曾庆虎;[D];国防科学技术大学;2010年
许敏强;[D];中国科学技术大学;2011年
刘亚辉;[D];北京邮电大学;2011年
梁彦霞;[D];西安电子科技大学;2011年
李烨;[D];西安电子科技大学;2011年
尉洪;[D];云南大学;2011年
吕钊;[D];安徽大学;2011年
中国硕士学位论文全文数据库
王萍;[D];山东科技大学;2010年
徐艳;[D];长春理工大学;2010年
楼侃;[D];长春理工大学;2010年
靳志强;[D];郑州大学;2010年
史文韬;[D];哈尔滨工程大学;2010年
曹唯伟;[D];哈尔滨工程大学;2010年
张立华;[D];哈尔滨工程大学;2010年
侯春玲;[D];哈尔滨工程大学;2010年
徐雯;[D];哈尔滨工程大学;2010年
王文姝;[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库
陈志鑫,郭华伟;[J];半导体技术;2001年04期
孙越,王玥,张春,王志华;[J];半导体技术;2002年06期
宋一扬,李金平;[J];北方交通大学学报;2004年05期
黄新宇,吴淑珍;[J];北京大学学报(自然科学版);2000年05期
甄斌,吴玺宏,刘志敏,迟惠生;[J];北京大学学报(自然科学版);2001年03期
王炜,刘峰,吴淑珍;[J];北京大学学报(自然科学版);2003年05期
包威权,陈珂,迟惠生;[J];北京大学学报(自然科学版);1997年03期
黎洪松;刘洪伟;;[J];北京邮电大学学报;2006年04期
林琳;王树勋;王秀丽;;[J];吉林大学学报(信息科学版);2006年03期
金学骥,叶秀清,顾伟康;[J];传感技术学报;2005年02期
中国重要报纸全文数据库
北京大学信息科学中心视觉与听觉信息处理国家重点实验室
吴玺宏;[N];计算机世界;2001年
中国博士学位论文全文数据库
李靓;[D];北京工业大学;2005年
徐金甫;[D];华南理工大学;2000年
陈为国;[D];浙江大学;2004年
解焱陆;[D];中国科学技术大学;2007年
中国硕士学位论文全文数据库
李旭杰;[D];河海大学;2004年
杨树功;[D];西北工业大学;2005年
王稚慧;[D];西安建筑科技大学;2005年
张静亚;[D];苏州大学;2005年
张徽强;[D];国防科学技术大学;2005年
赵姝彦;[D];太原理工大学;2005年
董国军;[D];天津大学;2004年
付贤辉;[D];天津大学;2005年
李建辉;[D];天津大学;2004年
胡宾;[D];武汉理工大学;2006年
【相似文献】
中国期刊全文数据库
李兰芳;汪道辉;董海疆;李国清;;[J];电子技术应用;2006年12期
靳慧龙;李明辉;;[J];现代电子技术;2007年02期
常丹华;郑春蕾;;[J];电子测量技术;2008年04期
靳慧龙;孙军英;张大彪;;[J];微计算机信息;2007年29期
肖圣兵,赵力,刘海滨,吴镇扬;[J];电子与信息学报;2003年06期
查鸿山;高立新;李建波;;[J];福建电脑;2010年03期
马明,张杰,王建宇,黄志同;[J];数据采集与处理;1997年02期
何方,朱杰,郁桦
,曹少华;[J];微型电脑应用;2002年05期
樊贵卿,路庆凤,毋茂盛,刘润生;[J];电子技术;2000年06期
程庆祥;;[J];家电科技;1990年02期
中国重要会议论文全文数据库
何磊;许盛柯;李树青;方棣棠;;[A];第五届全国人机语音通讯学术会议论文集[C];1998年
靳慧龙;;[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
马晓川;刘冬;赵荣椿;;[A];第四届全国人机语音通讯学术会议论文集[C];1996年
赵海滨;王宏;闻绍飞;;[A];第二届全国信息获取与处理学术会议论文集[C];2004年
茹海峰;殷业;;[A];第三届全国信息获取与处理学术会议论文集[C];2005年
杨大利;徐明星;吴文虎;;[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
张化云;关存太;陈显治;;[A];第四届全国人机语音通讯学术会议论文集[C];1996年
朱杰;韦晓东;;[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
计天颖;王作英;陆大金;;[A];第三届全国人机语音通讯学术会议论文集[C];1994年
陈亮;张雄伟;;[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
中国重要报纸全文数据库
本报记者 刘学习;[N];计算机世界;2002年
中国科学院声学研究所研究员
俞铁城;[N];通信产业报;2004年
黄梦;[N];电脑商报;2006年
;[N];中国计算机报;2002年
;[N];计算机世界;2003年
艾文;[N];中国计算机报;2001年
小雷;[N];电脑商报;2006年
潘治;[N];新华每日电讯;2002年
闫婷;[N];计算机世界;2007年
本报记者 钟洪奇;[N];计算机世界;2002年
中国博士学位论文全文数据库
刘纪平;[D];武汉大学;2011年
孙颖;[D];太原理工大学;2011年
吕钊;[D];安徽大学;2011年
李伟;[D];清华大学;2011年
奉小慧;[D];华南理工大学;2010年
丁沛;[D];清华大学;2003年
刘庆升;[D];中国科学技术大学;2010年
李辉;[D];电子科技大学;2010年
赵庆亮;[D];北京化工大学;2012年
孙科林;[D];电子科技大学;2012年
中国硕士学位论文全文数据库
王坚;[D];苏州大学;2010年
吕涛;[D];华东交通大学;2009年
陈晗;[D];华侨大学;2008年
银兵;[D];河南理工大学;2010年
郭恒飞;[D];合肥工业大学;2011年
王秋杰;[D];北京邮电大学;2011年
江超;[D];西安电子科技大学;2011年
王霅煜;[D];上海交通大学;2010年
康燕;[D];太原理工大学;2011年
熊飞丽;[D];国防科学技术大学;2002年
&快捷付款方式
&订购知网充值卡
400-819-9993声音特征提取:MFCC向量
我的图书馆
声音特征提取:MFCC向量
版权声明:本文为博主原创文章,未经博主允许不得转载。
& & & & 声音是模拟信号,声音的时域波形只代表声压随时间变化的关系,不能很好的代表声音的特征,因此,必须将声音波形转换为声学特征向量。目前有许多声音特征提取方法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接口MPEG7等,其中MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特征提取算法。在提取MFCC前,需要对声音做前期处理,包括模数转换、预加重和加窗。
& & & & 模数转换就是把模拟信号转换为数字信号,包括两个步骤:采样和量化,即以一定的采样率和采样位数把声音连续波形转换为离散的数据点。由于日常生活中的声音一般都在8kHz以下,根据Nyquist定律,16kHz采样率足以使得采样出来的数据包含大多数声音信息。16kHz意味着1s的时间内采样16k个样本,这些样本都是以幅度值存储,为了有效存储幅度值,需要将其量化为整数。对于16位采样位数来说,可以表示-之间的整数值,所以可以将采样幅度值量化为最近的整数值。
& & & & 采样和量化后的波形表示为x[n],其中n是时间索引。然后可以对x[n]做MFCC特征提取,算法流程图如图:
一、预加重&
& & & & MFCC特征提取的第一步是增加声音高频部分的能量。对于声音信号的频谱来说,往往低频部分的能量高于高频部分的能量,每经过10倍Hz,频谱能量就会衰减20dB,而且由于麦克风在采集声音信号时电路本底噪声的影响,也会增加低频部分的能量,为使高频部分的能量和低频部分能量有相似的幅度,需要预加强采集到声音的高频能量。加强高频部分的能量能使声学模型更好的利用高频共振峰,从而提高识别准确率。
& & & & 预加重可以通过一个一阶高通滤波器实现,在时域,如果输入信号是x[n]并且0.9&=a&=1.0,滤波器表示为y[n]=x[n]-ax[n-1];在频域则表示为H(z)=1-a*z-1。
二、加窗 &&
& & & & 日常生活中的声音一般是非平稳信号,其统计特性不是固定不变的,但在一段相当短的时间内,可以认为信号时平稳的,这就是加窗。窗由三个参数来描述:窗长(单位毫秒)、偏移和形状。每一个加窗的声音信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界的距离叫帧移。
& & & & 从信号s[n]中提取一帧的过程可表示为y[n]=w[n]s[n],如果w[n]是矩形窗,则信号会在边界处切断,这些不连续会对傅里叶分析造成影响。因此在MFCC中,加窗一般使用边缘平滑降到0的汉明窗,表达式如下:
其中L为帧长。
三、离散傅里叶变换
& & & & 在得到加窗的每一帧信号后,需要知道此帧信号在不同频段的能量分布。从一个离散信号(采样信号)中提取离散频段频谱信息的工具就是离散傅里叶变换(DFT)。DFT的输入是一帧帧加窗后的信号x[n]…x[m],输出则是包含N个频带的复数X[k],表示原始信号中某一频率成分的幅度和相位。DFT的定义如下:
& & & & 计算DFT常用的一个算法是快速傅里叶变换(FFT),它非常高效但是一般要求N是2的幂。
四、&Mel滤波器组
& & & &&FFT的结果包含此帧信号在每一频带的能量信息。但是,人耳听觉对不同频带的敏感度是不同的,人耳对高频不如低频敏感,这一分界线大约是1000Hz,在提取声音特征时模拟人耳听觉这一性质可以提高识别性能。在MFCC中的做法是将DFT输出的频率对应到mel刻度上。一mel是一个音高单位,在音高上感知等距的声音可以被相同数量的mel数分离[18]。频率(单位Hz)和mel刻度之间的对应关系在1000Hz以下是线性的,在1000Hz以上是对数的,其计算公式如下:
& & & &&& &
& & & & 在计算MFCC时,将FFT频谱通过一组mel滤波器组就可以转换为mel频谱。Mel滤波器组一般是一组mel刻度的三角形滤波器组,1000Hz以下的10个滤波器线性相隔,1000Hz以上的剩余滤波器对数相隔。定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,…,M,M通常取22-26(滤波器的个数和临界带个数相近)。各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图:
& & & &&每个三角滤波器的频率响应为:
& & & &&使用三角带通滤波器,可以对频谱进行平滑,并消除谐波的作用,突显原始声音的共振峰。因此一段声音的音调或音高,不会反应在MFCC参数内,也就是说以MFCC作为声学特征,并不会受到输入声音的音调不同而对识别结果有所影响。此外,还可以降低运算量。
& & & & 在得到mel频谱后,计算每个滤波器组输出的对数能量。一般人对声音声压的反应呈对数关系,人对高声压的细微变化敏感度不如低声压。此外,使用对数可以降低提取的特征对输入声音能量变化的敏感度,因为声音与麦克风之间的距离是变化的,因而麦克风采集到的声音能量也是变化的。每个滤波器输出的对数能量为:
五、倒谱:离散余弦变换
& & & &&尽管可以用mel频谱本身作为声音特征,但使用倒谱有其优点并且可以提高识别性能。抛开预加重和mel刻度转换,倒谱的定义可以看做是频谱对数的频谱,即将标准幅度谱的幅度值先取对数,然后形象化对数谱使其看起来像声音波形。倒谱这个单词cepstrum正是将单词spectrum(频谱)的前四个字母颠倒而来,频谱是将时域信号变换为频域信号,倒谱则是将频域信号又变换回时域信号;在波形上,倒谱与频谱有相似的波形,即如果频谱在低频处有个峰值,则倒谱在低倒谱系数上也有峰值,如果频谱在高频处有个峰值,则倒谱在高倒谱系数上也有峰值。所以如果是为了检测音元,可以用低倒谱系数;如果是检测音高,则可以用高倒谱系数。倒谱系数的优点是其不同系数的变化是不相关的,意味着高斯声学模型(高斯混合模型GMM)无需表现所有MFCC特征的协方差,因而大大减少了参数数量。
& & & & 利用滤波器的对数能量,倒谱系数可以由离散余弦变换获得:
式中L指MFCC阶数,通常12阶就可以代表声学特征;M指三角滤波器个数。
六、能量和差分
& & & &&某一帧的能量定义为某一帧样本点的平方和,对于一个加窗信号x,其从样本点t1到样本点t2的能量为:
实际应用中也可以将上式取以10为底的对数值,再乘以10。若要加入其他声音特征如音高、过零率及共振峰等也可以在这一阶段加入。
& & & & 以上提取的特征每一帧单独考虑,是静态的,而实际声音是连续的,帧与帧之间是有联系的,因而需要增加特征来表示这种帧间的动态变化,这通常通过计算每一帧13个特征(12个倒谱特征加上1个能量)的一阶差分甚至二阶差分来实现。一个简单计算差分的方法就是计算当前帧前后各一帧的13个特征的差值:
& & & &&如果不考虑二阶差分,最终每一帧的MFCC特征为26维度:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分。
喜欢该文的人也喜欢基于改进型DTW算法和MFCC的语音识别--《安徽工程大学学报》2014年01期
基于改进型DTW算法和MFCC的语音识别
【摘要】:采用模式匹配的识别技术,建立孤立词语音识别系统,基于MATLAB环境对0~9这10个数字语音进行仿真实验.在提取MFCC的基础上,整合差分倒谱参数作为语音的特征参数,并对现有的DTW算法加以改进,节省了系统匹配的计算时间,使其具有一定的鲁棒性.分别采集普通话语音和湖北、闽南、安徽3地方言的语音数据,体现了数据的完备性和系统的适用性.实验结果表明,基于改进型DTW算法和MFCC的语音识别系统具有较高识别率,取得了良好效果.
【作者单位】:
【基金】:
【分类号】:TN912.34
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【参考文献】
中国期刊全文数据库
杨大利,徐明星,吴文虎;[J];计算机研究与发展;2003年07期
郭继云,王守觉,苑海涛;[J];计算机工程与应用;2004年31期
安镇宙;杨鉴;王红;余映;;[J];计算机工程与应用;2007年15期
荣薇;陶智;顾济华;赵鹤鸣;;[J];计算机工程与应用;2007年30期
张震;王化清;;[J];计算机工程与应用;2008年22期
袁正午;肖旺辉;;[J];计算机工程与应用;2009年33期
汲清波;卢侃;李康;;[J];计算机工程与应用;2010年25期
相征;尹成俊;;[J];计算机系统应用;2008年09期
【共引文献】
中国期刊全文数据库
相征;朗朗;王静;;[J];安徽工程科技学院学报(自然科学版);2008年03期
于哲舟,杨佳东,蒲东兵,周春光,王纲巧;[J];吉林大学学报(信息科学版);2005年02期
周燕;;[J];传感器与微系统;2009年06期
鲁五一;吴德华;谢志明;刘建;;[J];信息化研究;2009年09期
王大巍;;[J];电子技术;2010年11期
刘建;鲁五一;;[J];仪器仪表用户;2009年02期
于瑞华;;[J];中国人民公安大学学报(自然科学版);2007年04期
王钟斐;王彪;;[J];电子设计工程;2011年08期
王钟斐;王彪;;[J];电子设计工程;2011年09期
王彪;;[J];电子设计工程;2011年21期
中国重要会议论文全文数据库
尹洪兵;秦斌;张凡;黄云森;;[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
曾堃;陈东升;童峰;洪青阳;;[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
中国博士学位论文全文数据库
韩志艳;[D];东北大学;2009年
何新;[D];南京理工大学;2007年
孙颖;[D];太原理工大学;2011年
宁爱平;[D];太原理工大学;2013年
中国硕士学位论文全文数据库
周翠梅;[D];大连理工大学;2010年
袁铄;[D];大连理工大学;2010年
吴荣娣;[D];苏州大学;2010年
双丹;[D];华东理工大学;2011年
唐平;[D];西安电子科技大学;2009年
段薇;[D];太原理工大学;2011年
杜晓伟;[D];北方工业大学;2011年
张宝峰;[D];兰州理工大学;2011年
朝木日乐格;[D];内蒙古大学;2011年
韦丽兴;[D];广东工业大学;2011年
【二级参考文献】
中国期刊全文数据库
韩一;王国胤;杨勇;;[J];重庆邮电大学学报(自然科学版);2008年05期
沙丹青,栗学丽,徐柏龄;[J];电声技术;2003年11期
刘长明;任一峰;;[J];中北大学学报(自然科学版);2006年01期
邵央,刘丙哲,李宗葛;[J];计算机工程与应用;2002年05期
郭继云,王守觉,苑海涛;[J];计算机工程与应用;2004年31期
封伶刚,王秀萍;[J];计算机工程与应用;2005年26期
荣薇;陶智;顾济华;赵鹤鸣;;[J];计算机工程与应用;2007年30期
张震;王化清;;[J];计算机工程与应用;2008年22期
江星华;李应;;[J];计算机与数字工程;2008年09期
崔光照,吴晓平,路康;[J];福建工程学院学报;2004年02期
【相似文献】
中国期刊全文数据库
刘云冰;;[J];软件导刊;2005年13期
刘福才;王冬云;;[J];可编程控制器与工厂自动化;2005年11期
王宏;郭艳丽;贾新民;;[J];昌吉学院学报;2006年01期
贺无名;;[J];中国科技信息;2006年18期
石现峰;张学智;张峰;;[J];计算机技术与发展;2006年10期
杨熙;苏娟;赵鹏;;[J];电声技术;2007年02期
张田芳;刘幺和;谭保华;;[J];湖北工业大学学报;2007年02期
邢东洋;杨明极;;[J];哈尔滨理工大学学报;2008年02期
朱润华;王培俊;;[J];机械与电子;2008年04期
陈昌爱;徐华中;;[J];中国水运(下半月);2008年12期
中国重要会议论文全文数据库
王作英;;[A];第二届全国人机语音通讯学术会议论文集[C];1992年
王承发;赵德彬;金山;苗百利;朱志莹;;[A];第二届全国人机语音通讯学术会议论文集[C];1992年
胡春静;吴善培;;[A];第三届全国人机语音通讯学术会议论文集[C];1994年
董林;袁保宗;周继成;;[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
国立新;莫福源;李昌立;;[A];第三届全国人机语音通讯学术会议论文集[C];1994年
王昆仑;樊志锦;吐尔洪江;方晓华;徐绍琼;吾买尔;;[A];第五届全国人机语音通讯学术会议论文集[C];1998年
崔毓菁;刘刚;;[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
王承发;肖毅壮;韩纪庆;;[A];第二届全国人机语音通讯学术会议论文集[C];1992年
何为民;赵锐;陈光发;;[A];第三届全国人机语音通讯学术会议论文集[C];1994年
田岚;南新志;白树忠;;[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库
平远;[N];北京电子报;2000年
;[N];中国计算机报;2002年
孙晓闻;[N];中国劳动保障报;2005年
雨夏;[N];计算机世界;2001年
;[N];计算机世界;2004年
;[N];计算机世界;2002年
中国博士学位论文全文数据库
田斌;[D];西安电子科技大学;1999年
王海艳;[D];吉林大学;2011年
潘逸倩;[D];中国科学技术大学;2012年
刘青松;[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库
林艳生;[D];辽宁工程技术大学;2011年
黄文涛;[D];广东工业大学;2012年
斯芸芸;[D];重庆大学;2012年
王蓓;[D];南昌大学;2013年
叶亮亮;[D];重庆大学;2013年
伍斯龙;[D];华南理工大学;2013年
陈成;[D];西安理工大学;2010年
李新超;[D];华南理工大学;2010年
宋阳;[D];电子科技大学;2011年
肖吉;[D];清华大学;2011年
&快捷付款方式
&订购知网充值卡
400-819-9993}

我要回帖

更多关于 特征参数的提取 图像 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信