周一至周五 | 9:00—22:00

期刊论文网 > 工业技术论文 > 无线电通信技术论文 > 最新无线电论文 认知无线电用户体验质量估计算法实现

最新无线电论文 认知无线电用户体验质量估计算法实现

2018-12-19 13:18:30来源:组稿人论文网作者:婷婷

  摘要

  在通信技术快速发展的今天,测试复杂的语音通信系统和语音编码技术的性能变得更加重要。所以,当前国内外研究者共同研究的目标就是研究出灵活、可靠的语音质量评价系统。目前常用的算法是是国际电信联盟组织(ITU)提出的PESQ算法。该算法改进了早期算法的缺点,考虑到了网络的端到端的时延,且采取改良的听觉模型和认知模型技术,对通信延时、环境噪声等有较好的稳健性。该算法是当前为止,ITU发布的语音质量客观评价算法中与主观评价结果相关度最高的算法。由于在对通信系统进行端对端测量时,要求算法中的两路输入语音,即原始语音和失真语音需要同步被采集,所以本文提出一种基于VS的PESQ系统,该系统需采用GPS的精确授时功能解决系统同步问题,但本文只给出了所提系统的设计方案。本文的主要工作包括以下几个方面: (1)介绍语音质量评价方法的分类及各种方法的性能比较。 (2) 介绍语音质量客观评价的早期模型和不足之处。 (3)系统的研究了当前使用普遍的语音质量评价方法—PESQ算法,分析该算法的实现过程及优点。 (4)通过使用VS的软件开发平台来实现PESQ算法,并对程序进行优化。

  关键词:无线电,PESQ,国际电信

  引言

  无线电通信的应用背景

  由于无线通信技术的高速发展,现在越来越多的无线网络业务被开发了出来,然而作为无线网络中最宝贵资源的频谱,已经很难满足当前和未来的无线业务需要。当前有的固定频谱分配方式使得频谱利用率低,并且严重不均,在经过调查研究发现,任意时间、任意地点的频谱平均利用率在5%以下。动态频谱接入(dynamic spectrum access,简称DSA)被认为是解决该供需矛盾的主要技术途径。

  研究无线电通信的目的和意义

  认知无线电(cognitive radio,简称CR)是在软件无线电基础上提出的。CR 具备对环境的动态感知、决策和传输能力,可以动态接入共享频谱。而无线认知网络是以CR 为业务终端的网络。授权用户与未授权用户共存。未经授权的CR用户可以感知免费频谱资源,最大限度地利用频谱资源而不干扰授权用户。目前无线网络领域最前沿的研究热点之一就是无线认知网络的研究。

  认知无线电作为下一代通信技术,可以检测周围的通信环境,动态地利用未被授权用户未充分利用的频谱资源,解决频谱利用率低的问题。认知无线电的研究主要集中在频谱感知、功率控制和频谱管理等方面。这些研究主要集中在单个QoS性能指标上,例如最大化网络吞吐量和降低丢包率,提高用户公平性等,但却没有综合地考虑用户的需求和期望,以达到相应的QoE标准。所以,认知无线电网络中的QoE管理研究仍处于相对空白的阶段。

  2语音质量评价的分类

  2.1主观评价

  主观评价方法是以一定的预设原则为基础,对语音质量作出主观等级的评价,或进行比较的结果。它反映了听者对语音质量的主观印象。不同的主观评价方法对语音质量考察的侧重点不同,常见的主观评价方法有平均意见分(MeanOpinionScore,MOS)方法、判断韵字测试(DiagnosticRhymeTest,DRT)方法、失真平均意见分(DegradationMeanOpinionScore,DMOS)、判断满意度测试(DignosticAcceptabilityMeasure,DAM)方法和汉语清晰度测试。

  2.2客观评价

  语音质量客观评价是利用机器自动区分语音质量,根据输入语音是否使用的角度可分为两类:基于输入—输出模式的客观评价和基于输出模式的客观评价。基于输入—输出的客观评价比较输出和输入语音之间的差异(失真)程度,将差异量值作为语音质量的衡量依据;基于输出的客观评价则仅由输出语音就可对语音的质量做出评估。在应用中,输入语音也常称为原始语音或者参考语音,通过系统的输出语音常称为失真语音。以往的音质客观评价研究大多集中于输入—输出方式,随着技术发展和对通信服务质量的重视等,基于输出的语音质量评价技术正越来越受到人们的关注。客观评价不受人为主观因素的影响,成本低廉,灵活性好,效率高,具有可重复性,且可实时使用,例如对VoIP网络中语音传输质量的实时监控和用于指导系统中设备参数调整等。

  尽管科学家对人类的感官感知和神经信息处理机制做了大量的研究的并取得一定的成果,但人们对人类感知的机理和大脑活动的运作方法仍处在一知半解的初级阶段,因此我们还无法建立一个能完全模仿人类音质感知过程的客观评价系统,只能根据所获得的信息作出尽可能正确的评价,所建立的客观评价系统也与人类所具有的感知评价能力相差甚远。因此,客观评价并不能完全取代主观评价。

  在实际应用中,通常将主观评价和客观评价结合使用。客观评价常用于系统的设计、调整以及现场实时监控阶段,主观评价作为实际效果的最终检验,两者相辅相成,用于不同的场合。其次,客观评价系统的优劣取决于由它得到的客观评价结果与主观评价结果是否具有统计意义上高相关性以及小的偏差,因此客观评价系统的设计必须以主观评价为基础,并借鉴主观评价主体的感知功能和智能特性。一个合格的客观评价系统能够在一定范围内代替主观评价对语音质量做出准确的判断。

  2.2.1客观音质评估的国内外研究的概况

  客观音质评估最早可以追溯上个世纪四十年代,而为客观音质评价方法研究奠定基础的应归功于S.R.Quackenbush和T.P. Barnwel l III,他们对二十世纪八十年代中期以前的音质评价研究工作作了系统归纳,出版了一本有关客观音质评价的专著。两人建立了264种失真条件,得到了11880个样本的失真语音库,提出了谱距离、斜率加权谱距离、对数面积比、分段变频信噪比等客观评价方法。

  二十世纪八十年代后期各国的研究者又提出了许多新的客观评价方法。如BellNorthern Research提出的相关函数方法CHF(Coherence Function),它是一种加权信号失真比测度方法,通过描述人的听力敏感度、人对噪声门限效果以及电话听筒接收的敏感度等来对电话语音质量进行评价;日本NTT研究人员N. Kitawaki等人提出的倒谱距离CD(Cepstral Distance)方法,它是由原始语音信号和失真语音信号的1阶LPC(Linear Predictive Coding)系数分别推导出各自的倒谱系数C(i),然后求出它们之间的倒谱距离,其相关度达到了0.9左右,是一种与主观评价相关性较好的评价方法;美国电信科学研究院ITS(The Institute for Telecommunication Sciences)学者R. Kubichek和E.A. Quincy等人提出的专家模式识别EPR(Expert Pattern Recognition)方法,该方法运用贝叶斯估计原理来寻求语音信号的特征参数与语音质量之间的非线性关系,测试结果表明ITS法也比较令人满意。

  2.2.2客观评价原理

  以输入-输出方式为基础的客观评价是在信号特征表示的基础上对失真语音和原始语音进行比较。下图为基于输入-输出的客观评价的模块原理图,从流程上分为预处理、语音信号特征提取、客观失真量计算和质量等级映射四大模块。

  原始语音 失真语音

  通信系统

  预处理 预处理

  特征提取 特征提取

  客观失真量计算

  映射模块

  预处理包括输入-输出语音信号的同步处理、电平规整、分帧等处理步骤。同步处理是为了保证所比较的输入和输出语音单元之间有正确的对应关系,否则将对客观评价结果产生巨大的偏差;为了消除语音信号幅度差异对主观听觉的影响,必须通过电平规整保证输入和输出语音的声压级基本相同;尽管语音是时间变化的不稳定信号,但是在一个时间不长范围内(10ms-30ms),其性能相对稳定,因此可以将连续语音信号分割 为短时间范围的时间片序列以便于后续的特征参数分析。这样,对于整体的语音信号,通过预处理环节,语音信号杯分割以帧为单位、加窗处理过的短时信号。

  语音信号处理的前提条件和基础是语音信号分析,语音信号分析的目的是为了得到需求的信息,获取特征表示参数。曾有语音处理专家在论文中表示:语音信号的表示是人类近代科学研究中很少碰到的难题之一。虽然语音信号是一维波形信号,但仅从时域上描述其特性是远远不够的,特别是在音质评价中,两个时域波形差别很大的语音信号的主观音质感觉可能基本相同,因此需要使用频域分析及其他信号分析方法表示信号的特征。对于语音帧序列,语音信号特征提取模块使用适当的分析方法,得到表示语音信号的特征参数。特征参数对音质评价效果有极其重要的影响,音质评价的特殊性对所使用的语音特征参数有着独特的要求。

  客观失真量计算模块用于计算失真量。所谓失真量是指原始语音和输出语音特征参数之间的总体差异量,该量值反映语音通过系统后的质量变化,即输出语音对于原始语音的失真程度。由于尚不清楚人类听觉系统、感知神经系统以及大难思维在判断语音质量过程中的相互作用,无法建立人类感知语音失真程度的真实数学模型,因此常采用Lp,范数形式计算客观失真量。

  为了与主观评价等级一致,通常将客观评价所得到的失真量映射为主观评价的尺度表示,如MOS的5级表示,映射模块即完成此功能。映射模块可按二次或者三次多项式函数拟合形式建立客观失真量与主观等级分之间的对应关系。

  使用基于输入-输出的客观评价时要求原始语音和失真语音之间做到严格同步,而在实际应用中,严格同步的要求并不容易得到满足,同时在某些应用场合中难以或者不便于采集到原始语音材料,这就要求发展基于输出语音的客观评价方法。

  基于输出的客观评价方法仅对输出语音信号处理,因此在预处理中不再需要端点同步处理步骤,其他处理模块的功能等同于基于输入-输出的客观评价方法,但在模块具体实现中,如特征提取等,必须使用适合基于输出评价方式的方法和技术手段。下图为基于输出方式的客观评价的模块原理图。

  原始语音 失真语音

  通信系统

  预处理

  特征提取

  客观失真量计算

  映射模块

  2.2.3不同客观评价方法比较

  各种语音质量客观评价方法性能比较

  语音质量评价方法 相关度|p| 语音质量评价方法 相关度|p|

  基于信噪比的评价方法 基于听觉模型的评价方法

  SNR 0.24# MSD 0.86

  Segment SNR 0.77# BSD 0.89

  Frequency variant seg.SNR 0.93# MBSD 0.95

  基于LPC分析的评价方法 PSQM 0.94

  Log LPC 0.34 PESQ 0.97

  Linear reflection coefficient 0.46 PLP 0.82

  Log likelihood ratio 0.48 PLP-Cepstral 0.84

  Line spectrum pairs 0.35 PLP-Delta Cepstral 0.67

  Log area ratio 0.62 基于判决模型的评价方法

  CD 0.90 L(AD)/MNB-1 0.95

  基于谱距离的评价方法 L(AD)/MNB-2 0.96

  Spectral distance(SD) 0.80 其他评价方法

  Log SD 0.60 II 0.69

  Frequency variant linear SD 0.68 CHF 0.82

  Frequency variant log SD 0.70 ERP 0.88

  Weighed slope SD 0.74

  Inverse log SD 0.75

  #只是对波形编码的测试结果

  表给出了采用不同技术的各种方法的性能对比。相关度p用来表示客观评价与主观评价之间的相关性。

  从表看出听觉模型在语音质量客观评价的研究中占有十分重要的地位。从语音质量客观评价方法的发展过程能够看到,只要在评价中考虑了人对语音信号的感知特性就会大幅度增加整个评价方法的性能。具有代表性的基于听觉模型的方法有:BSD、MBSD、PSQM、PESQ、PLP、MSD等。

  判断模型的研究也已开始受到重视。人对语音质量的评估包含两个过程:听过程和判断过程,因此,有必要构造良好的判断模型并和听觉模型相结合起来建立更符合主观评估过程的客观评价方法。虽然目前判断模型的研究已有所进展,如AD/MNB方法等,但是这方面的研究工作还有待于进一步深入下去。

  本文所探讨的PESQ算法采取了改良的听觉模型和认知模型技术,并且有一个动态的时间对其模块,对通信延时、环境噪声等有较好的特性。从表能看出,它是基于听觉模型的评价方法中与主观相关度最高的一个,下面将详细分析其算法实现过程。

  语音质量客观评价算法

  早期模型介绍

  初期有若干以听觉模型为基础的语音质量客观评价方法,但有很多是过度算法,并没有得到广泛应用。目前比较成熟的算法有:PSQM、PAMS、MNB、PESQ等。

  PSQM算法

  3.1.1.1 PSQM的概念

  PSQM(Perceptural Speech Quality Measurement)是由荷兰的KPN研究机构开发出来,用于测量数字编码器的客观质量。最早被广泛应用的编码器测量手段是测试语音信号的信噪比S/N,但这种测试方法对现代越来越多的低压缩比编码器并不适用。PSQM则是通过比较声源和退化两种信号,测出后者的失真水平、噪音以及保真度。它已被国际电联制定成P.861推荐规范,并在PSQM的基础上进行强化得到一个增强型算法PSQM+,能够更有效地分析大量瞬时失真。但这两种算法不处理信号过滤、不同的延时以及短暂局部失真。(现ITU-T已经将P.861废弃,由P.862取代)

  3.1.1.2 PSQM算法的框图

  以下块旨在表示建模的认知部分。 “不对称处理”应该考虑到由被测设备引入的失真比被编解码器遗漏的信号组件更容易被感知。 最后,随着时间的推移,“无声区间加权”将在不同的声音和语音活动区间之间有所不同。 据认为,这个参数可以使认知过程适应文化差异。 结果表明,在世界几个地方进行的几乎相同的主观测试,包括不同的语言,导致了不同的结果,例如在欧洲和亚洲。 得出的结论是差异是由语言差异和伴随的文化差异造成的。 例如,如果在电话交谈期间有更多的无声间隔,那么嘈杂的地板可能会更烦人。

  3.1.1.3 PSQM测量算法基础

  上图详细的框图显示了如何计算PSQM。在第一步中,两个输入信号x和y的时域表示被转换到频域。这种转换是通过选择输入到FFT的输入采样块来完成的。 Hann窗口被应用。 (线性)频率刻度被转换为音调刻度(“频率翘曲”)。音高建模通常也被称为“树皮变换”。然后用接收设备(例如手机,扬声器或耳机)的传输特性对基准和测试信号进行滤波。添加“Hoth噪声”信号以模拟典型办公环境中存在的背景噪声。其目标是考虑到真实世界环境噪声的掩蔽效应,以适当模拟掩蔽的阈值。随后的“强度扭曲”过程导致作为音调和时间的函数的压缩响度的表示。通过减去两个信号表示,导出可听错误的估计。差异信号当然仍然是音调和时间的函数。

  PAMS算法

  由英国电信开发出来的PAMS(Perceptual Analysis/Measurement System),它根据收听费力水平和收听质量,通过感官模子来比较声源以及经网络传输后退化的接听两种信号。PAMS分析退化信号中发现的不同类型的错误,将不同类型错误参数化并映射到预测感官模型上。这个模型是在进行大量的主观听力测试后建立的一个数据库。评测的结果给出一个综合意见评分值MOS,分值范围在2-5之间,5分代表最佳质量分值。

  MNB算法

  MNB算法是由S.Voran在总结前人工作基础上提出的。他认为人对语音的评价应该包括两个方面,一个是收听过程,另一个是判断过程。虽然这两个过程不能严格区分,但是人在感觉语音质量时,在这两个过程中的行为是不同的。之前 的方法比较侧重于模拟人的收听过程(听觉模型),判断过程则予以很大的简化。基于听觉过程的基础上的MNB方法的原理是,通过采取MNB结构来虚拟形成人的判断过程,再求出听觉距离,将其映射到一个有限的范围内,产生最终的模型输出。

  早期模型缺陷

  近年来VoIP技术逐渐兴起并成熟,服务质量(QoS)成为影响VoIP发展和推广的主要因素,成为人们最关注的问题,如何方便、快捷的测试通话质量成为VoIP中一项关键技术。和普通电话网络相比,VoIP电话网络采取语音压缩编码算法在分组交换网络中传输语音通过数据包的形式。因此,这大大提高了对传输线路的时空利用率。但是现代分组电话也碰到了早期电话所没有的话音质量问题,如传输语音畸变和频繁的断话现象。引起这些问题的主要原因是VoIP网络的延时、丢包、沿切割和抖动等问题,其中延时问题尤为明显。早期模型不能很好的解决这些问题。

  可变延时

  VoIP网络中采用分组交换实时地传输语音和数据。以分组的传输为基础中,利用编码算法把语音编码以及支解成独立的数据包。被支解成的数据通过通过网络发送到接收端,然后在接收端进行重新组装合解码,还原成语音流。由于用来传输数据包的路由不同,导致这些数据包可能会以不同的顺序到达接收端,而且还会产生丢包。导致每个包的时延大小不同, PESQ模型考虑了这种情况,将系统的延时考虑为分段常量延迟。

  此外,在VoIP网络中,语音编码大多采用参数编码方式,例如ITU-T的G.729和G.723.1算法。这些算法本身就存在着算法延时。

  早期模型的听觉转换都是先用加窗FFT得到谱估计,接着把频谱映射到感知频域和响度刻度,通过帧到帧的比较信号,提取出参差参数。然而,对参考信号和失真信号加窗并进行FFT变换时,加窗会对信号产生人为的作用。而语音信号具有时变特性。如果参考信号和失真信号的时间对齐产生错误,即使仅是帧长的一小部分,也会导致所测残差信号误差很大。PSQM、MNB模型对可变延时的敏感度很高。实验证明,一个20ms的延时变化,足够导致PSQM的质量下降大约1MOS;而对于MNB模型,5ms的延时变化就能够导致1MOS分的下跌。

  线性滤波

  现代通信网的许多模块都用到了大量的线性滤波器。尽管收听者能够感受到线性滤波器的一些效果,但是与非线性编码失真相比,其影响非常小。早期模型像BSD、PSQM、MNB并没有对此作区别,因此仅由线性滤波就会测出大量的残差,这就要求用于端到端语音质量评价的感知模型要提供较小的线性失真才能获得满意的效果。这可以通过均衡参考信号与失真信号达到。常规的线性函数均衡技术是不能使用的,因为它对低速率语音编码器不稳定。采取部分补偿的方法可以消除大部分的滤波效果,而只有一小部分可以通过感知模型来测得,这方法已应用于PSQM模型和PESQ模型中。PEAQ使用全部补偿和由此产生的线性失真作为最终的主观MOS分的回归分析中的一部分。

  可变增益

  有时语音是由低频振幅调制的,该过程通常伴随着自动增益控制(AGC),AGC可以动态地将语音调整到一个标准电平级上,它的目的是消除用户设备可变损耗或不同国家网络间传输幅度级变换产生的影响。但是,有时会由于北京噪声和正常声音变化的影响而出现意想不到的增益变化在语音质量评价中。因为语音是时变的,在连续情况下,达10db的增益变化也不会使人反感。因此,对于基于内部响度表示比较的语音感知模型,跟踪和增益均衡是十分必要的,否则即使是人耳听不到的失真也会影响MOS分值很大的跌落。早期模子MNB根本不考虑可变增益的影响,PAMS模型只有在语音静默期时发生增益变化,才能够对其计算和消除,然而只能进行测量发生在活动期的增益变化。PESQ模子沿袭PSQM模型中的法子,可以自适应的追踪帧到帧的包络变化,并历经一段时间会检测到由增益变化引起的残差,从而消除增益变化的影响。

  PESQ算法

  由英国电信以及KPN联合研发出来的PESQ(Perceptual Evaluation of Speech Quality)算法在2001年被ITU采纳为P.862规范。它通过比对声源和退化两种信号,给出一个与人工听力评估测试相似的MOS分值,属于插入式(Intrusive)测试算法。它具有着强大的功能,不仅能测试网络单元的效果,如解码器,而且还测量端到端的语音质量;同时,能着重针对不同的信号恶化原因,像编解码失真、错误、丢包、延时、抖动以及过滤,并给出测试结果。在当前业界已商用的、已标准化的算法中,是最优的算法。PESQ算法是当前与MOS评分相关度最高的客观语音质量评价算法,达到0.97。

  PESQ算法的总体思路

  刚开始把参考语音和失真语音两种信号调到标准听觉电平,然后利用输入滤波器进行滤波通过模拟标准电话听筒,再把两个信号进行时间对齐,把对齐的信号进行听觉变换,换后的输入与输出信号差称为干扰度,经过认知模型处理,最后得到PESQ分值。在干扰度的处理中可能会识别出坏区间,这样就需要对坏区间进行重新对齐。

  PESQ算法框图

  由于PESQ中的许多步骤在算法上相当复杂,因此描述并不容易用数学公式表示。下面给出了该算法的核心模块的框图。

  3.5.1水平和时间校准预处理模块

  在PESQ中使用的对齐程序概述来确定每个时间间隔的延迟di

  3.5.1.1计算总体系统收益

  例如,被测系统的增益不是先验知道的,可能会有很大的变化取决于是使用ISDN连接还是模拟2线接口测量。此外,没有单个校准电平来存储原始信号在。因此,有必要将原始X(t)和退化信号Y(t)对齐到同一水平,恒定的功率水平。PESQ假定主观听力水平是一个恒定的79 dB SPL耳参考点(见8.1.2 / P.830)。PESQ中的级别对齐算法如下进行:

  1) 计算原始信号和降级信号的滤波版本。过滤器阻止所有低于250Hz的元件在2000Hz之前是平坦的,然后以分段线性下降通过以下几点进行响应:{2000Hz,0dB},{2500Hz,.5dB},

  {3000Hz,.10dB},{3150Hz,.20dB},{3500Hz,.50dB},{4000Hz及以上,.500分贝}。 这些信号的滤波版本只用于这个计算整体系统收益。

  2) 平方滤波的原始语音样本的平均值和滤波降级语音样本被计算。

  3) 计算并应用不同的增益以对齐原始X(t)和降级语音信号Y(t)变为恒定的目标电平,导致这些的缩放版本XS(t)和YS(t)信号。

  3.5.1.2 IRS过滤

  假定聆听测试是使用IRS接收或修改的IRS接收进行的手机中的特征。人类评估语音质量的感知模型必须考虑到这一点来模拟受试者实际听到的信号。因此IRS式接收计算原始语音信号和退化语音信号的滤波版本。

  在PESQ中,这是通过文件长度上的FFT实现的,在频域中进行过滤具有类似于(未修改的)IRS接收特性的分段线性响应(ITU-T P.830),然后在语音文件的长度上进行逆FFT。这导致了经过缩放的输入和输出信号XS(t)和YS(t)的经过滤版本XIRSS(t)和YIRSS(t)。 单一类似IRS(如图)的接收滤波器在PESQ中使用,而不管真正的主观实验使用IRS或修改过的IRS过滤。这种方法的原因是在大多数情况下确切的过滤是未知的,并且即使已知手机与耳朵的耦合不是众所周知。因此,要求客观方法对过滤相对不敏感的手机。在时间对准过程和感知模型中均使用IRS滤波信号。

  IRS滤波(听筒带宽大约300hz-3100hz)

  3.5.1.3 时间对齐

  时间对齐例程向感知模型提供时间延迟值以允许原始文件和降级文件的相应信号部分进行比较。这种对齐过程需要几个阶段:

  1、使用整个原始和退化信号的基于包络的延迟估计;

  2、将原始信号划分成许多称为话语的小节;

  3、对话语的基于包络的延迟估计;

  4、基于精确相关/基于直方图的对最近样本的话语延迟的识别;

  5、分裂话语并重新调整时间间隔以搜索期间的延迟变化言语;

  6、在感知模型之后,识别并重新排列要搜索的大型错误的长段对齐错误。

  3.5.1.4 基于信封的对齐

  信号XES(t)k和YES(t)k是从缩放的原始信号和退化信号XS(t)计算出来的,和YS(t)。 包络被定义为LOG(MAX(E(k)/ Ethresh,1)),其中E(k)是以4ms为单位的能量帧k和Ethresh是语音活动检测器确定的语音阈值。原始和退化信号的包络的互相关被用于估计原油它们之间的延迟,大约4毫秒的分辨率。

  3.5.1.5 精细时间对齐

  由于感知模型对时间偏移敏感,因此有必要计算精确的样本延迟值。计算如下:

  1、64毫秒帧(75%重叠)是Hann窗口并且在它们之间互相关在执行基于信封的对齐之后的原始信号和降级信号。

  2、相关度的最大值为0.125,用作置信度的度量在每个帧中的对齐。最大值的索引给出了每个的延迟估计值帧。

  3、计算这些延迟估计的直方图,由置信度量度加权。直方图然后通过与宽度对称的三角形内核卷积来平滑1毫秒。

  4、直方图中的最大值的索引与前面的延迟估计相结合,给出最终的延迟估计。

  5、直方图的最大值除以卷积前的直方图总和与内核一起,给出了一个介于0(不可置信)和0之间的置信度度量1(充满信心)。

  精细时间对齐后的结果是延迟值和延迟置信度考虑到无声时段的延迟变化。 随着已知的开始并且每个话语的结束点允许每个帧的延迟在感知中被识别模型。

  3.5.1.6 话语分裂

  通过在每个话语中分开和重新对准时间间隔来测试语音期间的延迟变化。执行基于信封的对齐来计算每个部分的延迟估计,然后罚款时间对齐被执行以识别每个部分的延迟和置信度。分裂过程在每个话语中的几个不同点重复,并产生最大的分裂信心被确定。如果这给予更大的信心比没有拆分的路线,和两部分有明显不同的延迟,话语也相应分开。该测试已应用在分裂发生之后递归地分配给每个部分以测试进一步的延迟改变。

  通过这种方式,在讲话期间和在静音期间的延迟变化被考虑在内,并且延迟在每个时间段内时间间隔(di)以及匹配的开始和停止采样被计算。的数量时间间隔由延迟变化的数量决定。

  3.5.1.7 感知调整

  感知模型应用后,有非常大的干扰部分(大于阈值)通过互相关被识别和重新对齐。这一步改进了模型准确性与少数难以对齐的文件延迟变化未被正确识别由前一次调整过程。实施的方式在10.2.13中给出。

  3.5.2感知模型模块

  感知模型概述

  PESQ的感知模型用于计算原始和退化之间的距离语音信号(PESQ分数)。 正如第7章所讨论的那样,这可能会通过单调函数来获得给定主观测试的主观MOS预测。PESQ得分是映射到一个类似MOS的比例尺,单个数字在0.5到4.5的范围内,尽管在大多数情况下是这样的输出范围将介于1.0和4.5之间,这是在ACR中发现的MOS值的正常范围倾听质量实验。

  3.5.2.1 常量设置的预计算

  某些常数值和函数是预先计算的。对于那些依赖于样本的人频率,8和16 kHz采样频率的版本都存储在程序中。

  3.5.2.2 FFT窗口大小取决于采样频率(8或16 kHz)

  在PESQ中,时间信号使用带有a的短时FFT映射到时间 - 频率域汉斯窗口大小为32毫秒。 对于8 kHz,这相当于每个窗口256个采样和16 kHz的采样窗口计数512个样本,而相邻的帧重叠50%。

  3.5.2.3 绝对听力阈值

  插入绝对听觉阈值P0(f)以获得巴克频带中心的值被使用。这些值存储在一个数组中,并用于Zwicker的响度公式。

  3.5.2.4 功率比例因子

  用于时频分析的FFT后有一个任意的增益常数。 这个常数是由1000Hz频率的正弦波以29.54(40dB SPL)的幅度计算,使用窗口化的FFT在32 ms内转换到频域。(离散)频率然后通过合并FFT波段将轴转换为修改的Bark标度。该峰值的幅度然后必须是10 000(40 dB SPL)。 后者通过具有常数的功率缩放的后乘法来强制执行因子Sp。

  3.5.2.5 响度比例因子

  使用相同的40 dB SPL参考音调来校准心理声学(Sone)响度量表。合并到修改后的Bark刻度后,强度轴将使用翘曲至音量大小兹维克定律,基于绝对听力阈值。响度密度的积分使用1000Hz和40dB SPL的校准音,树皮频率刻度必须产生一个值1 Sone。 后者通过具有恒定的响度缩放因子S1的后乘法实施。

  3.5.2.6 IRS接收过滤

  如10.1.2中所述,假定听力测试是使用IRS接收或一个修改了手机中的IRS接收特性。 对语音信号进行必要的滤波已经应用于预处理。

  3.5.2.7 计算有效语音时间间隔

  如果原始语音文件和降级语音文件以较大的无声间隔开始或结束,则可能会产生影响计算文件上某些平均失真值。因此,估计是由在这些文件的开头和结尾处的无声部分。五个连续绝对样本的总和从原始语音文件的开头和结尾开始,值必须超过500位置被视为活动间隔的开始或结束。这个开始和之间的时间间隔结束被定义为活动语音时间间隔。为了节省计算周期和/或存储大小,一些计算可以被限制到活动区间。

  3.5.2.8 短期快速傅立叶变换

  人耳执行时间 - 频率转换。在PESQ中,这是通过短期实施的FFT窗口大小为32 ms。连续的时间窗口(帧)之间的重叠是50%。 功率谱平方和平方的实部和平方虚部的总和复杂的FFT组件 存储在独立的实值数组中,用于原始数据和降级数据信号。单个Hann窗口内的相位信息在PESQ和所有计算中被丢弃仅基于功率表示PXWIRSS(f)n和PYWIRSS(f)n。

  降级信号中窗口的起点在延迟上移动。时间轴原始语音信号保持原样。如果延迟增加,部分降级信号将被忽略来自处理,而对于延迟部分的减少被重复。

  3.5.2.9 音高功率密度的计算

  Bark量表反映出,在低频时,人类听觉系统具有更好的频率分辨率高于高频。这是通过合并FFT波段并对其进行求和来实现的FFT频带的相应功率与相加部分的归一化。翘曲函数将频率刻度以赫兹为单位映射到Bark中的音阶,并不完全遵循在文献中给出的值。得到的信号被称为音调功率密度PPXWIRSS(f)n和PPYWIRSS(f)n。

  3.5.2.10 传输函数原始音调功率密度的部分补偿均衡

  为了处理被测系统中的滤波,原始和降级音调的功率谱功率密度随时间平均。该平均值仅在语音活动帧上计算使用功率超过绝对听阈的1000倍的时频单元。每修改后的树皮仓,根据退化的比率计算出部分补偿因子光谱到原始光谱。最大补偿不超过20 dB。该然后每个帧n的原始音调功率密度PPXWIRSS(f)n与该部分相乘补偿因子以将原始信号均衡为劣化信号。 这导致了相反的结果滤波后的原始音调功率密度PPX'WIRSS(f)n。

  这种部分补偿被使用,因为严重的过滤可能会干扰听众。该对原始信号进行补偿,因为退化的信号是那个由ACR实验中的受试者判断。

  3.5.2.11 时变增益的失真音调功率密度的部分补偿变形和原始信号之间的差异

  通过处理音调功率密度帧来部分补偿短期增益变化逐帧。 对于原始和降级的音高功率密度,所有帧的总和为n计算超过绝对听力阈值的值。原来的力量比例并且退化的文件被计算并且限定在范围[3·10-4,5]。一阶低通过滤器(沿时间轴)应用于此比例。每帧中失真的音调功率密度n,然后乘以该比率,导致部分增益补偿失真音调功率密度PPY'WIRSS(f)n。

  3.5.2.12 计算响度密度

  经过滤波和短期增益变化的部分补偿后,原始和退化音高功率密度使用Zwicker定律转化为Sone响度等级[7]。

  其中P0(f)是绝对阈值,S1是来自10.2.1.4的响度缩放因子。

  在4皮克以上,Zwicker能力γ为0.23,这是文献中给出的值。4个树皮以下Zwicker的权力略有增加,以解释所谓的招聘效应。 所结果的二维阵列LX(f)n和LY(f)n被称为响度密度。

  3.5.2.13 扰动密度的计算

  计算失真和原始响度密度之间的符号差。 当这个差异是积极的,增加了噪音等成分。 当这种差别是负面的时候,组件从原始信号中被省略。这个差异数组被称为原始数据干扰密度。

  针对每个时间频率计算原始和降低的响度密度的最小值细胞。这些最小值乘以0.25。相应的二维数组被称为掩码数组。以下规则适用于每个时间频率单元:

  1、如果原始干扰密度为正值且大于屏蔽值,则屏蔽值为从原始干扰中减去。

  2、如果原始干扰密度位于正负面之间的掩模幅度值,干扰密度被设置为零。

  3、如果原始干扰密度比掩码值更负,则掩码值为增加了原始干扰密度。

  最终结果是原始扰动密度被拉向零。 这代表了一个死亡在实际的时间频率单元被认为是失真之前的区域。这个模型的过程很小在每个时间频率单元中存在大声信号(掩蔽)的情况下,差异是听不到的。结果是作为时间(窗口号n)和频率D(f)n的函数的干扰密度。

  3.5.2.14 与不对称因子的单元乘法

  不对称效应是由于编解码器扭曲输入信号时会导致的一般很难引入与输入集成的新时频分量信号,并且由此产生的输出信号将被分解为两个不同的感知,即输入信号和失真,导致明显的可听失真[2]。当编解码器遗漏了一个时频分量,所得到的输出信号不能以相同的方式分解失真不太令人反感。这种效应是通过计算不对称性来模拟的干扰密度D(f)n与a相乘的干扰密度DA(f)n不对称因素。这个不对称因子等于失真和原始音高的比例密度提高到1.2的功率。如果不对称因子小于3,则它被设置为零。如果它超过12时,会被裁减为该值。因此,只有那些时频单元保持为非零值,其劣化的音调功率密度超过了原始音调功率密度。

  3.5.2.15 干扰密度在频率上的聚集和对软件部分的重视原本的

  对干扰密度D(f)n和非对称干扰密度DA(f)n进行积分(求和)沿频率轴使用两个不同的Lp标准和一个在软帧上的加权(具有低频响度):

  其中Mn是倍增因子,1 /(原始帧的功率加常数)为0.04,导致1在原始语音片段中的沉默期间发生的干扰的重点,以及Wf a一系列与修改后的树皮箱宽度成比例的常数。在这个乘法之后帧干扰值被限制为最大值45.这些汇总值Dn和DAn是称为帧干扰。

  3.5.2.16对延迟减小的帧的帧干扰调零显著

  如果失真信号包含大于16毫秒(半个窗口)的延迟减少,则重复如10.2.4所述的策略被修改。发现最好忽略这个框架在计算客观语音质量的这些事件期间的干扰。作为一个当发生这种情况时,结果帧干扰将归零。产生的帧干扰是称为D'n和DA'n。

  3.5.2.17 重新调整不良间隔

  帧间干扰超过阈值的连续帧称为坏间隔。在一个客观度量的少数情况预测了最小数量的不良情况的严重扭曲由于预处理观察到不正确的时间延迟而导致的帧。对于那些所谓的糟糕间隔,通过最大化绝对值之间的互相关来估计新的延迟值原始信号和绝对降级信号根据观察到的延迟进行调整预处理。当最大互相关低于阈值时,可以得出结论间隔是匹配噪声和噪声,间隔不再被称为不良,并进行处理那段时间停止了。否则,在不良间隔期间帧的干扰是重新计算,如果它更小,则取代原来的帧干扰。结果是最终的框架干扰D''n和DA''n用于计算感知质量。

  3.5.2.18 分裂间隔内的扰动聚合

  接下来,将帧干扰值和不对称帧干扰值进行汇总超过20帧的分裂秒间隔(占帧重叠:约320毫秒)L6规范,与在语音文件长度上的聚合相比,具有更高的p值。这些时间间隔也重叠50%,并且不使用窗口功能。

  3.5.2.19 在语音信号的持续时间内(约10秒)聚集干扰,包括新近因素

  分裂第二干扰值和不对称分裂第二干扰值是现在使用L2在语音文件(相应帧)的活动时间间隔上聚合规范。相比较而言,分秒间隔内聚合的p值更高在语音文件上聚合的较低p值是由于当部分分裂时的事实秒被扭曲,分裂秒失去意义,而如果语音文件中的第一句是扭曲,其他句子的质量保持不变。

  3.5.3 PESQ得分模块

  最终的PESQ评分是平均干扰值和平均值的线性组合不对称的干扰值。 尽管在大多数情况下,PESQ评分的范围是0.5到4.5输出范围将为1.0至4.5之间的聆听质量类MOS分数,即正常范围在ACR实验中发现的MOS值。

  测试结果

  根据结果图能够看出对于不同语音,如干净语音,加燥语音以及降噪语音会有不同的MOS值,这说明由于一些原因,系统会产生失真,所以会导致语音的语音特性发生变化。

  语音编码器速率(kb)

  图:干净语音、加噪语音以及降噪语音的主观MOS值和PESQ所得客观MOS值

  通过图能够看出在小于4kb/s编码器的评价。小于4kb/s编码器的系统会发生失真,会使失真语音信号性能发生变化,而且,由于有累加时延的存在,系统不满足延时校准的条件,所以评价会不太准确。

  结论

  经过几个月的算法研究,软件方面的知识学习,本文最终提出一套完整的语音质量客观评价系统的实现方案,其目的在于对多种电话网络或语音编码器进行性能测试。在整个过程中,首先研究了语音质量评价的各种算法,并着重研究PESQ算法。在对算法进行详细分析的基础上,提出了一种语音算法质量客观评价系统的设计方案。

  由于接触语音质量评价算法时间较短,而却没有设计方面的经验,整体工作还是有许多不足之处。在以后的工作中,可以考虑以下方面的改进:

  (1)使系统能够支持多种语音质量评价算法,如:PSQM、PAMS等,由用户自己选择所需要的算法进行语音质量评价。在进行系统设计时,已经考虑了以后的扩展问题,扩充了足够的空间存放代码和数据。

  (2)实现系统多指标测量,研究回声抵消方面的理论知识,使系统能够测量语音传输中回声对通话质量的影响,测试回声时延等。

  (3)对算法做进一步优化,继续提高运行效率。

栏目分类