2012年5月下午卷第一题阅读下列说明,回答问题1至问题3,将解答填入答题纸的对应栏内。【说明】计算机能够采集、加工处理、存储和传输声音媒体,并能使之与其他媒体信息之间建立有机的逻辑关系。公交车上使用单片机系统构成自动语音报站器,系统所需的语音信号按照词组、句子的结构设计由播音员朗读,通过计算机录制成音频数据文件,经适当处理后的音频数据按照索引结构存储到报站器的Flash芯片中供单片机调用。报站器可以在传感器信号和驾驶员的操控下完成自动或手动报站、安全提示、广告播送等功能。
【问题1】把麦克风输出的电信号转换成音频数据文件的过程主要包括哪三个基本步骤?
【问题2】分段录制好的音频数据需要整体进行规格化(normalize)处理,然后按照设计规则进行词组和短句的分割,播放时按照文字顺序重新组合输出。音频数据规格化处理的目的是什么?
【问题3】为了在有限的存储空间中存放更多信息,对音频数据进行ADPCM压缩编码,ADPCM编码属于哪一类编码技术?请解释这种编码技术的基本原理。
参考答案:
【问题1】采样、量化、编码
【问题2】规格化的目的在于将不同音量的音频数据调整到同一区间内,使所有声音都能够协调一致,重播时语音更加自然。
【问题3】ADPCM编码属于预测编码技术。预测编码技术(predictioncoding)是根据某一种模型,利用以前的(已收到)一个或几个样本值,对当前的(正在接收的)样本值进行预测,将样本实际值和预测值之差进行编码。
解析:
问题1:MPEG标准的音频压缩编码技术是典型的感知编码技术,其编码过程使用的心理声学模型中利用了声音的掩蔽效应。 自然界中发出的声音传入人的耳朵,其中一部分的声音阻碍听觉系统感受另一部分声音的现象称为掩蔽效应。掩蔽效应包含频率域掩蔽效应(frequencymasking)和时间域掩蔽效应(temporalmasking)。在频率域掩蔽效应中,一个强纯音会掩蔽在其附近同时发声的弱纯音,低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显,声音频率与掩蔽曲线不是线性关系。 所谓规格化是指将不同范围的参数数据统一调整在一个特定区间里,其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。由于所采用的音频数据都是分段录制的,录制时的环境不同,其生成的音频信号参数也就不同,即音量也不同,为了能够使重播时所有声音都达到一致性,所有采用规格化处理,将不同音量的数据都统一到一个相同的区间,这样就可以使语音更自然和协调。
问题2:ADPCM(adaptivedifferencepulsecodemodulation,自适应差分脉冲编码调制)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。
它的核心想法是: (1)利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值; (2)使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。