Python对音频进行测试及频谱分析

语音识别领域对音频文件进行频谱分析是一项基本的数据处理过程，同时也为后续的特征分析准备数据。

1、前驱知识

Python需要使用的相关库：

wave
https://docs.python.org/3/library/wave.html

pyaudio
http://people.csail.mit.edu/hubert/pyaudio/

numpy
https://www.runoob.com/numpy/numpy-tutorial.html

pylab
https://www.programcreek.com/python/example/2345/pylab.title

2、音频帧概率详解

1）采样率（Sample Rate）：每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。一般音乐CD的采样率是44100Hz，所以视频编码中的音频采样率保持在这个级别就完全足够了，通常视频转换器也将这个采样率作为默认设置。

2）帧率（Frame rate）：是用于测量显示帧数的量度。所谓的测量单位为每秒显示帧数(Frames per Second，简称：FPS）或“赫兹”（Hz）。

3）码率（Bit Rate）：指视频或音频文件在单位时间内使用的数据流量，该参数的单位通常是Kbps，也就是千比特每秒。通常2000kbps~3000kbps就已经足以将画质效果表现到极致了。码率参数与视频文件最终体积大小有直接性的关系。

4）正常人听觉的频率范围大约在20Hz~20kHz之间，根据奈奎斯特采样理论，为了保证声音不失真，采样频率应该在40kHz左右。常用的音频采样频率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等，如果采用更高的采样频率，还可以达到DVD的音质。

对采样率为44.1kHz的AAC音频进行解码时，一帧的解码时间须控制在23.22毫秒内。

3、背景知识:

(一个AAC原始帧包含一段时间内1024个采样及相关数据)

具体分析

1）AAC

音频帧的播放时间=一个AAC帧对应的采样样本的个数/采样频率(单位为s)

一帧 1024个 sample。采样率 Samplerate 44.1KHz，每秒44100个sample, 所以根据公式音频帧的播放时间=一个AAC帧对应的采样样本的个数/采样频率

当前AAC一帧的播放时间是= 1024*1000/44100= 22.32ms(单位为ms)

2）MP3

mp3 每帧均为1152个字节，则：

frame_duration = 1152 * 1000 / sample_rate

例如：sample_rate = 44100HZ时，计算出的时长为26.122ms，这就是经常听到的mp3每帧播放时间固定为26ms的由来。

3）H264

视频的播放时间跟帧率有关:

frame_duration = 1000/帧率(fps)

例如：fps = 25.00 ，计算出来的时常为40ms，这就是同行所说的40ms一帧视频数据。

4、实践代码

import wave
import pyaudio
import numpy
import pylab

### 打开提前准备的WAV文档，文件路径根据需要做修改

wf = wave.open("文档路径", "rb")

### 创建PyAudio对象

p = pyaudio.PyAudio()

stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),

channels=wf.getnchannels(),

rate=wf.getframerate(),

output=True)

nframes = wf.getnframes()

framerate = wf.getframerate()

### 读取完整的帧数据到str_data中，这是一个string类型的数据

str_data = wf.readframes(nframes)

wf.close()

### 将音频波形数据转换为数组

# A new 1-D array initialized from raw binary or text data in a string.

wave_data = numpy.fromstring(str_data, dtype=numpy.short)

### 将wave_data数组改为2列，行数自动匹配。在修改shape的属性时，需使得数组的总长度不变。

wave_data.shape = -1,2

### 将数组转置

wave_data = wave_data.T

#time 也是一个数组，与wave_data[0]或wave_data[1]配对形成系列点坐标

#time = numpy.arange(0,nframes)*(1.0/framerate)

### 绘制波形图

#pylab.plot(time, wave_data[0])

#pylab.subplot(212)

#pylab.plot(time, wave_data[1], c="g")

#pylab.xlabel("time (seconds)")

#pylab.show()

# 采样点数，修改采样点数和起始位置进行不同位置和长度的音频波形分析

N=44100

start=0 #开始采样位置

df = framerate/(N-1) # 分辨率

freq = [df*n for n in range(0,N)] #N个元素

wave_data2=wave_data[0][start:start+N]

c=numpy.fft.fft(wave_data2)*2/N

#常规显示采样频率一半的频谱

d=int(len(c)/2)

#仅显示频率在4000以下的频谱

while freq[d]>4000:

    d=10

    pylab.plot(freq[:d-1],abs(c[:d-1]),'r')

    pylab.show()

结束语：

作为一个合格的测试小白，技术太菜可以被鄙视，文章写的不好可以被喷，但是学习的心不能质疑。

源自公众号爱测未来

本文由51ste.com网友编辑，未经授权，不得转载使用上述作品盈利；个人转载，需标明作者及出处。

Python对音频进行测试及频谱分析

相关推荐

留言