Joint Detction Localization of Multiple Audio Sources

我们的研究是基于短时语音信号的静态分析,测试采用AV16.3的数据。我们的试验中主要采用Steered Response Power(SRP) 方法来寻去一个在3D空间下的最大beemformed pwer值。

我们并没有采用MUSIC等信号子空间方法,因为他对模型很敏感,对于回响大的空间。当然,如果你对model的参数十分有把握,比如LOCATA数据库,我们就采用了MUSIC算法。

空间中的“audio source”包括人和其他发声物体(笔记本等)。而“speech source”是有人。

在实验过程中,我们采用18摄氏度标压下的声速,342m/s。并假设声波是个球面波(适用于近远场)而不是平面波(适用于远场)。我们考虑的模型是“free field”模型,就是假设声波没有遮挡。我们假设信号的时域表达式: Snipaste_2018-08-24_17-01-24 转成频域下,我们得到: Snipaste_2018-08-24_17-02-41 我们假设声音增益(能量)与距离成反比。

对于麦克风阵列,主要由以下特性:

声音异步:声音由声源到每个麦克风时间都不一样。基于时间异步的定位方法需要对麦克风阵列的几何参数有充分的了解,但是对于适用环境没有要求,所以可以便于写道。通常情况下采用全向麦克风。通常,以有限数量的麦克风直线或圆形等距排列

振幅差:每个麦克风得到的有振幅查,这个方法称为Interaural Level Difference (ILD),这个方法通常用双耳麦克风。

脉冲响应:因为声源到各个麦克风的距离不一样,所以脉冲的响应时间也不一样。通常在这个脉冲图谱会在校准过程中被记录,但是实际过程中不可实现。这个方法不需要阵列的几何数据,这个通常与盲源分离或者blind Multiple Inputs Multiple Outputs (MIMO) channel identificatio有关。

麦克风频道:通过设立定向麦克风,我们就可以通过麦克风信道差来计算声源。

声音信号通常被认为是短时稳定(通常窗口取30ms),对每个窗口我们可以采用离散傅立叶(DFT)\(\mathbf{X} = \mathbf{F}.x\)