张卫强

个人信息Personal Information

教师英文名称：Wei-Qiang Zhang

教师拼音名称：Zhang Wei Qiang

电子邮箱：

办公地点：电子工程馆5-111

联系方式：010-62781847

学位：博士学位

毕业院校：清华大学

学科：信号与信息处理

教师博客

当前位置：中文主页 >> 教师博客

基于原始波形的端到端阿尔茨海默症检测方法

点击次数：

本文提出一种基于原始波形的端到端阿尔茨海默症检测方法。该方法使用一维卷积从原始波形中提取时间维度特征，并使用含有膨胀卷积的残差块提取更复杂的特征。为进一步提高性能，在残差块中引入挤压-激励模块。在全国人机语音通讯学术会议2021 AD数据集上，本文提出的模型在长音频测试集、短音频测试集分别达到了86.55%和81.35%的准确率，比基线系统分别提高了6.75%、7.35%。在INTERSPEECH2020 ADReSS数据集上，模型的准确率为66.67%，比基线系统提高4.17%。

陈旭初, 张卫强, 马勇. 基于原始波形的端到端阿尔茨海默症检测方法. 电子学报, vol. 51, no. 12, pp. 3582–3590, 2023. doi: 10.12263/DZXB.20220162.

系统结构

基于原始波形的阿尔茨海默症检测系统主要由数据准备、神经网络、众数决策3个部分组成，系统结构如下图所示。

数据准备

由于通常情况下，数据集中患者语音的时长不同，为使神经网络的输入具有相同的数据长度，并且增加训练数据的数量，所以先对训练数据进行数据增强，将语音分割为多个时长相同的片段，并且相邻片段之间有一定的重叠。在训练集中，赋予分割后的片段与原音频相同的标签。

基于原始波形的sampleCNN模型

下面是对基础的sampleCNN模型进行介绍，并与基于梅尔谱图的卷积神经网络模型进行比较。下图(a)、(b)分别为基于梅尔谱图的卷积神经网络模型和使用原始波形的sampleCNN模型的简化网络结构。

sampleCNN模型主要由一维卷积层和一维池化层组成。第一个一维卷积层滤波器的尺寸只有2个或3个样本点的长度，可以对原始波形进行小粒度采样。上图（b）是以原始波形为输入的端到端sampleCNN模型的基础结构，采用1个一维卷积层和1个最大池化层（Conv1D-max）作为基本构建模块，卷积核大小为3，池化层大小也是3。在第一个跨步卷积层之后，使用9个卷积-池化模块提取时间维度上的特征，最后使用全连接层进行预测。

Res-sampleCNN模型

为使用更深层的网络提取原始波形的特征，我们将sampleCNN中的卷积层替换为残差块。比较了不同结构的残差单元对性能的影响，认为将激活函数放在卷积层之前，形成预激活残差单元（preactivation residual unit），此时网络更加容易优化。

下图（a）是Res-sampleCNN 中使用的残差块的结构，我们使用膨胀卷积层作为残差结构中的第二个卷积层，以便在使用同样大小卷积核的情况下增加模型的感受野。图（b）是我们提出的Res-sampleCNN网络结构。对于输入的原始波形，首先经过1个卷积核大小为3、步长为3的一维跨步卷积层（StridedConv1D）来提取时间维度特征，输入通道数为1，输出通道数为64；然后使用两个卷积核大小为3、膨胀率为2的膨胀卷积层（DilatedConv1D）提取更大感受野的特征，输入和输出的通道数均为64；而后使用多个图（a）所示的残差块提取更复杂的特征，除最后一个残差块的后面使用长度为4、步长为4的平均池化层进行下采样外，其它残差块的后面使用1个长度和步长都为2的最大池化层进行下采样。网络最后使用两个全连接层进行预测。

最后一个全连接层的激活函数选择为sigmoid函数，并采用多分类交叉熵损失函数作为优化的目标函数。

Res-SE模块

为了进一步提高上文中残差块的学习能力，我们在其中加入挤压-激励（Squeeze-and-Excitation，SE）模块。挤压-激励模块由挤压（Squeeze）和激励（Excitation）两种操作组成，其结构下图（a）所示，该模块可以使神经网络更加关注信息量大的通道特征，而抑制那些不重要的通道特征。我们将挤压-激励模块作为基本单元添加到上图（a）所示的残差块中，得到如下图（b）所示的Res-SE模块。

众数决策

对于一条待测试音频，按照第上文分割训练集的方法分割为多个片段，使用神经网络逐个对片段进行，将分类结果的众数作为该待测试语音的标签。当分类结果中各类的数量相同时，将所有片段的分类结果按照对应的维度相加，而后分别在对应维度求平均，平均值最大的维度即为相应的类别。

实验设置与结果分析

数据集

我们使用两种数据集分别对模型进行测试。下表是NCMMSC2021 AD训练集中包含280条语音片段，分别为阿尔茨海默症患者的79个语音片段、轻度认知障碍患者的93个语音片段和健康人的108个语音片段。每条数据时长约28~60s，总时长约4.18h，数据的采样率为16kHz。语音内容包括图片描述、流畅性测试、自我介绍等。测试集中包含119个时长 44~60 s的长音段和1153个时长6s的短音段，其中长、短音段测试集阿尔茨海默症患者、轻度认知障碍患者、健康人的数量均为10名、23名、20名。训练集与测试集中的语音数据的语种均为汉语。

下表是INTERSPEECH2020 ADReSS数据集共有156条语音数据，阿尔茨海默症和非阿尔茨海默症（non-AD）的语音数量都是78条，分别来自78名患者和78名健康老人，内容主要为图片描述和讲话录音等。每条数据时长约26~268s，总时长约3.24h。训练集中阿尔茨海默症和非阿尔茨海默症的音频数量均为54条。测试集包含24名AD患者和24名non-AD的语音数据。语音数据的语种为英语。

实验设置

由于训练数据长度不同，且数据集NCMMSC2021 AD短音频测试集时长为6s，因此我们使用长度为6s、窗移为2s的时间窗对训练数据进行分割。对于长音频赛道的119条测试数据，使用相同的方法进行分割。对分割后的音频片段分别进行测试，将测试结果的众数作为待测试音频的类别。按照9：1的比例将训练集分割为训练集、验证集，训练完成后在测试集上进行测试。在输入为原始波形的实验中，我们使用Adam优化器更新神经网络的权重，学习率设置为0.0001，批大小为32，并且在最后一个全连接层之前插入了一个参数为0.5的dropout层，挤压-激励模块的超参数α为1/16；而在输入为梅尔谱的实验中，使用帧长20ms、帧移10ms的汉宁窗对分割后的音频片段进行分帧之后，使用torchlibrosa工具提取64维的对数梅尔谱图，将特征送入网络中进行训练，优化器的参数和批大小与输入为原始波形的实验相同。

结果分析

对于sampleCNN模型而言，将卷积-池化模块替换为含有膨胀卷积的残差块，并在残差块中加入挤压-激励模块后，准确率有明显提高。最终模型与基线相比，在NCMMSC2021 AD的长音频测试集、短音频测试集上分别提升6.75%、7.35%，在INTERSPEECH2020AD-ReSS数据集上提升 4.17%，通过实验证实，基于原始波形的Res-SE sampleCNN方法有助于实现更好的阿尔茨海默症检测。

结论

实验证明我们提出的模型对于阿尔茨海默症患者具有较好的分类性能。未来，我们将探索不同语种的阿尔茨海默症患者语音特征的差异，并研究不同尺度的特征对于模型性能的影响。

上一条：SpeechColab Leaderboard：一个开源的语音识别评测平台

下一条：可控情感的表现力语音驱动面部动画合成