CN112331208B

CN112331208B - 人身安全监控方法、装置、电子设备和存储介质

Info

Publication number: CN112331208B
Application number: CN202011060130.6A
Authority: CN
Inventors: 廖光朝
Original assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Current assignee: Audio Digital Huiyuan Shanghai Intelligent Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-07-05
Anticipated expiration: 2040-09-30
Also published as: CN112331208A

Abstract

本申请涉及一种人身安全监控方法、装置、电子设备和存储介质。所述方法包括：获取待识别语音，并在待识别语音中包含异常关键词时，获取与异常关键词相关联的语音片段；对所述语音片段进行声谱分析，得到多个频谱点；频谱点包括采样时间以及声音幅值；根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；通过预训练的异常噪音识别模型对第一目标频谱点进行识别，得到与第一目标频谱点相对应的噪音类型；根据噪音类型和异常关键词，对人身安全进行监控。采用本方法能够节约监控时所耗费的存储空间。

Description

人身安全监控方法、装置、电子设备和存储介质

技术领域

本申请涉及居家养老技术领域，特别是涉及一种人身安全监控方法、装置、电子设备和存储介质。

背景技术

随着老年人口的不断增多，居家养老服务应运而生。居家养老服务是指由经过专业培训的服务提供者上门为居家老人提供具有一定服务时长养老服务。

当服务提供者为居家老人提供养老服务时，首先需要确认服务提供者以及居家老人的人身安全。目前，主要是利用视频监控设备对服务提供者和居家老人进行持续监控，基于监控视频确定服务提供者以及居家老人的人身安全。但是，由于监控视频所占用的存储空间较大，从而导致基于监控视频对服务提供者以及居家老人的人身安全进行监控所耗费的存储空间较大。

发明内容

基于此，有必要针对上述技术问题，提供一种能够节约存储空间的人身安全监控方法、装置、电子设备和存储介质。

一种人身安全监控方法，所述方法包括：

获取待识别语音，并在所述待识别语音中包含异常关键词时，获取与所述异常关键词相关联的语音片段；

对所述语音片段进行声谱分析，得到多个频谱点；所述频谱点包括采样时间以及声音幅值；

根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；

通过预训练的异常噪音识别模型对所述第一目标频谱点进行识别，得到与所述第一目标频谱点相对应的噪音类型；

根据所述噪音类型和异常关键词，对人身安全进行监控。

在其中一个实施例中，还包括：所述方法还包括：

获取异常用语集；所述异常用语集包括多条异常用语；

基于预训练的语音识别模型对所述待识语音别进行识别，得到索引网络；

通过将所述索引网络以及所述异常用语集进行字符匹配，确定与所述当前待识别语音相匹配的异常用语；

从与所述待识别语音相匹配的异常用语中提取出异常关键词。

在其中一个实施例中，所述语音识别模型包括语音分离增强模型以及目标识别模型；所述语音识别模型的训练步骤包括：

获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数；

基于所述第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；

对所述第一损失函数和第二损失函数进行融合，得到目标损失函数；

基于所述目标损失函数对所述语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

在其中一个实施例中，所述根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点包括：

将采样时间连续且声音幅值均超出第一门限阈值的多个频谱点归为一个幅值聚类簇；

统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；所述第二门限幅值大于第一门限幅值；

将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；所述目标幅值聚类簇由第一目标频谱点组成。

在其中一个实施例中，所述方法还包括：

获取除所述第一目标频谱点之外的其他频谱点；

确定每个其他频谱点各自对应的声音频率；

根据所述声音频率，从所述其他频谱点中筛选出至少一个第二目标频谱点，得到目标频率聚类簇；

通过所述异常关键词、目标幅值聚类簇以及目标频率聚类簇，对人身安全进行监控。

在其中一个实施例中，所述根据所述噪音类型和异常关键词，对人身安全进行监控包括：

根据所述噪音类型以及异常关键词预估人身威胁置信度；

根据所述人身威胁置信度，对人身安全进行监控。

在其中一个实施例中，所述方法还包括：

当确定受到人身安全威胁时，获取定位信息；

基于所述定位信息确定室内置信度；

当所述室内置信度大于预设阈值时，获取气压信息及网络数据；

根据所述气压信息确定对应楼层，以及根据所述网络数据确定楼层区域；

根据所述楼层区域、异常关键词以及与所述异常关键词相关联的语音片段生成报警信息。

一种人身安全监控装置，所述装置包括：

语音片段获取模块，用于获取待识别语音，并在所述待识别语音中包含异常关键词时，获取与所述异常关键词相关联的语音片段；

噪音类型确定模块，用于对所述语音片段进行声谱分析，得到多个频谱点；所述频谱点包括采样时间以及声音幅值；根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；通过预训练的异常噪音识别模型对所述第一目标频谱点进行识别，得到与所述第一目标频谱点相对应的噪音类型；

监控模块，用于根据所述噪音类型和异常关键词，对的人身安全进行监控。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据所述噪音类型和异常关键词，对人身安全进行监控。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据所述噪音类型和异常关键词，对人身安全进行监控。

上述人身安全监控方法、装置、电子设备和存储介质，通过获取异常关键词，可以基于异常关键词获取相关联的语音片段；通过获取语音片段，可以对语音片段进行声谱分析，得到多个频谱点；通过确定各频谱点中的采样时间以及声音幅值，可以基于声音幅值以及采样时间从多个频谱点中筛选出可能为异常噪音的第一目标频谱点，从而异常噪音识别模型只需对可能为异常噪音的第一目标频谱点进行识别，即可确定语音片段中的噪音类型，如此，便提升了噪音类型的识别效率；通过确定噪音类型，可以综合噪音类型以及异常关键词，对人身安全进行多维度监控，从而提升了人身安全监控的准确性。由于本申请是基于存储空间较小的语音对人身安全进行监控，相比于传统的基于视频进行人身安全监控，本申请可以有效节约对人身安全进行监控时所耗费的存储空间。

附图说明

图1为一个实施例中人身安全监控方法的应用环境图；

图2为一个实施例中人身安全监控方法的流程示意图；

图3为一个实施例中异常关键词识别步骤的流程示意图；

图4为一个实施例中索引网络示意图；

图5为一个实施例中人身安全监控装置的结构框图；

图6为另一个实施例中人身安全监控装置的结构框图；

图7为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人身安全监控方法，可以应用于如图1所示的应用环境中。其中，麦克盒子102通过网络与主机盒子104进行通信。在服务提供人员为居家老人提供居家养老服务的过程中，麦克盒子102佩戴于服务提供人员身上，用于抓取服务提供人员与居家老人之间的语音流，并将语音流发送至主机盒子104。主机盒子104对语音流进行语音识别，得到异常关键词，并在检测到异常关键词时，控制麦克盒子102持续录制预设时长的语音片段。主机盒子104对语音片段进行声谱分析，基于分析结果提取语音片段中的异常噪音，并确定异常噪音的类型，根据异常噪音的类型以及异常关键词对服务提供人员以及居家老人的人身安全进行监控。

在一个实施例中，如图2所示，提供了一种人身安全监控方法，以该方法应用于图1中的主机盒子为例进行说明，包括以下步骤：

S202，获取待识别语音，并在待识别语音中包含异常关键词时，获取与异常关键词相关联的语音片段。

其中，异常关键词是指包含有求救语意的关键词，比如异常关键词可以为“救命”、“不好”、“快来人”等。

具体地，麦克盒子持续采集服务提供人员与居家老人之间的语音流，并将语音流作为待识别语音发送至主机盒子。主机盒子基于预训练的语音识别模型对待识别语音中的异常关键词进行检测。当检测到异常关键词时，主机盒子控制麦克盒子持续录制预设时长的语音片段，比如持续录制5分钟的对话内容。其中，语音识别是将输入的语音信号转换为与之对应的文本。语音识别模型是指具有语音特征提取能力的机器学习模型。语音特征是用于反映音频特征的数据。语音特征可以为音色、发音、频谱等其中一种或者多种特性信息。

容易理解的，也可以将主机盒子置于居家老人身旁，通过安装在主机盒子中的麦克风阵列采集服务提供人员与居家老人之间的对话内容。

S204，对语音片段进行声谱分析，得到多个频谱点；频谱点包括采样时间以及声音幅值。

具体地，当得到语音片段时，主机盒子基于预设的采样频率对语音信号进行分帧处理，得到多个语音帧，比如，将采样点设置为400，一帧时长为25ms。主机盒子从语音帧中提取出声音信号，并对声音信号进行声谱分析，得到声音信号在该采样时间下的声音幅值。主机盒子组合采样时间以及对应的声音幅值，得到每个语音帧分别对应的频谱点。其中，声音幅值是指声压值，为了加强声音信号的特征，主机盒子对每一语音帧采用声压值来表征。多个频谱点是指两个及两个以上的频谱点。语音帧的采样时间是指麦克盒子接收到该语音帧的时间点。

在一个实施例中，对语音片段进行声谱分析可以采用预设的频谱分析算法进行分析处理，具体可以为FFT(fastFouriertransform快速傅里叶变换)频谱分析算法。

在一个实施例中，主机盒子判断语音片段的语音格式，当语音片段不为WAV格式时，将语音片段转换为单通道的WAV文件，从而主机盒子能够对具有统一格式的语音片段进行后续处理。

在一个实施例中，在对语音片段进行分帧处理时，为保证采样时间上的连续，相邻帧可以设置一定时间的重叠区域，比如，可以设置10ms的重叠区域。

S206，根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点。

具体地，主机盒子按照采样时间的先后顺序对多个频谱点进行排序，得到频谱序列，并将声音幅值大于第一门限阈值的频谱点判定为第一候选频谱点，将声音幅值小于第一门限阈值的频谱点判定为语音频谱点。主机盒子按照排列顺序对频谱序列中的第一候选频谱点进行遍历，并根据遍历结果从第一候选频谱点中筛选出第一目标频谱点。与正常声音相比，异常噪音往往是突发的，瞬时爆发力较强，短时能量通常较大，并且在时域波形中表现为多个连续的尖峰脉冲。因此，主机盒子根据声音幅值，从语音片段中筛选出可能为异常噪音的频谱点。

为了提取出第一目标频谱点，当获取得到第一遍历顺序的第一候选频谱点时，主机盒子从频谱序列中提取与第一遍历顺序的第一候选频谱点相邻，且位于第一遍历顺序的第一候选频谱点之后的后续频谱点，并判断后续频谱点是否为第一候选频谱点。若后续频谱点为第一候选频谱点，主机盒子将第一遍历顺序的第一候选频谱点存储至队列中，并将后续频谱点作为第一遍历顺序的第一候选频谱点，返回从频谱序列中提取后续频谱点，并判断后续频谱点是否为第一候选频谱点的步骤，直至后续频谱点不为第一候选频谱点。

当后续频谱点不为第一候选频谱点时，主机盒子从频谱序列中删除此后续频谱点，以及位于后续频谱点之前的全部频谱点，得到新的频谱序列，以此同时，主机盒子创建一个新的队列。主机盒子按照上述方法对新的频谱序列中的第一候选频谱点进行遍历，将符合预设要求的第一候选频谱点存储至新的队列中，直至主机盒子遍历完频谱序列中的全部第一候选频谱点。

主机盒子统计各队列中存储的第一候选频谱点的数量值，将数量值大于预设阈值的队列判定为目标队列，将目标队列中的频谱点判定为第一目标频谱点。

传统方法通常是将语音流按照预设时间长度一帧进行分割，并对分割后的语音流进行识别，确定是否存在异常噪音。但是，传统方法仅仅只是对语音流进行分割，并未从分割后的语音流中提取出可能为异常噪音的声音片段，从而增加了系统对异常噪音的类型进行识别时所需的运算量。根据异常噪音往往声音幅值较大的特点，本申请从频谱点中筛选出可能为异常噪音的第一候选频谱点，从而减少了后续对可能为异常噪音的第一候选频谱点进一步识别时所耗费的运算量。此外，为了避免汽车鸣笛、气球爆炸等在时域波形表现形式为瞬时尖峰脉冲的影响，本申请对各第一候选频谱点的采样时间的连续性进行判断，将具有一定时间连续的多个第一候选频谱点判定为第一目标频谱点。

S208，通过预训练的异常噪音识别模型对第一目标频谱点进行识别，得到与第一目标频谱点相对应的噪音类型。

其中，异常噪音识别模型是指具有噪音特征提取能力的机器学习模型。噪音特征是用于反映噪音类型的数据，噪音特征具备稳定性和特异性，具体表现在不同噪音类型的声谱图不同，即不同噪音类型的声谱图中的由时间-声音频率构成纹路结构不同。声谱图是描述声音信号的一种二维感知图，是由声音频率、采样时间两个维度信息构成的。声音频率是指声源在一秒之内振动的次数。

具体地，主机盒子对多个目标队列进行遍历，分别将每个目标队列中的第一目标频谱点输入异常噪音识别模型中，由异常噪音识别模型确定与每个目标队列相对应的噪音类型。

异常噪音识别模型中存储有由多个噪音类型所对应的目标声谱图组合而成的目标声谱图集，比如，异常噪音模型中预存储有用于表征人身安全的尖叫声的目标声谱图以及玻璃碎的目标声谱图。当获取得到当前遍历顺序的目标队列时，主机盒子将当前遍历顺序的目标队列中的全部第一目标频谱点输入异常噪音识别模型中，由异常噪音识别模型基于输入的第一目标频谱点生成对应的声谱图。为了描述方便，下述将异常噪音识别模型基于第一目标频谱点生成的声谱图称作候选声谱图。异常噪音识别模型将候选声谱图与目标声谱图集进行匹配，确定候选声谱图与各目标声谱图之间的图像差异，并将图像差满足预设条件的一个目标声谱图作为与候选声谱图相匹配的声谱图，此时异常噪音识别模型将相匹配的目标声谱图的噪音类型判定为候选声谱图的噪音类型。若不存在相匹配的目标声谱图时，则可以认为候选声谱图所对应的语音片段不为目标噪音类型的异常噪音。

在一个实施例中，模型训练人员尽可能多的获取噪音片段，并对各噪音片段的噪音类型进行标注，之后将标注后的噪音片段输入异常噪音识别模型中，由异常噪音识别模型根据标注信息进行模型参数的调节，直至调节后的模型参数满足预设要求。

S210，根据噪音类型和异常关键词，对人身安全进行监控。

具体地，当主机盒子接收到异常关键词，并且噪音类型为如尖叫声或碎玻璃声等能够表征人身安全受到威胁的噪音类型时，则可以判断服务提供人员或者居家老人受到人身安全威胁。当主机盒子接收到异常关键词，但是噪音类型不为预设的能够表征人身安全受到威胁的噪音类型时，则可以认为此时提供人员或者居家老人可能受到人身安全威胁，此时，主机盒子对提供人员或者居家老人的人身安全进行持续监控。

上述人身安全监控方法中，通过获取异常关键词，可以基于异常关键词获取相关联的语音片段；通过获取语音片段，可以对语音片段进行声谱分析，得到多个频谱点；通过确定各频谱点中的采样时间以及声音幅值，可以基于声音幅值以及采样时间从多个频谱点中筛选出可能为异常噪音的第一目标频谱点，从而异常噪音识别模型只需对可能为异常噪音的第一目标频谱点进行识别，即可确定语音片段中的噪音类型，如此，提升了噪音类型的识别效率；通过确定噪音类型，可以综合噪音类型以及异常关键词，对人身安全进行多维度监控，从而提升了人身安全监控的准确性。由于本申请是基于存储空间较小的语音对人身安全进行监控，相比于传统的基于视频进行人身安全监控，本申请可以有效节约对人身安全进行监控时所耗费的存储空间。

在一个实施例中，如图3所示，上述人身安全监控方法还包括：

S302，获取异常用语集；异常用语集包括多条异常用语；

S304，基于预训练的语音识别模型对待识别语音进行识别，得到索引网络；

S306，通过将索引网络以及异常用语集进行字符匹配，确定与当前待识别语音相匹配的异常用语；

S308，从与待识别语音相匹配的异常用语中提取出异常关键词。

其中，异常用语集是指包含有至少一条异常用语的集合。异常用语是指在居家养老服务过程中，包含有求救语意的用语，比如，异常用语可以为“救命”、“不要靠近我”等。待识别语音是指麦克盒子实时采集得到的语音流。

具体地，当接收到麦克盒子发送的语音流时，主机盒子获取异常用语集。主机盒子中预设有语音识别模型。语音识别模型包括声学子模型以及语言子模型。声学子模型是用于描述语音特征与语音建模单元之间的联系的模型，是语音识别系统的重要部分。传统的语音识别模型普遍采用GMM-HMM(Gaussian Mixture Models-Hidden Markov Model)声学模型，其中GMM对语音声学特征的分布进行建模，HMM对语音信号的时序进行建模。但是，GMM本质上是一种浅层网络模型，其描述声学特征状态控件分布的能力较弱，当训练语音数据较为庞大时，语音识别准确性较低。本申请采用CNN-HMM(Convolutional NeuralNetworks-Hidden Markov Model)进行声学建模。CNN是一种深层模型，通过自身的参数调整可以自适应地拟合任意数据的分布，从而可以实现较高的识别准确率。

当获取得到语音流后，声学子模型对语音流进行特征提取，并基于提取出的特征信息对语音进行识别，得到待识别语音所对应的拼音序列。比如，当待识别语音为“救救我吧”时，经声学子模型得到的拼音序列即为“jiu jiu wo ba”。

语言子模型用于预测与拼音序列相对应候选文字序列的出现概率，并基于出现概率生成索引网络。由于同音字符的存在，当获取得到拼音序列时，语言子模型通过拼音序列确定N-1个字符，并基于N-1个字符来预测下一字符出现的概率，如此，得到一条或多条与拼音序列相对应候选文字序列，并基于得到的候选文字序列生成索引网络。比如，当拼音序列即为“jiu jiu wo ba”，与“jiu jiu”相对应的文字字符可以为“救救”与“舅舅”，基于“救救”以及“我”预测得到的文字字符可以为“我”，基于“舅舅”以及“wo”预测得到的文字字符可以为“窝”时，所生成的索引网络即如图4所示。图4为一个实施例中，索引网络示意图。其中，候选文字序列即为一条以开始节点为起始点，以结束节点为终点，以节点和线段连接而成一条字符序列，比如，“救救我吧”即为一个候选文字序列。

主机盒子通过将索引网络与异常用语集进行字符匹配，确定索引网络中每条候选文字序列各自匹配的异常用语，并计算每个候选文字序列相对于相匹配的异常用语的偏移距离。其中，偏移距离是指不存在于相匹配的开始用语中的字符数量与存在于相匹配的开始用语中的字符数量的比值，其中标签符号不计算在内。比如，当候选文字序列为“救救我吧”，相匹配的开始用语为“救救我”时，“救救我吧”中不存在于“救救我”中的字符数量为1，存在于“救救我”中的字符数量为3，从而偏移距离即为1/3。主机盒子从确定的多个偏移距离中筛选出偏移距离最小的目标偏移距离，并在目标偏移距离小于预设偏移阈值时，将与目标偏移距离相对应的候选文字序列作为目标文字序列，并将与目标文字序列相匹配的服务用语判定为与待识别语音相匹配的异常用语。主机盒子获取由异常关键词组合的语料库，并基于语料库从相匹配的异常用于中提取出异常关键词。

本实施例中，受同音词的影响，语音识别模型对同一分词的识别结果可能不同，通过本实施例提供的方法能够得到多个候选识别结果，从而可以在多个候选识别结果中进行字符匹配，如此，便能有效克服同音词对异常关键词识别结果的影响。

在一个实施例中，语音识别模型的训练步骤包括：获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数；基于第二损失函数进行反向传播，以对桥接在所述语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；对第一损失函数和第二损失函数进行融合，得到目标损失函数；基于目标损失函数对所述语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

其中，语音识别模型包括语音分离增强模型以及目标识别模型；目标识别模型包括声学子模型以及语言子模型。语音分离增强模型是指经过训练后具有语音分离和/或增强能力的模型，具体可以是以样本语音作为训练数据，进行学习训练得到的用于将目标语音从样本语音中的背景干扰中分离出来的模型。可以理解，语音分离增强模型还可以具有对语音信号进行语音活动检测(Voice Activity Detection，VAD)、回声消除、混响消除或声源定位等预处理的能力，对此不作限制。目标识别模型是经过训练后具有语音识别能力的声学模型，具体可以是以样本语音以及标签序列作为训练数据，进行学习训练得到的用于对样本语音进行音素识别的模型。语音分离增强模型与目标识别模型分别可以是预先训练好的。预训练的语音分离增强模型与语音识别模型各自具有固定的模型结构和模型参数。

具体地，当需要进行联合模型训练时，主机盒子获取预训练的语音分离增强模型和目标识别模型，以及预训练语音分离增强模型时所采用的第一损失函数、预训练目标识别模型时所采用的第二损失函数。损失函数(loss function)通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。预训练语音分离增强模型所采用的第一损失函数及预训练语音识别模型所采用的第二损失函数分别具体可以是均方误差、平均绝对值误差、Log-Cosh损失、分位数损失、理想分位数损失等。

传统方式主要是将语音处理任务拆分为完全独立的两个子任务：语音分离任务和目标识别任务。如此，在训练阶段，允许模块化对语音分离增强模型和目标识别模型分别训练，在生产测试阶段，将语音分离增强模型输出的增强后待识别输入到目标识别模型进行识别。容易发现，这种方式并没有很好的解决两种表征范畴之间的差异化问题。在居家养老服务等实际应用场景中，待识别语音受背景音乐或多说话人干扰影响的现象普遍存在。如此，语音分离增强模型在进行前端语音处理时会引入相对严重的失真，而这在目标识别模型训练阶段不曾考虑，从而直接将独立的前端语音分离增强模型和后端目标识别模型级联，会严重降低最终语音识别性能。

为了克服两种表征范畴之间的差异，本申请的实施例在语音分离增强模型和目标识别模型之间桥接了待训练的中间模型。训练后的中间模型可以称作鲁棒表征模型。更具体地，主机盒子按照预设的深度学习优化算法确定第二损失函数在每次迭代过程产生的局部下降梯度。主机盒子将局部下降梯度反向传播至中间模型，以对中间模型对应的模型参数进行更新，直至符合预设的训练停止条件时结束训练。

主机盒子通过对第一损失函数与第二损失函数分进行预设逻辑运算，得到目标损失函数。以加权求和为例，假设加权因子为λ_SS，则目标损失函数L＝L₂+λ_SSL₁。加权因子可以是根据经验或实验设定的数值，如0.1。容易发现，通过调整加权因子可以调整在多模型联合训练时语音分离增强模型的重要性。主机盒子按照预设的深度学习优化算法确定目标损失函数产生的全局下降梯度。用于确定局部下降梯度的深度学习优化算法与用于确定全局下降梯度的深度学习优化算法可以相同，也可以不同。目标损失函数产生的全局下降梯度从目标识别模型依次反向传播至鲁棒表征模型和语音分离增强模型的网络各层，在此过程中对语音分离增强模型、鲁棒表征模型及目标识别模型对应的模型参数分别进行迭代更新，直至满足预设的训练停止条件时结束训练。

本实施例中，中间模型借助后端目标识别模型的第二损失函数反向传播完成训练，而语音分离增强模型和目标识别模型可以是预选训练好的，如此可以在较少的迭代训练次数后即可达到收敛。此外，基于前后端模型分别对应损失函数的组合对端到端的网络模型进行联合训练，使得网络架构中每个单独的模型均能够综合学习来自复杂声学环境语音信号中的干扰特征，从而可以保证全局的语音处理任务的性能，提高异常关键词识别准确性。

在一个实施例中，根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点包括：将采样时间连续且声音幅值均超出第一门限阈值的多个频谱点归为一个幅值聚类簇；统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；第二门限幅值大于第一门限幅值；将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；目标幅值聚类簇由第一目标频谱点组成。

具体地，主机盒子按照采样时间的先后顺序对频谱点进行排序，得到频谱序列，并根据采样时间以及声音幅值对频谱序列中的频谱点进行聚类，得到幅值聚类簇。其中，幅值聚类簇中的频谱点的声音幅值均超出第一门限阈值，并且各频谱点之间的采样时间连续。主机盒子统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值，并将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇，将目标聚类簇中的频谱点判定为第一目标频谱点。

本实施例中，由于只需简单的设置一个低门限阈值，即可对语音片段中的异常噪音进行端点检测，如此大大提升了异常噪音的起始点以及终止点检测的效率。此外，通过高门限阈值的设置，可以减少噪声中瞬时尖峰脉冲的影响，从而使得异常噪音识别更为准确。

在一个实施例中，上述人身安全监控方法还包括：获取除第一目标频谱点之外的其他频谱点；确定每个其他频谱点各自对应的声音频率；根据声音频率，从其它频谱点中筛选出至少一个第二目标频谱点，得到目标频率聚类簇；通过异常关键词、目标幅值聚类簇以及目标频率聚类簇，对人身安全进行监控。

具体地，当从全部频谱点中筛选出可能为异常噪音的第一目标频谱点时，主机盒子获取除第一目标频谱点之外的其它频谱点，并可以认为其他频谱点所对应的语音帧中包含有服务提供人员与居家老人之间的对话内容。主机盒子对其它频谱点各自对应的语音帧进行声谱分析，得到每个其它频谱点分别对应的声音频率。主机盒子获取预设的声音频率阈值，并从其它频谱点中筛选出声音频率大于声音频率阈值的第二候选频谱点。其中，预设的声音阈值是指对大量正常对话中的声音数据进行声谱分析，得到的多个声音频率的平均值，从而第二候选频谱点的声音频率超出正常对话的声音频率平均值。

进一步地，主机盒子根据第二候选频谱点的采样时间对全部的第二候选频谱点进行聚类，得到至少一个频率聚类簇。主机盒子统计各频率聚类簇中的第二候选频谱点的数量值，将数量值大于预设阈值的频率聚类簇判定为目标频率聚类簇。其中，频率聚类簇中各第二候选频谱点的采样时间连续，目标频率聚类簇由第二目标频谱点组成。

由于声音频率决定了音调的高度，声音频率越高，音调越高，因此当获取得到目标频率聚类簇时，可以认为在持续一段时间内，服务提供人员或者居家老人的音调高于正常对话中的平均音调，此时，服务提供人员与居家老人可能发生冲突，因而，当主机盒子获取得到异常关键词以及目标频率聚类簇，并且目标幅值聚类簇所对应的噪音类型为预设的目标噪音类型时，可以判定服务提供人员或者居家老人受到人身威胁。

本实施例中，通过声音频率对提供人员或者居家老人是否受到人身威胁进行辅助判断，可以提升判断的准确性。

在一个实施例中，根据噪音类型和异常关键词，对人身安全进行监控包括：根据噪音类型以及异常关键词预估人身威胁置信度；根据人身威胁置信度，对人身安全进行监控。

其中，人身威胁置信度是指服务提供人员或者居家老人受到人身安全威胁的置信度。

具体地，主机盒子中预存储有表征人身受到威胁的目标异常关键词，以及当人身受到威胁时会造成的目标噪音类型。主机盒子判断异常关键词是否为目标异常关键词，以及判断噪音类型是否为目标噪音类型，若异常关键词为目标异常关键词以及噪音类型为目标噪音类型，则可以认为此时人身威胁置信度高于预设人身威胁置信度阈值，此时主机盒子判定服务提供人员或者居家老人受到人身威胁；若异常关键词不为目标异常关键词，以及噪音类型不为目标噪音类型，则可以认为此时人身威胁置信度低于预设人身威胁置信度阈值，此时主机盒子判定服务提供人员或者居家老人未受到人身威胁。

本实施例中，通过综合考虑噪音类型以及异常关键词来判断服务提供人员或者居家老人是否受到人身威胁，可以提升判断的准确性。

在一个实施例中，上述人身安全监控方法还包括：当确定受到人身安全威胁时，获取定位信息；基于定位信息确定室内置信度；当室内置信度大于预设阈值时，获取气压信息及网络数据；根据气压信息确定对应楼层，以及根据网络数据确定楼层区域；根据楼层区域、异常关键词以及与异常关键词相关联的语音片段生成报警信息。

其中，定位信息是指由GPS(Global Positioning System全球定位系统)定位系统确定的经纬度坐标。气压信息包括高度气压值；高度气压值是指安装于主机盒子中的气压计所确定的气压值。网络数据是指通过安装于主机盒子中的网络搜索模块搜索到的无线热点上报的数据，具体包括无线热点的名称、ID(Identity document标识账号)坐标、信号强度等。室内置信度是指服务提供人员或者居家老人处于室内的置信度。

具体地，在确定服务提供人员或者居家老人受到人身安全威胁时，主机盒子获取电子地图以及通过自身的GPS定位系统获取定位信息，并根据经纬度坐标在电子地图中确定对应的坐标点。主机盒子在电子地图中确定距离坐标点最近的目标建筑，并获取目标建筑所在的经纬度坐标，在目标建筑所在的经纬度坐标与坐标点所对应的经纬度坐标之间的差距小于预设距离阈值时，判定服务提供人员或者居家老人处于室内，否则，判定服务提供人员或者居家老人处于室外。其中，电子地图是指数字地图，是利用计算机技术，以数字方式存储和查询的地图，其上标注有各建筑所处的经纬度坐标。当确定服务提供人员或者居家老人处于室内时，主机盒子获取气压计所确定的气压值，以及基于网络数据搜索模块确定的搜索网络数据。当确定服务提供人员或者居家老人处于室外时，主机盒子基于定位信息、异常关键词以及与异常关键词相关联的语音片段生成报警信息。

主机盒子中预存储有居家老人所在城市的平均平地低压值，根据高度气压值与地平地气压值之间的气压差，确定服务提供人员或者居家老人当前所在楼层。比如，每上升9米，大气压降低100帕，在平均平地低压值为x，高度气压值为y时，服务提供人员或者居家老人所在高度即为h＝(y-x)/100*9；当层高为3米时，服务提供人员或者居家老人所在楼层为i＝(y-x)/100*9/3。

与此同时，主机盒子通过网络搜索模块搜索得到周围存在的无线热点所上报的至少一条网络数据，并根据网络数据中的信号强度从搜索得到的网络数据中筛选出目标网络数据，比如，主机盒子将信号强度最强的网络数据判定为目标网络数据。主机盒子从目标网络数据中提取出无线热点的ID坐标和名称，并根据ID坐标和名称从对接的宽带安装供应商的安装信息平台中查询对应的宽带安装地址，并将宽带安装地址中的门牌号判定为服务提供人员或者居家老人所在楼层区域。主机盒子根据所述楼层区域、异常关键词以及与所述异常关键词相关联的语音片段生成报警信息，并将报警信息发送至执法人员，以使执法人员前往楼层区域。

本实施例中，由于报警信息中的定位点精确至楼层区域，使得执法人员可以快速前往服务提供人员或者居家老人所在位置。此外，由于报警信息中包括异常关键词以及与异常关键词相关联的语音片段，使得执法人员可以根据异常关键词以及与异常关键词相关联的语音片段提前了解服务提供人员与居家老人之间的纠纷问题所在。

应该理解的是，虽然图2、3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种人身安全监控装置500，包括：语音片段获取模块502、噪音类型确定模块504和监控模块506，其中：

语音片段获取模块502，用于获取待识别语音，并在待识别语音中包含异常关键词时，获取与异常关键词相关联的语音片段。

噪音类型确定模块504，用于对语音片段进行声谱分析，得到多个频谱点；频谱点包括采样时间以及声音幅值；根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；通过预训练的异常噪音识别模型对第一目标频谱点进行识别，得到与第一目标频谱点相对应的噪音类型。

监控模块506，用于根据噪音类型和异常关键词，对人身安全进行监控。

在一个实施例中，如图6所示，语音片段获取模块502还包括语音识别模块5021，用于获取异常用语集；异常用语集包括多条异常用语；基于预训练的语音识别模型对待识语音别进行识别，得到索引网络；通过将索引网络以及异常用语集进行字符匹配，确定与当前待识别语音相匹配的异常用语；从与待识别语音相匹配的异常用语中提取出异常关键词。

在一个实施例中，语音识别模块5021还用于获取语音分离增强模型的第一损失函数及目标识别模型的第二损失函数；基于第二损失函数进行反向传播，以对桥接在语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；对第一损失函数和第二损失函数进行融合，得到目标损失函数；基于目标损失函数对语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

在一个实施例中，噪音类型确定模块504还包括聚类模块5041，用于将采样时间连续且声音幅值均超出第一门限阈值的多个频谱点归为一个幅值聚类簇；统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；第二门限幅值大于第一门限幅值；将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；目标幅值聚类簇由第一目标频谱点组成。

在一个实施例中，人身安全监控装置500还用于获取除第一目标频谱点之外的其他频谱点；确定每个其他频谱点各自对应的声音频率；根据声音频率，从其它频谱点中筛选出至少一个第二目标频谱点，得到目标频率聚类簇；通过异常关键词、目标幅值聚类簇以及目标频率聚类簇，对人身安全进行监控。

在一个实施例中，监控模块506还用于根据噪音类型以及异常关键词预估人身威胁置信度；根据人身威胁置信度，对人身安全进行监控。

在一个实施例中，监控模块506还包括报警模块5061，用于当确定受到人身安全威胁时，获取定位信息；基于定位信息确定室内置信度；当室内置信度大于预设阈值时，获取气压信息及网络数据；根据气压信息确定对应楼层，以及根据网络数据确定楼层区域；根据楼层区域、异常关键词以及与异常关键词相关联的语音片段生成报警信息。

关于人身安全监控装置的具体限定可以参见上文中对于人身安全监控方法的限定，在此不再赘述。上述人身安全监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种人身安全监控方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别语音，并在待识别语音中包含异常关键词时，获取与异常关键词相关联的语音片段；

对语音片段进行声谱分析，得到多个频谱点；频谱点包括采样时间以及声音幅值；

根据采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点；

通过预训练的异常噪音识别模型对第一目标频谱点进行识别，得到与第一目标频谱点相对应的噪音类型；

根据噪音类型和异常关键词，对人身安全进行监控。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取异常用语集；异常用语集包括多条异常用语；

基于预训练的语音识别模型对待识语音别进行识别，得到索引网络；

通过将索引网络以及异常用语集进行字符匹配，确定与当前待识别语音相匹配的异常用语；

从与待识别语音相匹配的异常用语中提取出异常关键词。

在一个实施例中，语音识别模型包括语音分离增强模型以及目标识别模型；处理器执行计算机程序时还实现以下步骤：

基于第二损失函数进行反向传播，以对桥接在语音分离增强模型和目标识别模型之间的中间模型进行训练，得到鲁棒表征模型；

对第一损失函数和第二损失函数进行融合，得到目标损失函数；

基于目标损失函数对语音分离增强模型、鲁棒表征模型及目标识别模型进行联合训练，在满足预设收敛条件时结束训练。

统计各幅值聚类簇中声音幅值超出第二门限幅值的频谱点的数量值；第二门限幅值大于第一门限幅值；

将数量值超出预设数量阈值的幅值聚类簇判定为目标幅值聚类簇；目标幅值聚类簇由第一目标频谱点组成。

获取除第一目标频谱点之外的其他频谱点；

确定每个其他频谱点各自对应的声音频率；

根据声音频率，从其它频谱点中筛选出至少一个第二目标频谱点，得到目标频率聚类簇；

通过异常关键词、目标幅值聚类簇以及目标频率聚类簇，对人身安全进行监控。

根据噪音类型以及异常关键词预估人身威胁置信度；

根据人身威胁置信度，对人身安全进行监控。

当确定受到人身安全威胁时，获取定位信息；

基于定位信息确定室内置信度；

当室内置信度大于预设阈值时，获取气压信息及网络数据；

根据气压信息确定对应楼层，以及根据网络数据确定楼层区域；

根据楼层区域、异常关键词以及与异常关键词相关联的语音片段生成报警信息。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据噪音类型和异常关键词，对人身安全进行监控。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取异常用语集；异常用语集包括多条异常用语；

从与待识别语音相匹配的异常用语中提取出异常关键词。

在一个实施例中，语音识别模型包括语音分离增强模型以及目标识别模型；计算机程序被处理器执行时还实现以下步骤：

获取除第一目标频谱点之外的其他频谱点；

确定每个其他频谱点各自对应的声音频率；

根据声音频率，从其他频谱点中筛选出至少一个第二目标频谱点，得到目标频率聚类簇；

根据噪音类型以及异常关键词预估人身威胁置信度；

根据人身威胁置信度，对人身安全进行监控。

当确定受到人身安全威胁时，获取定位信息；

基于定位信息确定室内置信度；

当室内置信度大于预设阈值时，获取气压信息及网络数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人身安全监控方法，其特征在于，所述方法包括：

根据所述噪音类型和异常关键词，对人身安全进行监控；

所述方法还包括：

对所述待识别语音进行特征提取，并基于提取出的特征信息对语音进行识别，得到待识别语音所对应的拼音序列；

通过所述拼音序列确定N-1个字符，并基于N-1个字符预测下一字符出现的概率，以得到一条或多条与所述拼音序列相对应候选文字序列，并基于得到的候选文字序列生成索引网络，N为大于等于1的正整数；

将所述索引网络与异常用语集进行字符匹配，确定所述索引网络中每条候选文字序列各自匹配的异常用语，并计算每个所述候选文字序列相对于相匹配的异常用语的偏移距离，从最小偏移距离对应的候选文字序列所匹配的异常用语中，提取出异常关键词。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取异常用语集；所述异常用语集包括多条异常用语。

3.根据权利要求1所述的方法，其特征在于，所述索引网络是基于预训练的语音识别模型对所述待识别语音进行识别得到的；所述语音识别模型包括语音分离增强模型以及目标识别模型；所述语音识别模型的训练步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述采样时间和声音幅值从多个频谱点中筛选出第一目标频谱点包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取除所述第一目标频谱点之外的其他频谱点；

确定每个其他频谱点各自对应的声音频率；

6.根据权利要求1所述的方法，其特征在于，所述根据所述噪音类型和异常关键词，对人身安全进行监控包括：

根据所述噪音类型以及异常关键词预估人身威胁置信度；

根据所述人身威胁置信度，对人身安全进行监控。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当确定受到人身安全威胁时，获取定位信息；

基于所述定位信息确定室内置信度；

8.一种人身安全监控装置，其特征在于，所述装置包括：

监控模块，用于根据所述噪音类型和异常关键词，对人身安全进行监控；

所述语音片段获取模块还包括语音识别模块，用于对所述待识别语音进行特征提取，并基于提取出的特征信息对语音进行识别，得到待识别语音所对应的拼音序列；通过所述拼音序列确定N-1个字符，并基于N-1个字符预测下一字符出现的概率，以得到一条或多条与所述拼音序列相对应候选文字序列，并基于得到的候选文字序列生成索引网络，N为大于等于1的正整数；将所述索引网络与异常用语集进行字符匹配，确定所述索引网络中每条候选文字序列各自匹配的异常用语，并计算每个所述候选文字序列相对于相匹配的异常用语的偏移距离，从最小偏移距离对应的候选文字序列所匹配的异常用语中，提取出异常关键词。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。