WO2017101067A1

WO2017101067A1 - 一种对周围环境音的处理方法及设备

Info

Publication number: WO2017101067A1
Application number: PCT/CN2015/097706
Authority: WO
Inventors: 汪亮
Original assignee: 华为技术有限公司
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2017-06-22
Also published as: US10978041B2; CN107533839A; US20200296500A1; CN107533839B

Abstract

一种对周围环境音的处理方法及设备，根据接收到的预设时长内的周围环境音，确定所述预设时长内的周围环境音的时频谱（201）；根据所述预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，其中，所述匹配场景的时频谱与所述预设时长内的周围环境音的时频谱匹配（202）；将所述匹配场景对应的操作信息确定为所述待执行操作信息（203）；根据所述待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号（204）；将所述操作后信号混合至合成信号，并将所述合成信号输出至耳机中；其中，所述合成信号至少包括用户通过用户设备播放的音频信号（205）。

Description

一种对周围环境音的处理方法及设备

技术领域

本发明涉及信号技术领域，尤其涉及一种对周围环境音的处理方法及设备。

背景技术

主动降噪(Ambient Noise Cancellation，简称ANC)技术是一种在用户听音频时能够抵消周围环境中的中低频的噪声，从而产生安静聆听体验的技术。通过抵消周围环境中的噪声，可以让用户在听得清楚的前提下，音量可以更小，从而保护听力。

生活中的中低频噪声主要来源是交通工具、风扇、马达等。因此主动降噪功能主要在交通工具(如飞机、汽车、公交、地铁、火车等)上使用，也可能用在办公室、厂房等地方。

现有技术中应用主动降噪技术生产的降噪耳机，可以有效的对周围环境音中的噪声进行抵消，从而使用户安心的听音乐。但是现有技术的降噪耳机对周围环境音中的所有声音，甚至是用于提醒用户的汽车喇叭、警报等声音均进行了抵消，如此，为用户带来了一定的危险性。

基于上述论述可见，生活中用户可能在各种场景下使用降噪耳机，而不同的场景可能有不同的需求，比如用户需要听到用于提醒用户的汽车喇叭的声音。而现有技术中的降噪耳机仅仅是一味的对所有周围声音进行降噪，并不能根据用户所处的场景提供多样性的服务。

综上，亟需一种对周围环境音的处理方法，用于基于用户所处的场景，对周围环境音进行更准确的操作，以便为用户提供更准确的提示以及更优良的服务。

发明内容

本发明实施例提供一种对周围环境音的处理方法，用于基于用户所处的场景，对周围环境音进行更准确的操作，以便为用户提供更准确的提示以及更优良的服务。

本发明实施例提供一种对周围环境音的处理方法，包括：

根据接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱；

根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，其中，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配；

将匹配场景对应的操作信息确定为待执行操作信息；

根据待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；

将操作后信号与用户设备播放的音频信号进行混合，得到合成信号，并将合成信号输出至耳机中。

由于用户处于什么场景仅仅根据周围环境音中包括什么声音进行分析是不准确的，因为可能存在一些偶发性的声音，基于此，本发明实施例中根据预设时长的周围环境音的时频谱进行分析，进一步提高了对周围环境音的识别的准确性；进而根据预设时长的周围环境音的时频谱，从预设的至少一个场景中确定出匹配场景时，则能确定出与用户所处的真实场景最为接近的匹配场景，进而根据匹配场景对应的操作信息进行操作时，也就是根据用户所处的真实场景进行操作，从而实现了根据用户所处的场景对周围环境音进行更准确的操作，为用户提供更准确的提示以及更优良的服务的目的。

可选地，根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，具体包括：

将预设时长内的周围环境音的时频谱与预设的至少一个场景中的每个场景的时频谱进行归一化互相关，得到至少一个互相关值；

若至少一个互相关值中最大的互相关值大于互相关阈值，则将最大的互相关值对应的场景确定为备选场景；备选场景预设有至少一个特征频谱；备选场景的特征频谱为备选场景的时频谱中的全部频谱或部分频谱；

从预设时长内的周围环境音的时频谱中确定出至少一个特征频谱中的每一个特征频谱的能量；

根据预设时长内的周围环境音中的每一个特征频谱的能量，确定预设时长内的周围环境音中所有特征频谱的平均能量；

在确定平均能量大于能量阈值时，将备选场景确定为匹配场景。

具体来说，当备选场景的时频谱与处理设备接收到的周围环境音的时频谱的互相关值大于互相关阈值，且预设的该备选场景对应的N个核心频率，则该周围环境音的时频谱中一定也包括该备选场景对应的N个核心频率。进一步，由于该备选场景对应的特征频谱为该备选场景对应的N个核心频率中的部分或全部，因此周围环境音的时频谱中也一定包括该备选场景对应的特征频谱。因此，当确定出备选场景之后，可以根据预设的备选场景对应的至少一个特征频谱，从预设时长内的周围环境音的时频谱中确定出该至少一个特征频谱中的每一个特征频谱的能量。

如此，可提高对周围环境音的识别的准确性，即所确定出的匹配场景与真实的周围环境更加接近，进而根据匹配场景对应的操作信息进行操作时，才能更加的准确，为用户提供更加精确的服务。

可选地，待执行操作信息包括对周围环境音进行信号增强处理；

根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括：

根据后续接收到的周围环境音，确定用于提醒用户注意后续接收到的周围环境音的提示音，并将提示音作为操作后信号；

若后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据后续收到的周围环境音生成用于对后续收到的周围环境音降噪的反相声波，并将反相声波作为操作后信号；其中，预设频带为预设的至少一个噪音的频率范围。

如此，确定出周围环境音所匹配的场景之后，从预设的用于存储提示音的数据库中确定出一个提示音，将该提示音与音频信号进行混合，并将该混合信号输入给人耳，此时人会听到该提示音，进而会提高警惕，如此，改善了用户戴上耳机之后对周围环境音中的关键声音不敏感的问题。另一方面，通过生成的反相声波，进一步对周围环境音的进行了降噪，此时，更能凸显处理设备所输出的提示音，也就是说，由于对周围环境音的进行了降噪，因此进一步使用户听到的提示音的更加清晰，进而可使用户增加警惕性，第三方面，此时用户还可听到音频信号，可见，本发明实施例中并不会为了给用户发送提示音以增加用户的警惕性，而使用户不能享受音频信号，可见，本发明实施例中给用户一个更舒适的音频环境。

可选地，待执行操作信息包括以下内容中的任一项或任多项的组合：

对周围环境音进行信号增强处理、提示周围环境音的方向、对周围环境音进行语音识别处理、对周围环境音降噪处理。

通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将滤波后的周围环境音作为操作后信号。

如此，通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，以便保留用户希望听到的部分周围环境音。之后将滤波后的信号输入至人耳中，与用户的耳朵所能听到的声音进行叠加，起到了凸出该用户希望听到的部分周围环境音的效果，即用户所听到的风声、鸟叫、虫鸣声的声音均会得到增强，如此，用户在欣赏音乐的同时，也收听到了周围环境音中的美妙声音。

可选地，根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，还包括：

如此，一方面，将滤波后的信号输入至人耳中，与用户的耳朵所能听到的声音进行叠加，起到了凸出该用户希望听到的部分周围环境音的效果，另一方面，由于对周围环境音进行了降噪，用户能听到的周围环境音的音量更小了，此时凸显处理设备所输出的滤波后的周围环境音，也就是说，用户此时听到的滤波后的周围环境音的更加清晰了，进而改善了用户的感受，且此时用户还可听到音频信号，可见，本发明实施例中并不会为了给用户发送滤波后的周围环境音，而使用户不能享受音频信号，可见，本发明实施例中给用户一个更舒适的音频环境。

可选地，通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音之前，还包括：

根据滤波器预设的频率响应，以及用于对后续收到的周围环境音降噪的反相声波的频率响应，对预设的滤波器的频率响应进行补偿，得到补偿后的频率响应；

通过滤波器，使用补偿后的频率响应对周围环境音中的预设频带内的环境音进行滤除，得到滤波后的周围环境音。

如此，一方面，将滤波后的信号输入至人耳中，与用户的耳朵所能听到的声音进行叠加，起到了凸出该用户希望听到的部分周围环境音的效果，，另一方面，由于对周围环境音进行了降噪，用户能听到的周围环境音的音量更小了，此时凸显处理设备所输出的滤波后的周围环境音；进一步，根据滤波器预设的频率响应，以及用于对后续收到的周围环境音降噪的反相声波的频率响应，对预设的滤波器的频率响应进行补偿，如此，可有效的减少反相声波对滤波后的周围环境音造成的影响，一方面有效的对周围环境音中的噪音进行降噪，另一方面对周围环境音中的用户希望听到的声音进行增强。可见，本发明实施例中并不会为了给用户发送滤波后的周围环境音，而使用户不能享受音频信号，可见，本发明实施例中给用户一个更舒适的音频环境。

可选地，待执行操作信息包括提示周围环境音的方向；

确定耳机的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的相位差和幅度差；

根据确定出的相位差和幅度差，确定出需向耳机的左声道输出左报警提示音，和需向耳机的右声道输出右报警提示音；并将左报警提示音和右报警提示音作为操作后信号；

其中，左报警提示音和右报警提示音之间的相位差与确定出的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的相位差相同；

左报警提示音和右报警提示音之间的幅度差与确定出的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的幅度差相同。

由于耳机戴在头上，因此耳机的耳塞的位置和人耳的位置非常接近，此时利用左右两个耳塞收到的周围环境音，即可分析出声音来源，进而所输入到人耳的左报警提示音和右报警提示音之间的相位差和幅度差与真实的周围环境音进入到左耳和右耳的相位差和幅度差均相同，因此，用户可根据左报警提示音和右报警提示音确定出提示音的方向，改善了用户感受。

可选地，待执行操作信息包括对周围环境音进行语音识别处理；

根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括以下内容中的任一项或任多项的组合：

对周围环境音进行语音识别，根据识别出的语音确定出识别出的语音对应的虚拟提示音，并将虚拟提示音作为操作后信号；如此，可更加清晰的向用户反馈周围环境音中的语音信息。

对后续接收到的周围环境音进行语音识别，将识别出的语音的幅值增大，得到幅值增大的语音，并将幅值增大的语音作为操作后信号；如此，在周围环境音中的噪声特别大，或者用户有听力障碍时，可有效的增大他人说话的声音，为用户起到了助听器的效果。

对后续接收到的周围环境音进行语音识别，在确定识别出的语音与预设的语言形式不一致时，将识别出的语音翻译为预设的语言形式对应的语音，并将翻译后的语音作为操作后信号。可选地，可通过翻译软件实现对识别出的语言的翻译，为用户提供更多样化的服务。可选地，当识别出语音之后，还可将语音进行录音，并保存。

将所识别出的人类语言转换为文字信息，并将转换后的文字信息显示在用户设备上；或者

将所识别出的人类语言转换为文字信息，在确定转换后的文字信息与预设的语言形式不一致时，将转换后的文字信息翻译为预设的语言形式对应的文字信息，并将预设的语言形式对应的文字信息显示在用户设备上。可选地，处理设备识别出语音之后，还可通过使用户设备响铃或震动的方式，提醒用户注意所识别出的语音。

举例来说，将识别出的人类语音展示在用户的手机屏幕上，如此，可使用户更加清楚的确定周围环境音中的语音内容，也可更好的为具有听力障碍的人进行多样性的服务。

可选地，待执行操作信息包括对周围环境音降噪处理；

根据后续接收到的周围环境音，生成用于对后续收到的周围环境音降噪的反相声波，并将反相声波作为操作后信号。

由于根据接收到的周围环境音产生，产生了反相声波，处理设备将反相声波输出至人耳，以使该反相声波与进入人耳的周围环境音进行抵消，从而实现了降噪的效果。可选地，可通过特制的硬件通道实现反相声波的生成及传输。

可选地，根据接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱之前还包括：确定耳机戴在用户头上。

如此，则可在用户未戴耳机时，停止对周围环境音的处理，从而降低能耗，节省资源。

可选地，处理设备接收通过左反馈麦克和右反馈麦克接收到的合成信号与人耳听到的周围环境音进行混合的声音，并对接收到的合成信号与人耳听到的周围环境音进行混合的声音进行分析，根据得到的分析结果，调整操作后信号，并将调整后的操作信号与用户设备播放的音频信号进行混合，得到修正后的合成信号，并将修正后的合成信号输出至耳机中。

如此，通过将正后的合成信号输入至耳机，可对人耳听到的周围环境音的降噪效果更好，使用户更好的享受音频信号中的音乐或者其它音频，进一步改善了用户感受。

本发明实施例提供一种对周围环境音进行处理的处理设备，包括：

接收单元，用于接收周围环境音；

确定单元，用于根据接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱；根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景；将匹配场景对应的操作信息确定为待执行操作信息；其中，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配；

处理单元，用于根据待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；

合成单元，用于将操作后信号与用户设备播放的音频信号进行混合，得到合成信号；

发送单元，用于将合成信号输出至耳机中。

可选地，确定单元，具体用于：

处理单元，具体用于：

通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将滤波后的周围环境音作为操作后信号。处理单元还用于：得到操作后信号之后，若后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据后续收到的周围环境音生成用于对后续收到的周围环境音降噪的反相声波，并将反相声波作为操作后信号；其中，预设频带为预设的至少一个噪音的频率范围。进一步地，处理单元，还用于在通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音之前，根据滤波器预设的频率响应，以及用于对后续收到的周围环境音降噪的反相声波的频率响应，对预设的滤波器的频率响应进行补偿，得到补偿后的频率响应；通过滤波器，使用补偿后的频率响应对周围环境音中的预设频带内的环境音进行滤除，得到滤波后的周围环境音。

可选地，待执行操作信息包括提示周围环境音的方向；

处理单元，具体用于：

处理单元，具体用于执行以下内容中的任一项或任多项的组合：

对周围环境音进行语音识别，根据识别出的语音确定出识别出的语音对应的虚拟提示音，并将虚拟提示音作为操作后信号；

对后续接收到的周围环境音进行语音识别，将识别出的语音的幅值增大，得到幅值增大的语音，并将幅值增大的语音作为操作后信号；

对后续接收到的周围环境音进行语音识别，在确定识别出的语音与预设的语言形式不一致时，将识别出的语音翻译为预设的语言形式对应的语音，并将翻译后的语音作为操作后信号。

可选地，在根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，处理单元还用于：

将所识别出的人类语言转换为文字信息，在确定转换后的文字信息与预设的语言形式不一致时，将转换后的文字信息翻译为预设的语言形式对应的文字信息，并将预设的语言形式对应的文字信息显示在用户设备上。

可选地，待执行操作信息包括对周围环境音降噪处理；

处理单元，具体用于：

可选地，合成单元，用于通过接收单元接收通过左反馈麦克和右反馈麦克接收到的合成信号与人耳听到的周围环境音进行混合的声音，并对接收到的合成信号与人耳听到的周围环境音进行混合的声音进行分析，根据得到的分析结果，调整操作后信号，并将调整后的操作信号与用户设备播放的音频信号进行混合，得到修正后的合成信号，并将修正后的合成信号通过发送单元输出至耳机中。

接收器，用于接收周围环境音；

处理器，用于根据通过接收器接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱；根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景；将匹配场景对应的操作信息确定为待执行操作信息；根据待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；将操作后信号与用户设备播放的音频信号进行混合，得到合成信号，并将合成信号通过发送器输出至耳机中；其中，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配；

发送器，用于在处理器控制下，将合成信号输出至耳机中；

存储器，用于存储预设的至少一个场景的时频谱，以及匹配场景对应的操作信息。

可选地，处理器，具体用于：

在确定平均能量大于能量阈值时，将备选场景确定为匹配场景；

其中，特征频谱为：预设时长内的周围环境音的时频谱和备选场景对应的时频谱中均包含的频谱中的全部或部分。

处理器，具体用于：

可选地，处理器，具体用于：

在根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，若后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据后续收到的周围环境音生成用于对后续收到的周围环境音降噪的反相声波，并将反相声波作为操作后信号；其中，预设频带为预设的至少一个噪音的频率范围。

可选地，处理器，具体用于：

在通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音之前，根据滤波器预设的频率响应，以及用于对后续收到的周围环境音降噪的反相声波的频率响应，对预设的滤波器的频率响应进行补偿，得到补偿后的频率响应；

可选地，待执行操作信息包括提示周围环境音的方向；

处理器，具体用于：

处理器，具体用于执行以下内容中的任一项或任多项的组合：

可选地，处理器，在根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，还用于：

可选地，待执行操作信息包括对周围环境音降噪处理；

处理器，具体用于：

可选地，处理器，用于通过接收器接收通过左反馈麦克和右反馈麦克接收到的合成信号与人耳听到的周围环境音进行混合的声音，并对接收到的合成信号与人耳听到的周围环境音进行混合的声音进行分析，根据得到的分析结果，调整操作后信号，并将调整后的操作信号与用户设备播放的音频信号进行混合，得到修正后的合成信号，并将修正后的合成信号通过发送器输出至耳机中。

本发明实施例中，根据接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱；根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，其中，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配；将匹配场景对应的操作信息确定为待执行操作信息；根据待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；将操作后信号与用户设备播放的音频信号进行混合，得到合成信号，并将合成信号输出至耳机中。由于用户处于什么场景仅仅根据周围环境音中包括什么声音进行分析是不准确的，因为可能存在一些偶发性的声音，基于此，本发明实施例中根据预设时长的周围环境音的时频谱进行分析，进一步提高了对周围环境音的识别的准确性；进而根据预设时长的周围环境音的时频谱，从预设的至少一个场景中确定出匹配场景时，则能确定出与用户所处的真实场景最为接近的匹配场景，进而根据匹配场景对应的操作信息进行操作时，也就是根据用户所处的真实场景进行操作，从而实现了根据用户所处的场景对周围环境音进行更准确的操作，为用户提供更准确的提示以及更优良的服务的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例适用的系统架构示意图；

图1b为图1a所示的系统架构的等效电路图的示意图；

图2为本发明实施例提供的一种周围环境音的处理方法的流程示意图；

图2a为本发明实施例提供的一种时频谱的示意图；

图3为本发明实施例提供的一种对周围环境音进行处理的处理设备的结构示意图；

图4为本发明实施例提供的另一种对周围环境音进行处理的处理设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1a示例性示出了本发明实施例适用的系统架构示意图。如图1a所示，该系统架构中包括用户设备103，耳机102，以及处理设备104。处理设备104可以集成在耳机102中，处理设备104也可为集成在用户设备103中，或者处理设备104为独立于耳机102和用户设备103而存在的设备。耳机102分为左侧和右侧，耳机的左侧包括左喇叭108和左拾音麦克109，耳机的右侧包括右喇叭105和右拾音麦克106。可选地，耳机左侧还包括左反馈麦克110，耳机右侧还包括右反馈麦克107。

本发明实施例中用户设备103向处理设备104输入用户设备103播放的音频信号。处理设备104还通过左拾音麦克109和右拾音麦克106接收周围环境音101，并根据接收到的周围环境音确定待执行操作信息，并根据待执行操作信息以及接收到的周围环境音进行操作，确定操作后信号。待执行操作信息包括对周围环境音进行信号增强处理、提示周围环境音的方向、对周围环境音进行语音识别处理和对周围环境音降噪处理中的任一项或任多项的组合。处理设备将操作后信号与用户设备103音频信号进行混合，得到合成信号，并将合成信号分别输入至左喇叭108和右喇叭105中，以使用户听到合成信号。可选地，处理设备104可通过左反馈麦克110接收从左喇叭108中输出的声音，通过右反馈麦克107接收从右喇叭105中输出的声音，由于左反馈麦克110位于耳朵和左喇叭108之间，因此，左反馈麦克110接收到的声音即为人的左耳听到的声音；由于右反馈麦克107位于耳朵和右喇叭105之间，因此，右反馈麦克107接收到的声音即为人的右耳听到的声音；从而处理设备可根据左反馈麦克110和右反馈麦克107接收到的声音对合成信号进行调节，以提高用户听到的合成信号的质量，进一步提高用户的感受。

本发明实施例中，周围环境音先通过右拾音麦克106，之后再经过右喇叭105，最后经过右反馈麦克107。由于周围环境音101通过耳机进入人的耳朵中时，音量会被削弱，因此右拾音麦克106位于喇叭的外侧，可用于接收还未进入耳机的更清楚的周围环境音。且由于右拾音麦克106外部几乎没有任何遮挡物，因此可对周围环境音有较好的采集效果。类似地，周围环境音先通过左拾音麦克109，之后再经过左喇叭108，最后经过左反馈麦克110。由于周围环境音101通过耳机进入人的耳朵中时，音量会被削弱，因此左拾音麦克109位于喇叭的外侧，可用于接收还未进入耳机的更清楚的周围环境音。且由于左拾音麦克109外部几乎没有任何遮挡物，因此可对周围环境音有较好的采集效果。

图1b示例性示出了图1所示的系统架构的等效电路图。如图1b所示，系统可以分为两个部分，声学部分111，电学部分112。周围环境音101通过空间传播传递到左耳中，该模型等效为周围环境音101经过一个和耳机头结构相关的滤波器，周围环境音101穿过耳机进入左耳中的声音会被削弱。同时，周围环境音101被左拾音麦克109接收，并输入到处理设备104中进行一些列的操作，处理设备接收左拾音麦克109以及右拾音麦克106所输入的周围环境音，进行一系列的操作之后，得到操作后信号，并将操作后信号与音频信号进行混合，得到合成信号，并将合成信号分别输入至左喇叭108和右喇叭105中。处理设备104输出电信号，通过左喇叭108将接收到的电信号转换为声音信号，并且通过空间传播将该转换后的声音信号与外界的透过耳机的周围环境音进行叠加，成为用户最终听到的声音。可选地，在耳机头朝耳一侧配置有左反馈麦克110，采集用户最终听到的声音信号，并将该采集到的用户最终听到的声音信号反馈给处理设备，以使处理设备进行调整，以使用户最终听到的声音信号达到更优的效果。

本发明实施例所涉及到的用户设备为能够播放音频的设备，比如能够播放音频的的手持设备、车载设备、可穿戴设备、计算设备，以及各种形式的用户设备(User Equipment,简称UE)，移动台(Mobile station,简称MS)，终端(terminal)，终端设备(Terminal Equipment)等等。具体来说，比如手机、平板电脑、移动图像专家组音频层3(Moving Picture Experts Group Audio Layer 3，简称MP3)、移动图像专家组音频层4(Moving Picture Experts Group Audio Layer 4，简称MP4)、收音机、录音机等等。为方便描述，本申请中，简称为用户设备。

本发明实施例中用户设备播放的音频为用户希望听到的音乐、有声小说、娱乐节目的音频等等。该音频经过处理设备104的处理，分别经左喇叭108进入人的左耳，经过右喇叭105进入人的右耳。本发明实施例中的处理设备104可为可为图4中的处理设备400。处理设备104用于结合算法，对根据预设时长的周围环境音的时频谱进行分析，以及进行一些操作，并输入合成信号。

图4中的处理设备400包括的处理器401，可为中央处理器(Central Processing Unit，简称CPU)、数字信号处理器(Digital Signal Process，简称DSP)。具体实施中，图4中的处理设备400包括处理器401可为嵌入头盔式耳机内部的处理器；或者为连接于耳机的一个外部处理器；或者为用于播放音频信号的用户设备内部的处理器，此时，可通过定制的耳机插头，或者接口协议芯片来实现用于播放音频信号的用户设备上的处理器对周围环境音的分析和操作。

基于图1a和图1b所示的系统架构，图2示出了本发明实施例提供的处理设备可执行的一种对周围环境音的处理方法，该方法的执行主体处理设备可为图4中的处理设备400，具体来说，处理设备400中的处理器401读取存储器402中所存储的程序，并在接收器403、发送器404的配合下，用于执行下述方法流程，该方法包括：

步骤201，处理设备根据处理设备接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱；

步骤202，处理设备根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，其中，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配；

步骤203，处理设备将匹配场景对应的操作信息确定为待执行操作信息；

步骤204，处理设备根据待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；

步骤205，处理设备将操作后信号混合至合成信号，并将合成信号输出至耳机中；其中，合成信号至少包括用户通过用户设备播放的音频信号。

具体来说，上述步骤201中，处理设备周期性对接收到的周围环境音执行上述步骤201至上述步骤203，在每个周期内，处理设备根据接收到的预设时长内的周围环境音确定了待执行操作信息之后，在当前周期内可根据确定出的待执行操作信息对当前周期内后续接收到的周围环境音进行操作，直至下一个周期。举个例子，在第一个周期内的第一时刻，处理设备对在第一个周期内的第一时刻起接收到的预设时长内的周围环境音执行上述步骤201至上述步骤203，确定出第一待执行操作信息，比如，待执行操作信息为对周围环境音进行语音识别处理，此时，在该第一个周期内的其余时间里，均对后续接收到的周围环境音进行语音识别处理，并将识别出的语音确定为操作后信号。再比如，待执行操作信息为对周围环境音降噪处理，则在该第一个周期内的其余时间里，均需生成一个用于抵消后续接收到的周围环境音的反相声波，并将该生成的反相声波确定为操作后信号。到第二个周期内的第一时刻，处理设备对第二个周期内的自第一时刻起接收到的周围环境音执行上述步骤201至上述步骤203，确定出第二待执行操作信息，此时，在第二周期内的其余时间里，均根据第二待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号。

本发明实施例中，处理设备通过上述步骤201至步骤203确定出待执行操作信息，具体包括，本发明实施例的处理设备根据预设时长的周围环境音的时频谱，从预设的至少一个场景中确定出匹配场景，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配，此时将匹配场景对应的操作信息确定为待执行操作信息。

本发明实施例中还提供另一种实现方式，可通过预设的方式预先设置一个或多个工作模式，将每个工作模式对应的操作信息确定为待执行的操作信息。具体实施中，可设置一些开关，用于使用户通过这些开关灵活的开启或关闭一个或多个工作模式。处理设备启动之后，先从存储器中获取控制信息，比如用户预先开启了哪些工作模式。可进行开启和关闭的工作模式包括：场景识别工作模式、对周围环境音进行信号增强处理工作模式、提示周围环境音的方向工作模式、对周围环境音进行语音识别处理工作模式、对周围环境音降噪处理工作模式等等。用户可开始上述工作模式中的任一个或任多个。

处理设备启动之后进入所开启的预设的工作模式，并在每个工作模式下确定出对应的操作信息，并将其作为待执行的操作信息。具体来说，用户预先开启了场景识别模式若开启，则处理设备执行上述步骤201至步骤203，并将匹配场景对应的操作信息确定为待执行操作信息。若用户预先开启了对周围环境音进行信号增强处理工作模式，则待执行操作信息为对周围环境音进行信号增强处理。若用户预先开启了提示周围环境音的方向工作模式，则待执行操作信息为提示周围环境音的方向。若用户预先开启了对周围环境音进行语音识别处理工作模式，则待执行操作信息为对周围环境音进行语音识别处理。若用户预先开启了对周围环境音降噪处理工作模式，则待执行操作信息为对周围环境音降噪处理。

可选地，本发明实施例中，当关闭场景识别工作模式时，处理设备对接收到的周围环境音不再执行上述步骤201至步骤203，仅仅根据用户预设的其它工作模式进行工作，或者在用户的设置下，对周围环境音不做处理，仅仅输出音频信号。本发明实施例中以用户预先开启了场景识别工作模式为例进行介绍。

可选地，存储器中还存储有对周围环境音进行处理的过程中所使用到的各个参数，比如滤波器的参数等等。这些参数用户均可自行修改，也可使用默认值。

可选地，在上述步骤201之前，处理设备启动之后确定耳机是否戴在用户头上，若耳机未戴在头上，则可能用户将耳机摘下了，此时不对周围环境音进行处理。在确定耳机戴在用户头上时，则执行步骤201。如此，则可在用户未戴耳机时，停止对周围环境音的处理，从而降低能耗，节省资源。

可选地，可通过在耳机的耳塞头上设置传感器来判断耳机是否戴在用户头上，耳机的耳塞头为耳机于用户耳朵接触的部位。或者，可结合算法对双耳听到的周围环境音进行分析，比如一种基于头相关变换函数(Head Related Transfer Function，简称HRTF)的算法。

具体实施中，处理设备对接收到的预设时长内的周围环境音进行分帧处理，将周围环境音分为音频帧。音频帧是进行处理的基本单元，通常取10毫秒(millisecond，简称ms)或者20ms的数据。每个音频帧通过一些运算，比如快速傅氏变换(Fast Fourier Transformation，简称FFT)运算，获得该音频帧的频谱。频谱频域的颗粒度可以根据系统复杂度和需要的精度选取，例如256点。该音频帧的频谱和之前存储的多个音频帧的频谱在一起构成了该接收到的预设时长内的周围环境音的时频谱。

本发明实施例中在本地或者在云端预先存储或预设有至少一个场景，每个场景包括一个时频谱，且每个场景对应的时频谱不同，每个场景包括的时频谱中包括N个核心频率，即该场景中存在该N个核心频率的概率比较大。可选地，且每个场景还对应至少一个特征频谱，特征频谱为N个核心频率中的部分或全部，其中，N为正整数。举个例子，场景一为马路，场景一包括的时频谱中的核心频率包括马达声、人声、喇叭声的频率，此时，特征频谱可为该场景中占比重最大的声音，马路上的马达声一定占比重较大，此时，特征频谱为核心频谱中的马达声，或者，特征频谱为马达声和喇叭声，或者，特征频谱为核心频率中的所有频谱，即特征频谱为马达声、人声和喇叭声的频率。还为每个场景预设有对应的操作信息，比如，场景一为马路，因为马路上有喇叭声，需要人注意，因此预设的场景一对应的操作信息可为对周围环境音进行信号增强处理。本发明实施例中的时频谱为一段时间内用户接收到的周围环境音中各个声音的频率，图2a示例性示出了一种时频谱的示意图，如图2a所示，时频谱中横轴为时间轴，纵轴为频率轴，深浅不同的颜色代表各个不同的声音，从时频谱中可看出一段时间内，占比重较大的一个或几个声音。

可选地，上述步骤202中，具体通过以下步骤确定匹配场景：

将处理设备接收到的预设时长内的周围环境音的时频谱与预设的至少一个场景中的每个场景的时频谱进行归一化互相关，得到至少一个互相关值。本发明实施例中归一化互相关(Normalized Correlation，简称NC)，也可称为归一化互相关匹配算法，归一化互相关匹配算法是一种经典的统计算法，这种算法通过计算两幅图像的互相关值来确定两幅图像的匹配的程度。可选地，本发明实施例中也可采用机器学习算法、或者更复杂的人工神经网络等算法为周围环境音匹配出匹配场景。

若至少一个互相关值中最大的互相关值大于互相关阈值，则将最大的互相关值对应的场景确定为备选场景；备选场景预设有至少一个特征频谱；备选场景的特征频谱为备选场景的时频谱中的全部频谱或部分频谱；从预设时长内的周围环境音的时频谱中确定出至少一个特征频谱中的每一个特征频谱的能量；根据预设时长内的周围环境音中的每一个特征频谱的能量，确定预设时长内的周围环境音中所有特征频谱的平均能量；在确定平均能量大于能量阈值时，将备选场景确定为匹配场景。

具体来说，当备选场景的时频谱与处理设备接收到的周围环境音的时频谱的互相关值大于互相关阈值，且预设的该备选场景对应的N个核心频率，则该周围环境音的时频谱中一定也包括该备选场景对应的N个核心频率。举个例子用以说明，备选场景对应的核心频率为马达声、喇叭声和人声的频率，此时，只有周围环境音的时频谱中也包括马达声、喇叭声和人声的频率，周围环境音的时频谱与备选场景的时频谱的互相关值才能大于互相关阈值，也就是说，此时，周围环境音的时频谱与备选场景的时频谱才能匹配。进一步，由于该备选场景对应的特征频谱为该备选场景对应的N个核心频率中的部分或全部，因此周围环境音的时频谱中也一定包括该备选场景对应的特征频谱。因此，当确定出备选场景之后，可以根据预设的备选场景对应的至少一个特征频谱，从预设时长内的周围环境音的时频谱中确定出该至少一个特征频谱中的每一个特征频谱的能量。

若至少一个互相关值中最大的互相关值不大于互相关阈值，则说明没有为用户当前所处的真实场景确定出一个相匹配的匹配场景。或者，若至少一个互相关值中最大的互相关值大于互相关阈值，但是周围环境音中所有特征频谱的平均能量不大于能量阈值时，则说明没有为用户当前所处的真实场景确定出一个相匹配的匹配场景。

本发明实施例中的互相关阈值和能量阈值均为常规经验值。互相关值越大则表面两个时频谱越匹配，比如互相关阈值可为1。一个频谱的能量越大，说明该频谱对应的声音越大，用户与该声音源越接近。

本发明实施例中运用时频谱进行归一化互相关，即时从时间维度，以及周围环境音中所包括的声音种类两个方面类确定备选场景，进而再根据周围环境音中包括的特征频谱的能量是否大于能量阈值，即该周围环境音中的特征频谱对应的声音的强度是否足够大，如此，可进一步提高匹配场景与用户所处的真实场景的匹配度，即进一步提高了匹配场景与用户所处的真实场景的接近程度。

可选地，本发明实施例中将匹配场景对应的操作信息确定为待执行操作信息，待执行操作信息包括以下内容中的任一项或任多项的组合：对周围环境音进行信号增强处理、提示周围环境音的方向、对周围环境音进行语音识别处理、对周围环境音降噪处理。下面详细介绍当待执行操作信息为上述内容时，处理设备相应的处理方法。

可选地，待执行操作信息包括对周围环境音降噪处理；则处理设备根据处理设备后续接收到的周围环境音，生成反相声波，并将反相声波作为操作后信号，该反相声波与音频信号进行混合，得到合成信号，将合成信号输出至人耳，合成信号中包括的反相声波用于抵消人耳接收到的周围环境音，进而达到降噪效果。

举个例子，比如，用户在马路边的休闲区中安静的听音乐，此时可能会受到马路边的汽车的马达声、喇叭声和人声的影响，预设的该场景下对应的操作信息可以为对周围环境音降噪处理。

具体来说，用户戴上耳机之后，耳机堵住了用户的耳朵，此时用户对周围环境音中的关键声音不敏感，从而带来了安全隐患。此类关键声音包括不限于汽车喇叭声、提示声、旁人喊叫声等。本发明实施例中对存在此类关键声音的场景可以实现对周围环境音进行信号增强处理，以便使用户在欣赏音频信号的同时，也能够注意到周围环境音中的关键声音。

待执行操作信息包括对周围环境音进行信号增强处理；则包括多种实现方式，本发明实施例中提供以下几种可选的实施方式。

方式一，待执行操作信息包括对周围环境音进行信号增强处理，则根据后续接收到的周围环境音，确定用于提醒用户注意后续接收到的周围环境音的提示音，并将提示音作为操作后信号。

方式二，待执行操作信息包括对周围环境音进行信号增强处理，则根据后续接收到的周围环境音，确定用于提醒用户注意后续接收到的周围环境音的提示音，并将提示音作为操作后信号，且若后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据后续收到的周围环境音生成反相声波，并将反相声波作为操作后信号，其中，预设频带为预设的至少一个噪音的频率范围。

具体来说，上述方式一和方式二中，即确定出周围环境音所匹配的场景之后，从预设的用于存储提示音的数据库中确定出一个提示音，将该提示音与音频信号进行混合，并将该混合信号输入给人耳，此时人会听到该提示音，进而会提高警惕，如此，改善了用户戴上耳机之后对周围环境音中的关键声音不敏感的问题。

进一步，上述方式二中，预设频带为预设的至少一个噪音的频率范围，比如预设频带包括汽车的马达声的频率范围、地铁的轨道运行声的频率范围等等。当后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，则说明用户所处的场景内噪音过大，因此，根据后续收到的周围环境音生成反相声波，并将反相声波作为操作后信号。此时，处理设备将音频信号、提示音，以及反相声波均进行混合，生成合成信号，并输入至人耳。可见，方式二中对周围环境音进行信号增强处理包括两方面，一方面输出提示音，用于增强周围环境音，另一方面，启用处理设备中的降噪设备，生成反相声波，以便对耳朵接收到的周围环境音进行降噪处理。也就是说，此种方式下，一方面，输出了提示音，用于使人会听到该提示音，进而会提高警惕，另一方面，通过生成的反相声波，进一步对周围环境音的进行了降噪，此时，更能凸显处理设备所输出的提示音，也就是说，由于对周围环境音的进行了降噪，因此进一步使用户听到的提示音的更加清晰，进而可使用户增加警惕性，第三方面，此时用户还可听到音频信号，可见，本发明实施例中并不会为了给用户发送提示音以增加用户的警惕性，而使用户不能享受音频信号，可见，本发明实施例中给用户一个更舒适的音频环境。

本发明实施例中的提示音可为常见的警示音，比如一些短短的易于引起用户注意的音频，类似嘟嘟嘟、滴滴滴等。提示音还可为合成语音，比如人工语音播报的请注意附近有车。提示音还可为虚拟背景音，比如预先存储的喇叭声、自行车铃铛声等等虚拟的与周围环境音中包括的声音类似的声音。可选地，用户可以自定义提示音的类型与音量等参数。

上述方式一和方式二中，待执行操作信息包括对周围环境音进行信号增强处理时，向人耳中至少输入提示音。但有些场景下，用户更希望听到周围场景音中的部分声音，基于此，本发明实施例中提供下述几种可选地实施方式。

方式三，待执行操作信息包括对周围环境音进行信号增强处理；则通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将滤波后的周围环境音作为操作后信号。

方式四，待执行操作信息包括对周围环境音进行信号增强处理；则通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将滤波后的周围环境音作为操作后信号，且若后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据后续收到的周围环境音生成反相声波，并将反相声波作为操作后信号，其中，预设频带为预设的至少一个噪音的频率范围。

方式五，待执行操作信息包括对周围环境音进行信号增强处理；则通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将滤波后的周围环境音作为操作后信号。且若后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据后续收到的周围环境音生成反相声波，并将反相声波作为操作后信号，其中，预设频带为预设的至少一个噪音的频率范围。进一步，通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音之前，还包括：根据滤波器预设的频率响应，以及用于对后续收到的周围环境音降噪的反相声波的频率响应，对预设的滤波器的频率响应进行补偿，得到补偿后的频率响应；通过滤波器，使用补偿后的频率响应对周围环境音中的预设频带内的环境音进行滤除，得到滤波后的周围环境音。

举个例子，用户希望听到风声、鸟叫、虫鸣声，但是不希望听到公园旁边马路上汽车的马达声。而且，此时周围场景音通过耳机进入到人耳中时，音量已经被消弱了，因此此时一方面用户所听到的风声、鸟叫、虫鸣声的音量都被消弱了，另一方面也还是能听到汽车马达声。基于此种场景，本发明实施例中通过上述方式三、上述方式四和上述方式五，通过滤波器对后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，以便保留用户希望听到的部分周围环境音。比如，设置滤波器的参数，使风声、鸟叫、虫鸣声和汽车马达声一起经过滤波器之后，滤波后的周围环境音中仅包括风声、鸟叫、虫鸣声，而汽车马达声被滤除了。之后将滤波后的信号输入至人耳中，与用户的耳朵所能听到的声音进行叠加，起到了凸出该用户希望听到的部分周围环境音的效果，即用户所听到的风声、鸟叫、虫鸣声的声音均会得到增强，如此，用户在欣赏音乐的同时，也收听到了周围环境音中的美妙声音。

进一步，用户在公园中戴着耳机听音乐，用户实际听到的是周围环境音透过耳机传到耳朵中的声音和耳机中播放的声音的叠加结果。由于耳机喇叭能力有限，而且音量太大会损伤用户听力，因此，如果此时周围环境音中存在的噪声较大，此时，向用户播放提示音或滤波后的周围环境音会受到外界的周围环境音的干扰。基于该问题，上述方式四中，较佳地，在预设频带内的环境音的功率值大于功率门限，则输入用于降噪的反相声波，如此，则同时实现了对周围环境音中属于噪音的部分的抵消，比如汽车的马达声属于预设频带内的环境音，此时输出的反相声波可以将用户听到的汽车马达声进行抵消，达到了降噪的目的。如此，由于对周围环境音进行了降噪，用户能听到的周围环境音的音量更小了，此时凸显处理设备所输出的滤波后的周围环境音，也就是说，用户此时听到的滤波后的周围环境音的更加清晰了，进而改善了用户的感受，且此时用户还可听到音频信号，可见，本发明实施例中并不会为了给用户发送滤波后的周围环境音，而使用户不能享受音频信号，可见，本发明实施例中给用户一个更舒适的音频环境。

进一步，较佳地，上述方式五中，操作后信号同时包括滤波后的周围环境音，以及反相声波时，根据滤波器预设的频率响应，以及用于对后续收到的周围环境音降噪的反相声波的频率响应，对预设的滤波器的频率响应进行补偿，如此，可有效的减少反相声波对滤波后的周围环境音造成的影响，一方面有效的对周围环境音中的噪音进行降噪，另一方面对周围环境音中的用户希望听到的声音进行增强。

上述方式五中，通过公式(1)判定后续接收到的周围环境音中包括的预设频带内的环境音的功率值是否大于功率门限：

……公式(1)

公式(1)中，H_e(z)为后续接收到的周围环境音中预设频带内的第z个环境音的频谱；z的取值范围为[1,n]；n为周围环境音中包括的预设频带内的环境音的总个数；

w(z)为后续接收到的周围环境音中预设频带内的第z个环境音的加权函数；w(z)可根据具体情况进行取值，比如周围环境音中预设频带内的第z个环境音的频谱为50赫兹(Hz)至2千赫兹(KHz)，此时，w(z)＝1；其他频谱的环境音对应的加权函数取值0。

S为后续接收到的周围环境音中包括的预设频带内的环境音的功率值；S_th为功率门限；若S>S_th，则根据后续收到的周围环境音生成反相声波。且进一步获取获取滤波器预设的频率响应Hr(z)。用户可根据场景以及自己的喜好预先设置该滤波器的频率响应，并根据用于对后续收到的周围环境音降噪的反相声波的频率响应，对滤波器的频率响应进行补偿，得到补偿后的频率响应。如公式(2)所示：

H’r(z)＝Hr(z)-Hanc(z)……公式(2)

公式(2)中：Hr(z)为滤波器预设的频率响应；Hanc(z)为用于对后续收到的周围环境音降噪的反相声波的频率响应；H’r(z)为补偿后的频率响应。

具体实施中，用户除了需要关注周围环境中的关键声音，还需要知道声音的方向来源，比如自行车铃声是来自左边还是来自右边，以便用户能够做出相应的处理策略。基于此，可选地，待执行操作信息包括提示周围环境音的方向；则处理设备确定耳机的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的相位差和幅度差；根据确定出的相位差和幅度差，处理设备确定出需向耳机的左声道输出左报警提示音，和需向耳机的右声道输出右报警提示音；并将左报警提示音和右报警提示音作为操作后信号。

其中，左报警提示音和右报警提示音之间的相位差与确定出的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的相位差相同；左报警提示音和右报警提示音之间的幅度差与确定出的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的幅度差相同。

具体实施中，某个声音源在左边时，则左耳听到的声音会比右耳听到的声音会早一些，且左耳听到的声音会比右耳听到的声音的幅度大一些，即强度大一些。由于耳机戴在头上，因此耳机的耳塞的位置和人耳的位置非常接近，此时利用左右两个耳塞收到的周围环境音，即可分析出声音来源，进而所输入到人耳的左报警提示音和右报警提示音之间的相位差和幅度差与真实的周围环境音进入到左耳和右耳的相位差和幅度差均相同，因此，用户可根据左报警提示音和右报警提示音确定出提示音的方向。

可选地，对接收到的周围环境音进行滤波，以便滤除一些杂音，进而可对周围环境音进行更准确的分析。比如，将周围环境音中的除喇叭声之外的声音都滤除，之后对喇叭进行分析。

耳机的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的相位差和幅度差的计算方式如公式(3)所示：

……公式(3)

x_l(i)＝x(i)

x_r(i)＝Ax(i+τ)

公式(3)中，S_l(i)为第i个测量周期内的耳机的左拾音麦克所接收到的后续接收到的周围环境音；S_r(i)为第i个测量周期内的耳机的右拾音麦克所接收到的后续接收到的周围环境音；i的取值范围为[1，I]，其中，I为测量周期的总数量，可认为设定；

A为耳机的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的幅度差；

S_r(i+u)为第i个测量周期内的耳机的右拾音麦克所接收到的后续接收到的周围环境音延迟时长u之后所得到的信号；

u为预设的左拾音麦克所接收到的后续接收到的周围环境音与右拾音麦克所接收到的后续接收到的周围环境音之间的时间上的差值；也就是说，针对u做扫描，当u等于左拾音麦克所接收到的后续接收到的周围环境音与右拾音麦克所接收到的后续接收到的周围环境音之间的时间差时，左拾音麦克所接收到的后续接收到的周围环境音与右拾音麦克所接收到的后续接收到的周围环境音之间的相关值最大；U的范围是[-W，W]，其中W为预设的处理设备能够处理的最长的时间范围；W可为一个测量周期；

τ为耳机的左拾音麦克所接收到的后续接收到的周围环境音和耳机的右拾音麦克所接收到的后续接收到的周围环境音之间的相位差；

x(i)为系统产生的报警提示音；

x(i+τ)为系统产生的报警提示音x(i)延迟时长τ之后所得的信号；

x_l(i)为需向耳机的左声道输出左报警提示音；x_r(i)为需向耳机的右声道输出左报警提示音。

可选地，待执行操作信息包括对周围环境音进行语音识别处理；根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括以下内容中的任一项或任多项的组合：

可选地，本发明实施例中，待执行操作信息包括对周围环境音进行语音识别处理时，可将确定出的操作后信号与户设备播放的音频信号进行混合，得到合成信号，并将合成信号输出至耳机中，如此，用户既能同时享受音频信号，保证音频信号不中断，也可同时听到所识别出的虚拟提示音、幅值增大的语音或翻译后的语音。另一种实施方式为，待执行操作信息包括对周围环境音进行语音识别处理时，可中断音频信号的播放，将确定出的操作后信号单独输出，如此，可使用户更加清楚的听到所识别出的虚拟提示音、幅值增大的语音或翻译后的语音。

具体来说，根据识别出的语音确定出识别出的语音对应的虚拟提示音，具体来说可为人工语音播报的所识别出的语音，举例来说，识别出的语音为“吃饭了吗？”，虚拟提示音可为人工播报的“吃饭了吗？”。如此，可更加清晰的向用户反馈周围环境音中的语音信息。

将识别出的语音的幅值增大，得到幅值增大的语音，并将幅值增大的语音作为操作后信号。如此，在周围环境音中的噪声特别大，或者用户有听力障碍时，可有效的增大他人说话的声音，为用户起到了助听器的效果。

在确定识别出的语音与预设的语言形式不一致时，将识别出的语音翻译为预设的语言形式对应的语音，并将翻译后的语音作为操作后信号。可选地，可通过翻译软件实现对识别出的语言的翻译，为用户提供更多样化的服务。可选地，当识别出语音之后，还可将语音进行录音，并保存。

可选地，可将所识别出的人类语言转换为文字信息，并将转换后的文字信息显示在用户设备上；或者将所识别出的人类语言转换为文字信息，在确定转换后的文字信息与预设的语言形式不一致时，将转换后的文字信息翻译为预设的语言形式对应的文字信息，并将预设的语言形式对应的文字信息显示在用户设备上。可选地，处理设备识别出语音之后，还可通过使用户设备响铃或震动的方式，提醒用户注意所识别出的语音。

举个例子，比如，操作后信号为反相声波，处理设备接收通过左反馈麦克和右反馈麦克接收到的合成信号与人耳听到的周围环境音进行混合的声音中，合成信号中的反相声波与人耳听到的周围环境音中的噪音进行了抵消，此时合成信号与人耳听到的周围环境音进行混合的声音中噪音已经很小了，对合成信号与人耳听到的周围环境音进行混合的声音进行分析，根据分析结果对操作后信号进行调整，比如，调整反相声波的相位，以便使修正后的合成信号中的反相声波对周围环境音进行抵消的效果更好，即修正后的合成信号中的反相声波对周围环境音进行降噪的效果更好，如此，通过将正后的合成信号输入至耳机，可对人耳听到的周围环境音的降噪效果更好，使用户更好的享受音频信号中的音乐或者其它音频，进一步改善了用户感受。

从上述内容可看出，本发明实施例中，根据接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱；根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，其中，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配；将匹配场景对应的操作信息确定为待执行操作信息；根据待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；将操作后信号与用户设备播放的音频信号进行混合，得到合成信号，并将合成信号输出至耳机中。由于用户处于什么场景仅仅根据周围环境音中包括什么声音进行分析是不准确的，因为可能存在一些偶发性的声音，基于此，本发明实施例中根据预设时长的周围环境音的时频谱进行分析，进一步提高了对周围环境音的识别的准确性；进而根据预设时长的周围环境音的时频谱，从预设的至少一个场景中确定出匹配场景时，则能确定出与用户所处的真实场景最为接近的匹配场景，进而根据匹配场景对应的操作信息进行操作时，也就是根据用户所处的真实场景进行操作，从而实现了根据用户所处的场景对周围环境音进行更准确的操作，为用户提供更准确的提示以及更优良的服务的目的。

图3示例性示出了本发明实施例提供的本发明实施例提供的一种对周围环境音进行处理的处理设备的结构示意图。

基于相同构思，本发明实施例中提供一种对周围环境音进行处理的处理设备300，用于执行上述对周围环境音进行处理的方法的实施例，如图3所示，包括接收单元301、确定单元302、处理单元303、合成单元304、发送单元305：

接收单元，用于接收周围环境音；

发送单元，用于将合成信号输出至耳机中。

可选地，处理设备可位于耳机中，也可位于用户设备侧。

可选地，确定单元，具体用于：

处理单元，具体用于执行以下内容中的任一项：

可选地，待执行操作信息包括提示周围环境音的方向；

处理单元，具体用于：

可选地，处理单元，在根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，还用于：

可选地，待执行操作信息包括对周围环境音降噪处理；

处理单元，具体用于：

根据后续接收到的周围环境音，生成反相声波，并将反相声波作为操作后信号。

可选地，处理单元，还用于：

确定耳机戴在用户头上。

图4示例性示出了本发明实施例提供的本发明实施例提供的另一种对周围环境音进行处理的处理设备的结构示意图。

基于相同构思，本发明实施例中提供一种对周围环境音进行处理的处理设备400，用于执行上述对周围环境音进行处理的方法流程，如图4所示，包括处理器401、存储器402、接收器403、发送器404：

处理器，读取存储器存储的程序，执行下述流程：

根据通过接收器接收到的预设时长内的周围环境音，确定预设时长内的周围环境音的时频谱；根据预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景；将匹配场景对应的操作信息确定为待执行操作信息；根据待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；将操作后信号与用户设备播放的音频信号进行混合，得到合成信号，并将合成信号输出至耳机中；其中，匹配场景的时频谱与预设时长内的周围环境音的时频谱匹配；可选地，处理器可位于耳机中，也可位于用户设备侧；

接收器，用于在处理器的控制下接收周围环境音；可选地，接收器连接耳机的左拾音麦克和耳机的右拾音麦克，接收器接收耳机的左拾音麦克和耳机的右拾音麦克接收到的周围环境音；另一种实施方式中，接收器也可连接用户设备上的麦克，此时，接收器可接收用户设备上的麦克接收到的周围环境音；

发送器，用于在处理器控制下，将合成信号输出至耳机中；具体来说，发送器连接至耳机的左声道和右声道，发送器将合成信号输出至耳机的左声道和右声道，进而左声道连接左喇叭，右声道连接右喇叭，此时，发送器输出至耳机的左声道的合成信号通过左喇叭进而人耳，发送器输出至耳机的右声道的合成信号通过右喇叭进而人耳。

存储器，用于存储预设的至少一个场景的时频谱，以及匹配场景对应的操作信息，以及存储程序。

可选地，处理器，具体用于执行上述对周围环境音进行处理的方法的实施例。

其中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。接收器和发送器提供用于在传输介质上与各种其他设备通信的单元。处理器负责管理总线架构和通常的处理，存储器可以存储处理器在执行操作时所使用的数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种对周围环境音的处理方法，其特征在于，包括：

根据接收到的预设时长内的周围环境音，确定所述预设时长内的周围环境音的时频谱；

根据所述预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，其中，所述匹配场景的时频谱与所述预设时长内的周围环境音的时频谱匹配；

将所述匹配场景对应的操作信息确定为所述待执行操作信息；

根据所述待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；

将所述操作后信号与用户设备播放的音频信号进行混合，得到合成信号，并将所述合成信号输出至耳机中。
如权利要求1所述的方法，其特征在于，所述根据所述预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景，具体包括：

将所述预设时长内的周围环境音的时频谱与预设的所述至少一个场景中的每个场景的时频谱进行归一化互相关，得到至少一个互相关值；

若所述至少一个互相关值中最大的互相关值大于互相关阈值，则将所述最大的互相关值对应的场景确定为备选场景；所述备选场景预设有至少一个特征频谱；所述备选场景的特征频谱为所述备选场景的时频谱中的全部频谱或部分频谱；

从所述预设时长内的周围环境音的时频谱中确定出所述至少一个特征频谱中的每一个特征频谱的能量；

根据所述预设时长内的周围环境音中的每一个特征频谱的能量，确定所述预设时长内的周围环境音中所有特征频谱的平均能量；

在确定所述平均能量大于能量阈值时，将所述备选场景确定为所述匹配场景。
如权利要求1所述的方法，其特征在于，所述待执行操作信息包括对周围环境音进行信号增强处理；

所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括：

根据所述后续接收到的周围环境音，确定用于提醒用户注意所述后续接收到的周围环境音的提示音，并将所述提示音作为操作后信号；

若所述后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据所述后续收到的周围环境音生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号；其中，所述预设频带为预设的至少一个噪音的频率范围。
如权利要求1所述的方法，其特征在于，所述待执行操作信息包括对周围环境音进行信号增强处理；

所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括：

通过滤波器对所述后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将所述滤波后的周围环境音作为操作后信号。
如权利要求4所述的方法，其特征在于，所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，还包括：

若所述后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据所述后续收到的周围环境音生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号；其中，所述预设频带为预设的至少一个噪音的频率范围。
如权利要求5所述的方法，其特征在于，所述通过滤波器对所述后续接收到的周围环境音进行滤波，得到滤波后的周围环境音之前，还包括：

根据所述滤波器预设的频率响应，以及所述用于对所述后续收到的周围环境音降噪的反相声波的频率响应，对所述预设的滤波器的频率响应进行补偿，得到补偿后的频率响应；

通过所述滤波器，使用所述补偿后的频率响应对所述周围环境音中的预设频带内的环境音进行滤除，得到滤波后的周围环境音。
如权利要求1所述的方法，其特征在于，所述待执行操作信息包括提示周围环境音的方向；

所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括：

确定所述耳机的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的相位差和幅度差；

根据所述确定出的相位差和幅度差，确定出需向所述耳机的左声道输出左报警提示音，和需向所述耳机的右声道输出右报警提示音；并将所述左报警提示音和所述右报警提示音作为操作后信号；

其中，所述左报警提示音和所述右报警提示音之间的相位差与所述确定出的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的相位差相同；

所述左报警提示音和所述右报警提示音之间的幅度差与所述确定出的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的幅度差相同。
如权利要求1所述的方法，其特征在于，所述待执行操作信息包括对周围环境音进行语音识别处理；

所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括以下内容中的任一项或任多项的组合：

对所述周围环境音进行语音识别，根据所述识别出的语音确定出所述识别出的语音对应的虚拟提示音，并将所述虚拟提示音作为操作后信号；

对所述后续接收到的周围环境音进行语音识别，将所述识别出的语音的幅值增大，得到幅值增大的语音，并将所述幅值增大的语音作为操作后信号；

对所述后续接收到的周围环境音进行语音识别，在确定识别出的语音与预设的语言形式不一致时，将识别出的语音翻译为所述预设的语言形式对应的语音，并将翻译后的语音作为操作后信号。
如权利要求8所述的方法，其特征在于，所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，还包括：

将所识别出的人类语言转换为文字信息，并将转换后的文字信息显示在所述用户设备上；或者

将所识别出的人类语言转换为文字信息，在确定转换后的文字信息与预设的语言形式不一致时，将所述转换后的文字信息翻译为所述预设的语言形式对应的文字信息，并将所述预设的语言形式对应的文字信息显示在所述用户设备上。
如权利要求1所述的方法，其特征在于，所述待执行操作信息包括对周围环境音降噪处理；

所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号，具体包括：

根据所述后续接收到的周围环境音，生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号。
一种对周围环境音进行处理的处理设备，其特征在于，包括：

接收单元，用于接收周围环境音；

确定单元，用于根据接收到的预设时长内的周围环境音，确定所述预设时长内的周围环境音的时频谱；根据所述预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景；将所述匹配场景对应的操作信息确定为所述待执行操作信息；其中，所述匹配场景的时频谱与所述预设时长内的周围环境音的时频谱匹配；

处理单元，用于根据所述待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；

合成单元，用于将所述操作后信号与用户设备播放的音频信号进行混合，得到合成信号；

发送单元，用于将所述合成信号输出至耳机中。
如权利要求11所述的设备，其特征在于，所述确定单元，具体用于：

将所述预设时长内的周围环境音的时频谱与预设的所述至少一个场景中的每个场景的时频谱进行归一化互相关，得到至少一个互相关值；

若所述至少一个互相关值中最大的互相关值大于互相关阈值，则将所述最大的互相关值对应的场景确定为备选场景；所述备选场景预设有至少一个特征频谱；所述备选场景的特征频谱为所述备选场景的时频谱中的全部频谱或部分频谱；

从所述预设时长内的周围环境音的时频谱中确定出所述至少一个特征频谱中的每一个特征频谱的能量；

根据所述预设时长内的周围环境音中的每一个特征频谱的能量，确定所述预设时长内的周围环境音中所有特征频谱的平均能量；

在确定所述平均能量大于能量阈值时，将所述备选场景确定为所述匹配场景。
如权利要求11所述的设备，其特征在于，所述待执行操作信息包括对周围环境音进行信号增强处理；

所述处理单元，具体用于：

根据所述后续接收到的周围环境音，确定用于提醒用户注意所述后续接收到的周围环境音的提示音，并将所述提示音作为操作后信号；

若所述后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据所述后续收到的周围环境音生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号；其中，所述预设频带为预设的至少一个噪音的频率范围。
如权利要求11所述的设备，其特征在于，所述待执行操作信息包括对周围环境音进行信号增强处理；

所述处理单元，具体用于：

通过滤波器对所述后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将所述滤波后的周围环境音作为操作后信号。
如权利要求14所述的设备，其特征在于，所述处理单元，具体用于：

在所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，若所述后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据所述后续收到的周围环境音生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号；其中，所述预设频带为预设的至少一个噪音的频率范围。
如权利要求15所述的设备，其特征在于，所述处理单元，具体用于：

在所述通过滤波器对所述后续接收到的周围环境音进行滤波，得到滤波后的周围环境音之前，根据所述滤波器预设的频率响应，以及所述用于对所述后续收到的周围环境音降噪的反相声波的频率响应，对所述预设的滤波器的频率响应进行补偿，得到补偿后的频率响应；

通过所述滤波器，使用所述补偿后的频率响应对所述周围环境音中的预设频带内的环境音进行滤除，得到滤波后的周围环境音。
如权利要求11所述的设备，其特征在于，所述待执行操作信息包括提示周围环境音的方向；

所述处理单元，具体用于：

确定所述耳机的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的相位差和幅度差；

根据所述确定出的相位差和幅度差，确定出需向所述耳机的左声道输出左报警提示音，和需向所述耳机的右声道输出右报警提示音；并将所述左报警提示音和所述右报警提示音作为操作后信号；

其中，所述左报警提示音和所述右报警提示音之间的相位差与所述确定出的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的相位差相同；

所述左报警提示音和所述右报警提示音之间的幅度差与所述确定出的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的幅度差相同。
如权利要求11所述的设备，其特征在于，所述待执行操作信息包括对周围环境音进行语音识别处理；

所述处理单元，具体用于执行以下内容中的任一项或任多项的组合：

对所述周围环境音进行语音识别，根据所述识别出的语音确定出所述识别出的语音对应的虚拟提示音，并将所述虚拟提示音作为操作后信号；

对所述后续接收到的周围环境音进行语音识别，将所述识别出的语音的幅值增大，得到幅值增大的语音，并将所述幅值增大的语音作为操作后信号；

对所述后续接收到的周围环境音进行语音识别，在确定识别出的语音与预设的语言形式不一致时，将识别出的语音翻译为所述预设的语言形式对应的语音，并将翻译后的语音作为操作后信号。
如权利要求18所述的设备，其特征在于，所述处理单元，在所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，还用于：

将所识别出的人类语言转换为文字信息，并将转换后的文字信息显示在所述用户设备上；或者

将所识别出的人类语言转换为文字信息，在确定转换后的文字信息与预设的语言形式不一致时，将所述转换后的文字信息翻译为所述预设的语言形式对应的文字信息，并将所述预设的语言形式对应的文字信息显示在所述用户设备上。
如权利要求11所述的设备，其特征在于，所述待执行操作信息包括对周围环境音降噪处理；

所述处理单元，具体用于：

根据所述后续接收到的周围环境音，生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号。
一种对周围环境音进行处理的处理设备，其特征在于，包括：

接收器，用于接收周围环境音；

处理器，用于根据通过接收器接收到的预设时长内的周围环境音，确定所述预设时长内的周围环境音的时频谱；根据所述预设时长内的周围环境音的时频谱，从预设的至少一个场景的时频谱中，确定出匹配场景；将所述匹配场景对应的操作信息确定为所述待执行操作信息；根据所述待执行操作信息，以及后续接收到的周围环境音进行操作，确定操作后信号；将所述操作后信号与用户设备播放的音频信号进行混合，得到合成信号，并将所述合成信号通过发送器输出至耳机中；其中，所述匹配场景的时频谱与所述预设时长内的周围环境音的时频谱匹配；

发送器，用于在处理器控制下，将所述合成信号输出至耳机中；

存储器，用于存储预设的所述至少一个场景的时频谱，以及所述匹配场景对应的操作信息。
如权利要求21所述的设备，其特征在于，所述处理器，具体用于：

将所述预设时长内的周围环境音的时频谱与预设的所述至少一个场景中的每个场景的时频谱进行归一化互相关，得到至少一个互相关值；

若所述至少一个互相关值中最大的互相关值大于互相关阈值，则将所述最大的互相关值对应的场景确定为备选场景；所述备选场景预设有至少一个特征频谱；所述备选场景的特征频谱为所述备选场景的时频谱中的全部频谱或部分频谱；

从所述预设时长内的周围环境音的时频谱中确定出所述至少一个特征频谱中的每一个特征频谱的能量；

根据所述预设时长内的周围环境音中的每一个特征频谱的能量，确定所述预设时长内的周围环境音中所有特征频谱的平均能量；

在确定所述平均能量大于能量阈值时，将所述备选场景确定为所述匹配场景；

其中，所述特征频谱为：所述预设时长内的周围环境音的时频谱和所述备选场景对应的时频谱中均包含的频谱中的全部或部分。
如权利要求21所述的设备，其特征在于，所述待执行操作信息包括对周围环境音进行信号增强处理；

所述处理器，具体用于：

根据所述后续接收到的周围环境音，确定用于提醒用户注意所述后续接收到的周围环境音的提示音，并将所述提示音作为操作后信号；

若所述后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据所述后续收到的周围环境音生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号；其中，所述预设频带为预设的至少一个噪音的频率范围。
如权利要求21所述的设备，其特征在于，所述待执行操作信息包括对周围环境音进行信号增强处理；

所述处理器，具体用于：

通过滤波器对所述后续接收到的周围环境音进行滤波，得到滤波后的周围环境音，并将所述滤波后的周围环境音作为操作后信号。
如权利要求24所述的设备，其特征在于，所述处理器，具体用于：

在所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，若所述后续接收到的周围环境音中包括的预设频带内的环境音的功率值大于功率门限，根据所述后续收到的周围环境音生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号；其中，所述预设频带为预设的至少一个噪音的频率范围。
如权利要求25所述的设备，其特征在于，所述处理器，具体用于：

在所述通过滤波器对所述后续接收到的周围环境音进行滤波，得到滤波后的周围环境音之前，根据所述滤波器预设的频率响应，以及所述用于对所述后续收到的周围环境音降噪的反相声波的频率响应，对所述预设的滤波器的频率响应进行补偿，得到补偿后的频率响应；

通过所述滤波器，使用所述补偿后的频率响应对所述周围环境音中的预设频带内的环境音进行滤除，得到滤波后的周围环境音。
如权利要求21所述的设备，其特征在于，所述待执行操作信息包括提示周围环境音的方向；

所述处理器，具体用于：

确定所述耳机的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的相位差和幅度差；

根据所述确定出的相位差和幅度差，确定出需向所述耳机的左声道输出左报警提示音，和需向所述耳机的右声道输出右报警提示音；并将所述左报警提示音和所述右报警提示音作为操作后信号；

其中，所述左报警提示音和所述右报警提示音之间的相位差与所述确定出的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的相位差相同；

所述左报警提示音和所述右报警提示音之间的幅度差与所述确定出的左拾音麦克所接收到的所述后续接收到的周围环境音和所述耳机的右拾音麦克所接收到的所述后续接收到的周围环境音之间的幅度差相同。
如权利要求21所述的设备，其特征在于，所述待执行操作信息包括对周围环境音进行语音识别处理；

所述处理器，具体用于执行以下内容中的任一项或任多项的组合：

对所述周围环境音进行语音识别，根据所述识别出的语音确定出所述识别出的语音对应的虚拟提示音，并将所述虚拟提示音作为操作后信号；

对所述后续接收到的周围环境音进行语音识别，将所述识别出的语音的幅值增大，得到幅值增大的语音，并将所述幅值增大的语音作为操作后信号；

对所述后续接收到的周围环境音进行语音识别，在确定识别出的语音与预设的语言形式不一致时，将识别出的语音翻译为所述预设的语言形式对应的语音，并将翻译后的语音作为操作后信号。
如权利要求28所述的设备，其特征在于，所述处理器，在所述根据待执行操作信息，以及后续接收到的周围环境音进行操作，得到操作后信号之后，还用于：

将所识别出的人类语言转换为文字信息，并将转换后的文字信息显示在所述用户设备上；或者

将所识别出的人类语言转换为文字信息，在确定转换后的文字信息与预设的语言形式不一致时，将所述转换后的文字信息翻译为所述预设的语言形式对应的文字信息，并将所述预设的语言形式对应的文字信息显示在所述用户设备上。
如权利要求21所述的设备，其特征在于，所述待执行操作信息包括对周围环境音降噪处理；

所述处理器，具体用于：

根据所述后续接收到的周围环境音，生成用于对所述后续收到的周围环境音降噪的反相声波，并将所述反相声波作为操作后信号。