CN107749313B

CN107749313B - 一种自动转写与生成远程医疗会诊记录的方法

Info

Publication number: CN107749313B
Application number: CN201711178467.5A
Authority: CN
Inventors: 翟运开; 赵杰; 陈保站; 孙东旭; 朱风云; 陈昊天; 何贤英; 崔芳芳
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2019-03-01
Anticipated expiration: 2037-11-23
Also published as: CN107749313A

Abstract

本发明公开了一种自动转写与生成远程医疗会诊记录的方法，属于远程医疗技术领域，建立会诊管理模块、音视频终端模块、数个数据传输模块、语音转写模块和会诊记录管理模块；实现了从远程会诊音频信号采集与传输，到全自动转写，最终自动形成会诊记录的一体化流程，采用声纹识别技术、阵列式麦克风技术、说话人和语音同步识别等技术，实现了从远程会诊音频信号采集与传输，到全自动转写，最终自动形成会诊记录的一体化流程，可以自动实现远程会诊过程如实而全面的记录，从而以更低的人力资源投入实现更高质量的会诊记录。

Description

一种自动转写与生成远程医疗会诊记录的方法

技术领域

本发明属于远程医疗技术领域。

背景技术

现有远程医疗会诊系统和方法并不能满足实现自动记录会诊过程的需求，主要问题体现在：

(1)不能独立采集同一会诊室内各说话人语音，并识别说话人身份；

(2)不能在无法独立采集各说话人语音的情况下，对从多说话人混合语音中识别各个说话人身份并分离各说话人语音；

(3)不能在远程会诊系统中进行多会诊室多说话人的音频数据和说话人身份数据传输；

(4)不能自动转写并生成全面而详细的会诊记录。

发明内容

本发明的目的是提供一种自动转写与生成远程医疗会诊记录的方法，解决了现有技术的不足。

为实现上述目的，本发明采用以下技术方案：

一种自动转写与生成远程医疗会诊记录的方法，包括如下步骤：

步骤1：建立会诊管理模块、音视频终端模块、数个数据传输模块、语音转写模块和会诊记录管理模块；

会诊管理模块、语音转写模块和会诊记录管理模块均为服务器，音视频终端模块包括数个音视频终端，音视频终端包括阵列式麦克风，数据传输模块包括控制器，音视频终端模块与数据传输模块电连接，数据传输模块通过网络与会诊管理模块、语音转写模块和会诊记录管理模块通信；

步骤2：会诊管理模块对会诊信息进行管理，并对参与会诊的说话人身份与声纹信息进行登记和管理，其步骤如下：

步骤S1：会诊管理模块对会诊信息进行存储和归档，会诊信息包括时间信息、地点信息、医院及科室信息、医护人员信息、患者信息和会场中数据传输模块的网络地址与端口信息；

步骤S2：会诊开始前，参与会诊的说话人通过一个音视频终端录入身份信息和声纹信息，数据传输模块将该说话人的身份信息和声纹信息发送给会诊管理模块进行登记；

步骤S3：会诊管理模块将说话人的身份信息和声纹信息绑定到采集该说话人音频信息的音视频终端；

步骤3：音视频终端采集所在会诊室内的音视频信息，并播放展示来自其他会诊室的音视频信息，所述音视频终端包括个人用阵列式麦克风、多人用阵列式麦克风、个人用定指向麦克风和多人用全向性麦克风；

所述个人用阵列式麦克风被设定为采集某个与会者的声音，利用说话人定位技术，根据与会者登记的声纹信息，判断某个指定的与会者发言时所在方向，采集该方向的声音，抑制来自其他方向的噪音，并形成一路音频信号；

所述多人用阵列式麦克风利用说话人定位技术，根据与会者登记的声纹信息，分别判断每个与会者发言时所在的方向，采集该方向的声音，抑制来自其他方向的噪音，为每个与会者形成一路音频信号；

所述个人用定指向麦克风根据预先设定的固定指向方向采集来自该方向的个人声音，抑制来自其他方向的噪音，并形成一路音频信号；

所述多人用全向性麦克风采集来自任意方向的声音，将所有参会人员的声音一同采集，并形成一路音频信号；

在使用个人用阵列式麦克风和个人用定指向麦克风时，说话人身份与音视频终端是绑定的，音视频终端在采集音频的同时可以得到说话人身份信息；

步骤4：音视频终端通过数据传输模块将采集到的音频信息发送给语音转写模块，语音转写模块根据所述会诊管理模块提供的所述网络地址与端口信息，从所述音视频终端中获取音频信息，

步骤5：音视频终端将说话人的身份信息同步传送给语音转写模块；

步骤6：语音转写模块分别针对每个参会方的音频信息进行语音转写，得到音频信息中每一句语音的转写结果、语音的开始结束时间以及该语音对应的说话人身份，并将上述信息通过网络传送至所述会诊记录管理模块；在转写过程中，利用说话人身份信息以获得高转写准确率；

步骤7：会诊记录管理模块根据所述会诊管理模块提供的所述会诊信息，将所述同步识别的结果收集整理，形成会诊记录。

所述个人用阵列式麦克风为在每个参会人员面前放置一个个人用阵列式麦克风，用于采集个人声音；

所述多人用阵列式麦克风为在会诊室中放置一个多人用阵列式麦克风，用于采集所有参会人员的声音；

所述个人用定指向麦克风为在每个参会人员面前放置一个定指向麦克风，用于采集个人声音；

所述多人用全向性麦克风为在会诊室中放置一个全向性麦克风，用于采集所有参会人员的声音。

在执行步骤4时，语音转写模块通过两种途径获取音频信息：第一途径：从数据传输模块中获取所有与其连接的音视频终端采集的多通道音频信息；第二途径：从音视频终端直接获取说话人的音频信息；

所述语音转写为将音频数据转换成文本数据。

在执行步骤6时，在未知说话人身份的情况下：

如果采用的是多人用阵列式麦克风，音频信息是根据说话人方位分离出的各个说话人独立的音频信息，所述语音转写模块采用说话人身份与语音内容同步识别技术，在转写过程中，利用说话人身份信息以获得高转写准确率；

如果采用的是多人用全向性麦克风，音频信息是会诊室内所有说话人的混合音频信号形成的码流，所述语音转写模块采用说话人身份与语音内容同步识别技术，在转写过程中同步识别说话人身份，利用说话人身份信息实现多人混合语音的分离，并实现高准确率的转写。

本发明所述的一种自动转写与生成远程医疗会诊记录的方法，采用声纹识别技术、阵列式麦克风技术、说话人和语音同步识别等技术，实现了从远程会诊音频信号采集与传输，到全自动转写，最终自动形成会诊记录的一体化流程，可以自动实现远程会诊过程如实而全面的记录，从而以更低的人力资源投入实现更高质量的会诊记录。

附图说明

图1是本发明的系统结构图。

具体实施方式

如图1所示的一种自动转写与生成远程医疗会诊记录的方法，包括如下步骤：

会诊管理模块、语音转写模块和会诊记录管理模块均为服务器，音视频终端模块包括数个音视频终端，音视频终端包括阵列式麦克风，数据传输模块包括控制器，音视频终端模块与数据传输模块电连接，数据传输模块通过网络与会诊管理模块、语音转写模块和会诊记录管理模块通信；会诊管理模块与语音转写模块之间通过网络通信，语音转写模块和会诊记录管理模块之间通过网络通信；

一个数据传输模块可以连接多个音视频终端；会诊管理模块、语音转写模块和会诊记录管理模块可以设置在通一个服务器中，也可以分别设置在三个服务器中。

使用所述个人用定指向麦克风可以根据预先设定的固定指向方向采集来自该方向的个人声音，抑制来自其他方向的噪音，并形成一路音频信号；会诊开始前，需登记所述个人用定指向麦克风使用者身份信息，并与所述会诊管理模块中的参会人员身份信息绑定。

使用所述多人用全向性麦克风采集来自任意方向的声音，将所有参会人员的声音一同采集，并形成一路音频信号；会诊开始前，需登记各参会人员的声纹和身份信息，并与所述会诊管理模块中的参会人员身份信息绑定。

在采用个人音频采集设备，如个人用阵列式麦克风和个人用定指向麦克风的情况下，说话人身份与采集设备是绑定的，采集音频的同时可以得到说话人身份信息。

在采用多人音频采集设备，如多人用阵列式麦克风和多人用全向性麦克风的情况下，若采集设备具有说话人身份识别能力，采集音频的同时可以得到说话人身份信息；若采集设备不具有说话人身份识别能力，采集设备仅采集音频。

已知说话人身份的情况下，说话人身份信息通过网络随多通道音频数据同步传送到语音转写模块；在已知说话人身份的情况下，所述语音转写模块分别针对每个参会方的音频信息进行语音转写，在转写过程中，利用说话人身份信息以获得高转写准确率；

在未知说话人身份的情况下，如果采用的是多人用阵列式麦克风，音频信息是根据说话人方位分离的各个说话人独立的音频信息，所述语音转写模块采用说话人身份与语音内容同步识别技术，在转写过程中，利用说话人身份信息以获得高转写准确率；

在未知说话人身份的情况下，如果采用的是多人用全向性麦克风，音频信息是会诊室内所有说话人的混合音频信号形成的码流，所述语音转写模块采用说话人身份与语音内容同步识别技术，在转写过程中同步识别说话人身份，利用说话人身份信息实现多人混合语音的分离，并实现高准确率的转写；

所述会诊记录包括远程会诊基础信息，如会诊时间与地点、参与会诊的医院科室、医护人员及患者信息等，以及会诊过程中参与会诊各方的完整的对话记录。

所述对话记录包括会诊过程中每个人每句话的语音转写结果、语音的开始结束时间以及相应的说话人身份。

所述语音转写为将音频数据转换成文本数据。

在执行步骤6时，在未知说话人身份的情况下：

本发明在音频信号采集阶段，通过包括阵列式麦克风在内的多种灵活方式高保真采集参与会诊人员的语音。

在硬件条件允许的情况下，独立采集每个参与会诊人员的语音，通过声纹和说话人方位信息确定说话人身份。

在硬件条件不允许的情况下，统一采集一个会诊室内所有参与会诊人员的语音。

在音频信号传输阶段，在硬件条件允许的情况下，将每个参与会诊人员的语音通过不同的音频通道独立传输，以得到各个说话人清晰的语音。

在语音转写阶段，在已知说话人身份的情况下，独立转写各说话人语音，在转写过程中，利用说话人身份信息提高转写准确率。

在未知说话人身份的情况下，采用说话人身份与语音内容同步识别技术，在转写过程中同步识别说话人身份，利用说话人身份信息实现多人混合语音的分离，并实现高准确率的转写。

最后，综合说话人身份信息和语音转写结果，自动生成完整的远程会诊记录。

本发明所述的一种自动转写与生成远程医疗会诊记录的方法，采用声纹识别技术、阵列式麦克风技术、说话人和语音同步识别等技术，实现了从远程会诊音频信号采集与传输，到全自动转写，最终自动形成会诊记录的一体化流程，可以自动实现远程会诊过程如实而全面的记录。

Claims

1.一种自动转写与生成远程医疗会诊记录的方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法，其特征在于:

3.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法，其特征在于:在执行步骤4时，语音转写模块通过两种途径获取音频信息：第一途径：从数据传输模块中获取所有与其连接的音视频终端采集的多通道音频信息；第二途径：从音视频终端直接获取说话人的音频信息。

4.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法，其特征在于:所述语音转写为将音频数据转换成文本数据。

5.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法，其特征在于:在执行步骤6时，在未知说话人身份的情况下：