CN107749313B - 一种自动转写与生成远程医疗会诊记录的方法 - Google Patents
一种自动转写与生成远程医疗会诊记录的方法 Download PDFInfo
- Publication number
- CN107749313B CN107749313B CN201711178467.5A CN201711178467A CN107749313B CN 107749313 B CN107749313 B CN 107749313B CN 201711178467 A CN201711178467 A CN 201711178467A CN 107749313 B CN107749313 B CN 107749313B
- Authority
- CN
- China
- Prior art keywords
- consultation
- audio
- speaker
- transcription
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 96
- 230000035897 transcription Effects 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000005540 biological transmission Effects 0.000 claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 238000005516 engineering process Methods 0.000 claims abstract description 21
- 230000001360 synchronised effect Effects 0.000 claims abstract description 20
- 238000004891 communication Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000027455 binding Effects 0.000 description 4
- 238000009739 binding Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种自动转写与生成远程医疗会诊记录的方法,属于远程医疗技术领域,建立会诊管理模块、音视频终端模块、数个数据传输模块、语音转写模块和会诊记录管理模块;实现了从远程会诊音频信号采集与传输,到全自动转写,最终自动形成会诊记录的一体化流程,采用声纹识别技术、阵列式麦克风技术、说话人和语音同步识别等技术,实现了从远程会诊音频信号采集与传输,到全自动转写,最终自动形成会诊记录的一体化流程,可以自动实现远程会诊过程如实而全面的记录,从而以更低的人力资源投入实现更高质量的会诊记录。
Description
技术领域
本发明属于远程医疗技术领域。
背景技术
现有远程医疗会诊系统和方法并不能满足实现自动记录会诊过程的需求,主要问题体现在:
(1)不能独立采集同一会诊室内各说话人语音,并识别说话人身份;
(2)不能在无法独立采集各说话人语音的情况下,对从多说话人混合语音中识别各个说话人身份并分离各说话人语音;
(3)不能在远程会诊系统中进行多会诊室多说话人的音频数据和说话人身份数据传输;
(4)不能自动转写并生成全面而详细的会诊记录。
发明内容
本发明的目的是提供一种自动转写与生成远程医疗会诊记录的方法,解决了现有技术的不足。
为实现上述目的,本发明采用以下技术方案:
一种自动转写与生成远程医疗会诊记录的方法,包括如下步骤:
步骤1:建立会诊管理模块、音视频终端模块、数个数据传输模块、语音转写模块和会诊记录管理模块;
会诊管理模块、语音转写模块和会诊记录管理模块均为服务器,音视频终端模块包括数个音视频终端,音视频终端包括阵列式麦克风,数据传输模块包括控制器,音视频终端模块与数据传输模块电连接,数据传输模块通过网络与会诊管理模块、语音转写模块和会诊记录管理模块通信;
步骤2:会诊管理模块对会诊信息进行管理,并对参与会诊的说话人身份与声纹信息进行登记和管理,其步骤如下:
步骤S1:会诊管理模块对会诊信息进行存储和归档,会诊信息包括时间信息、地点信息、医院及科室信息、医护人员信息、患者信息和会场中数据传输模块的网络地址与端口信息;
步骤S2:会诊开始前,参与会诊的说话人通过一个音视频终端录入身份信息和声纹信息,数据传输模块将该说话人的身份信息和声纹信息发送给会诊管理模块进行登记;
步骤S3:会诊管理模块将说话人的身份信息和声纹信息绑定到采集该说话人音频信息的音视频终端;
步骤3:音视频终端采集所在会诊室内的音视频信息,并播放展示来自其他会诊室的音视频信息,所述音视频终端包括个人用阵列式麦克风、多人用阵列式麦克风、个人用定指向麦克风和多人用全向性麦克风;
所述个人用阵列式麦克风被设定为采集某个与会者的声音,利用说话人定位技术,根据与会者登记的声纹信息,判断某个指定的与会者发言时所在方向,采集该方向的声音,抑制来自其他方向的噪音,并形成一路音频信号;
所述多人用阵列式麦克风利用说话人定位技术,根据与会者登记的声纹信息,分别判断每个与会者发言时所在的方向,采集该方向的声音,抑制来自其他方向的噪音,为每个与会者形成一路音频信号;
所述个人用定指向麦克风根据预先设定的固定指向方向采集来自该方向的个人声音,抑制来自其他方向的噪音,并形成一路音频信号;
所述多人用全向性麦克风采集来自任意方向的声音,将所有参会人员的声音一同采集,并形成一路音频信号;
在使用个人用阵列式麦克风和个人用定指向麦克风时,说话人身份与音视频终端是绑定的,音视频终端在采集音频的同时可以得到说话人身份信息;
步骤4:音视频终端通过数据传输模块将采集到的音频信息发送给语音转写模块,语音转写模块根据所述会诊管理模块提供的所述网络地址与端口信息,从所述音视频终端中获取音频信息,
步骤5:音视频终端将说话人的身份信息同步传送给语音转写模块;
步骤6:语音转写模块分别针对每个参会方的音频信息进行语音转写,得到音频信息中每一句语音的转写结果、语音的开始结束时间以及该语音对应的说话人身份,并将上述信息通过网络传送至所述会诊记录管理模块;在转写过程中,利用说话人身份信息以获得高转写准确率;
步骤7:会诊记录管理模块根据所述会诊管理模块提供的所述会诊信息,将所述同步识别的结果收集整理,形成会诊记录。
所述个人用阵列式麦克风为在每个参会人员面前放置一个个人用阵列式麦克风,用于采集个人声音;
所述多人用阵列式麦克风为在会诊室中放置一个多人用阵列式麦克风,用于采集所有参会人员的声音;
所述个人用定指向麦克风为在每个参会人员面前放置一个定指向麦克风,用于采集个人声音;
所述多人用全向性麦克风为在会诊室中放置一个全向性麦克风,用于采集所有参会人员的声音。
在执行步骤4时,语音转写模块通过两种途径获取音频信息:第一途径:从数据传输模块中获取所有与其连接的音视频终端采集的多通道音频信息;第二途径:从音视频终端直接获取说话人的音频信息;
所述语音转写为将音频数据转换成文本数据。
在执行步骤6时,在未知说话人身份的情况下:
如果采用的是多人用阵列式麦克风,音频信息是根据说话人方位分离出的各个说话人独立的音频信息,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中,利用说话人身份信息以获得高转写准确率;
如果采用的是多人用全向性麦克风,音频信息是会诊室内所有说话人的混合音频信号形成的码流,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中同步识别说话人身份,利用说话人身份信息实现多人混合语音的分离,并实现高准确率的转写。
本发明所述的一种自动转写与生成远程医疗会诊记录的方法,采用声纹识别技术、阵列式麦克风技术、说话人和语音同步识别等技术,实现了从远程会诊音频信号采集与传输,到全自动转写,最终自动形成会诊记录的一体化流程,可以自动实现远程会诊过程如实而全面的记录,从而以更低的人力资源投入实现更高质量的会诊记录。
附图说明
图1是本发明的系统结构图。
具体实施方式
如图1所示的一种自动转写与生成远程医疗会诊记录的方法,包括如下步骤:
步骤1:建立会诊管理模块、音视频终端模块、数个数据传输模块、语音转写模块和会诊记录管理模块;
会诊管理模块、语音转写模块和会诊记录管理模块均为服务器,音视频终端模块包括数个音视频终端,音视频终端包括阵列式麦克风,数据传输模块包括控制器,音视频终端模块与数据传输模块电连接,数据传输模块通过网络与会诊管理模块、语音转写模块和会诊记录管理模块通信;会诊管理模块与语音转写模块之间通过网络通信,语音转写模块和会诊记录管理模块之间通过网络通信;
一个数据传输模块可以连接多个音视频终端;会诊管理模块、语音转写模块和会诊记录管理模块可以设置在通一个服务器中,也可以分别设置在三个服务器中。
步骤2:会诊管理模块对会诊信息进行管理,并对参与会诊的说话人身份与声纹信息进行登记和管理,其步骤如下:
步骤S1:会诊管理模块对会诊信息进行存储和归档,会诊信息包括时间信息、地点信息、医院及科室信息、医护人员信息、患者信息和会场中数据传输模块的网络地址与端口信息;
步骤S2:会诊开始前,参与会诊的说话人通过一个音视频终端录入身份信息和声纹信息,数据传输模块将该说话人的身份信息和声纹信息发送给会诊管理模块进行登记;
步骤S3:会诊管理模块将说话人的身份信息和声纹信息绑定到采集该说话人音频信息的音视频终端;
步骤3:音视频终端采集所在会诊室内的音视频信息,并播放展示来自其他会诊室的音视频信息,所述音视频终端包括个人用阵列式麦克风、多人用阵列式麦克风、个人用定指向麦克风和多人用全向性麦克风;
所述个人用阵列式麦克风被设定为采集某个与会者的声音,利用说话人定位技术,根据与会者登记的声纹信息,判断某个指定的与会者发言时所在方向,采集该方向的声音,抑制来自其他方向的噪音,并形成一路音频信号;
所述多人用阵列式麦克风利用说话人定位技术,根据与会者登记的声纹信息,分别判断每个与会者发言时所在的方向,采集该方向的声音,抑制来自其他方向的噪音,为每个与会者形成一路音频信号;
所述个人用定指向麦克风根据预先设定的固定指向方向采集来自该方向的个人声音,抑制来自其他方向的噪音,并形成一路音频信号;
所述多人用全向性麦克风采集来自任意方向的声音,将所有参会人员的声音一同采集,并形成一路音频信号;
在使用个人用阵列式麦克风和个人用定指向麦克风时,说话人身份与音视频终端是绑定的,音视频终端在采集音频的同时可以得到说话人身份信息;
使用所述个人用定指向麦克风可以根据预先设定的固定指向方向采集来自该方向的个人声音,抑制来自其他方向的噪音,并形成一路音频信号;会诊开始前,需登记所述个人用定指向麦克风使用者身份信息,并与所述会诊管理模块中的参会人员身份信息绑定。
使用所述多人用全向性麦克风采集来自任意方向的声音,将所有参会人员的声音一同采集,并形成一路音频信号;会诊开始前,需登记各参会人员的声纹和身份信息,并与所述会诊管理模块中的参会人员身份信息绑定。
在采用个人音频采集设备,如个人用阵列式麦克风和个人用定指向麦克风的情况下,说话人身份与采集设备是绑定的,采集音频的同时可以得到说话人身份信息。
在采用多人音频采集设备,如多人用阵列式麦克风和多人用全向性麦克风的情况下,若采集设备具有说话人身份识别能力,采集音频的同时可以得到说话人身份信息;若采集设备不具有说话人身份识别能力,采集设备仅采集音频。
步骤4:音视频终端通过数据传输模块将采集到的音频信息发送给语音转写模块,语音转写模块根据所述会诊管理模块提供的所述网络地址与端口信息,从所述音视频终端中获取音频信息,
步骤5:音视频终端将说话人的身份信息同步传送给语音转写模块;
步骤6:语音转写模块分别针对每个参会方的音频信息进行语音转写,得到音频信息中每一句语音的转写结果、语音的开始结束时间以及该语音对应的说话人身份,并将上述信息通过网络传送至所述会诊记录管理模块;在转写过程中,利用说话人身份信息以获得高转写准确率;
已知说话人身份的情况下,说话人身份信息通过网络随多通道音频数据同步传送到语音转写模块;在已知说话人身份的情况下,所述语音转写模块分别针对每个参会方的音频信息进行语音转写,在转写过程中,利用说话人身份信息以获得高转写准确率;
在未知说话人身份的情况下,如果采用的是多人用阵列式麦克风,音频信息是根据说话人方位分离的各个说话人独立的音频信息,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中,利用说话人身份信息以获得高转写准确率;
在未知说话人身份的情况下,如果采用的是多人用全向性麦克风,音频信息是会诊室内所有说话人的混合音频信号形成的码流,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中同步识别说话人身份,利用说话人身份信息实现多人混合语音的分离,并实现高准确率的转写;
步骤7:会诊记录管理模块根据所述会诊管理模块提供的所述会诊信息,将所述同步识别的结果收集整理,形成会诊记录。
所述会诊记录包括远程会诊基础信息,如会诊时间与地点、参与会诊的医院科室、医护人员及患者信息等,以及会诊过程中参与会诊各方的完整的对话记录。
所述对话记录包括会诊过程中每个人每句话的语音转写结果、语音的开始结束时间以及相应的说话人身份。
所述个人用阵列式麦克风为在每个参会人员面前放置一个个人用阵列式麦克风,用于采集个人声音;
所述多人用阵列式麦克风为在会诊室中放置一个多人用阵列式麦克风,用于采集所有参会人员的声音;
所述个人用定指向麦克风为在每个参会人员面前放置一个定指向麦克风,用于采集个人声音;
所述多人用全向性麦克风为在会诊室中放置一个全向性麦克风,用于采集所有参会人员的声音。
在执行步骤4时,语音转写模块通过两种途径获取音频信息:第一途径:从数据传输模块中获取所有与其连接的音视频终端采集的多通道音频信息;第二途径:从音视频终端直接获取说话人的音频信息;
所述语音转写为将音频数据转换成文本数据。
在执行步骤6时,在未知说话人身份的情况下:
如果采用的是多人用阵列式麦克风,音频信息是根据说话人方位分离出的各个说话人独立的音频信息,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中,利用说话人身份信息以获得高转写准确率;
如果采用的是多人用全向性麦克风,音频信息是会诊室内所有说话人的混合音频信号形成的码流,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中同步识别说话人身份,利用说话人身份信息实现多人混合语音的分离,并实现高准确率的转写。
本发明在音频信号采集阶段,通过包括阵列式麦克风在内的多种灵活方式高保真采集参与会诊人员的语音。
在硬件条件允许的情况下,独立采集每个参与会诊人员的语音,通过声纹和说话人方位信息确定说话人身份。
在硬件条件不允许的情况下,统一采集一个会诊室内所有参与会诊人员的语音。
在音频信号传输阶段,在硬件条件允许的情况下,将每个参与会诊人员的语音通过不同的音频通道独立传输,以得到各个说话人清晰的语音。
在语音转写阶段,在已知说话人身份的情况下,独立转写各说话人语音,在转写过程中,利用说话人身份信息提高转写准确率。
在未知说话人身份的情况下,采用说话人身份与语音内容同步识别技术,在转写过程中同步识别说话人身份,利用说话人身份信息实现多人混合语音的分离,并实现高准确率的转写。
最后,综合说话人身份信息和语音转写结果,自动生成完整的远程会诊记录。
本发明所述的一种自动转写与生成远程医疗会诊记录的方法,采用声纹识别技术、阵列式麦克风技术、说话人和语音同步识别等技术,实现了从远程会诊音频信号采集与传输,到全自动转写,最终自动形成会诊记录的一体化流程,可以自动实现远程会诊过程如实而全面的记录。
Claims (5)
1.一种自动转写与生成远程医疗会诊记录的方法,其特征在于:包括如下步骤:
步骤1:建立会诊管理模块、音视频终端模块、数个数据传输模块、语音转写模块和会诊记录管理模块;
会诊管理模块、语音转写模块和会诊记录管理模块均为服务器,音视频终端模块包括数个音视频终端,音视频终端包括阵列式麦克风,数据传输模块包括控制器,音视频终端模块与数据传输模块电连接,数据传输模块通过网络与会诊管理模块、语音转写模块和会诊记录管理模块通信;
步骤2:会诊管理模块对会诊信息进行管理,并对参与会诊的说话人身份与声纹信息进行登记和管理,其步骤如下:
步骤S1:会诊管理模块对会诊信息进行存储和归档,会诊信息包括时间信息、地点信息、医院及科室信息、医护人员信息、患者信息和会场中数据传输模块的网络地址与端口信息;
步骤S2:会诊开始前,参与会诊的说话人通过一个音视频终端录入身份信息和声纹信息,数据传输模块将该说话人的身份信息和声纹信息发送给会诊管理模块进行登记;
步骤S3:会诊管理模块将说话人的身份信息和声纹信息绑定到采集该说话人音频信息的音视频终端;
步骤3:音视频终端采集所在会诊室内的音视频信息,并播放展示来自其他会诊室的音视频信息,所述音视频终端包括个人用阵列式麦克风、多人用阵列式麦克风、个人用定指向麦克风和多人用全向性麦克风;
所述个人用阵列式麦克风被设定为采集某个与会者的声音,利用说话人定位技术,根据与会者登记的声纹信息,判断某个指定的与会者发言时所在方向,采集该方向的声音,抑制来自其他方向的噪音,并形成一路音频信号;
所述多人用阵列式麦克风利用说话人定位技术,根据与会者登记的声纹信息,分别判断每个与会者发言时所在的方向,采集该方向的声音,抑制来自其他方向的噪音,为每个与会者形成一路音频信号;
所述个人用定指向麦克风根据预先设定的固定指向方向采集来自该方向的个人声音,抑制来自其他方向的噪音,并形成一路音频信号;
所述多人用全向性麦克风采集来自任意方向的声音,将所有参会人员的声音一同采集,并形成一路音频信号;
在使用个人用阵列式麦克风和个人用定指向麦克风时,说话人身份与音视频终端是绑定的,音视频终端在采集音频的同时可以得到说话人身份信息;
步骤4:音视频终端通过数据传输模块将采集到的音频信息发送给语音转写模块,语音转写模块根据所述会诊管理模块提供的所述网络地址与端口信息,从所述音视频终端中获取音频信息,
步骤5:音视频终端将说话人的身份信息同步传送给语音转写模块;
步骤6:语音转写模块分别针对每个参会方的音频信息进行语音转写,得到音频信息中每一句语音的转写结果、语音的开始结束时间以及该语音对应的说话人身份,并将上述信息通过网络传送至所述会诊记录管理模块;在转写过程中,利用说话人身份信息以获得高转写准确率;
步骤7:会诊记录管理模块根据所述会诊管理模块提供的所述会诊信息,将所述同步识别的结果收集整理,形成会诊记录。
2.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法,其特征在于:
所述个人用阵列式麦克风为在每个参会人员面前放置一个个人用阵列式麦克风,用于采集个人声音;
所述多人用阵列式麦克风为在会诊室中放置一个多人用阵列式麦克风,用于采集所有参会人员的声音;
所述个人用定指向麦克风为在每个参会人员面前放置一个定指向麦克风,用于采集个人声音;
所述多人用全向性麦克风为在会诊室中放置一个全向性麦克风,用于采集所有参会人员的声音。
3.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法,其特征在于:在执行步骤4时,语音转写模块通过两种途径获取音频信息:第一途径:从数据传输模块中获取所有与其连接的音视频终端采集的多通道音频信息;第二途径:从音视频终端直接获取说话人的音频信息。
4.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法,其特征在于:所述语音转写为将音频数据转换成文本数据。
5.如权利要求1所述的一种自动转写与生成远程医疗会诊记录的方法,其特征在于:在执行步骤6时,在未知说话人身份的情况下:
如果采用的是多人用阵列式麦克风,音频信息是根据说话人方位分离出的各个说话人独立的音频信息,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中,利用说话人身份信息以获得高转写准确率;
如果采用的是多人用全向性麦克风,音频信息是会诊室内所有说话人的混合音频信号形成的码流,所述语音转写模块采用说话人身份与语音内容同步识别技术,在转写过程中同步识别说话人身份,利用说话人身份信息实现多人混合语音的分离,并实现高准确率的转写。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711178467.5A CN107749313B (zh) | 2017-11-23 | 2017-11-23 | 一种自动转写与生成远程医疗会诊记录的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711178467.5A CN107749313B (zh) | 2017-11-23 | 2017-11-23 | 一种自动转写与生成远程医疗会诊记录的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107749313A CN107749313A (zh) | 2018-03-02 |
CN107749313B true CN107749313B (zh) | 2019-03-01 |
Family
ID=61250852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711178467.5A Active CN107749313B (zh) | 2017-11-23 | 2017-11-23 | 一种自动转写与生成远程医疗会诊记录的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107749313B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564952B (zh) * | 2018-03-12 | 2019-06-07 | 新华智云科技有限公司 | 语音角色分离的方法和设备 |
CN109525800A (zh) * | 2018-11-08 | 2019-03-26 | 江西国泰利民信息科技有限公司 | 一种远程会议语音识别数据传输方法 |
CN109326303B (zh) * | 2018-11-28 | 2021-12-24 | 广东小天才科技有限公司 | 一种语音分离方法及系统 |
CN109741754A (zh) * | 2018-12-10 | 2019-05-10 | 上海思创华信信息技术有限公司 | 一种会议语音识别方法及系统、存储介质及终端 |
CN109785835A (zh) * | 2019-01-25 | 2019-05-21 | 广州富港万嘉智能科技有限公司 | 一种通过移动终端实现声音录制的方法及装置 |
CN110012391B (zh) * | 2019-05-14 | 2020-08-25 | 临沂市中心医院 | 一种手术会诊系统及手术室音频采集方法 |
CN111105801B (zh) * | 2019-12-03 | 2022-04-01 | 云知声智能科技股份有限公司 | 一种角色语音分离方法及装置 |
CN111131616B (zh) * | 2019-12-28 | 2022-05-17 | 科大讯飞股份有限公司 | 基于智能终端的音频共享方法及相关装置 |
CN111710436A (zh) * | 2020-02-14 | 2020-09-25 | 北京猎户星空科技有限公司 | 诊疗方法、装置、电子设备及存储介质 |
CN111489755A (zh) * | 2020-04-13 | 2020-08-04 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
CN111627448A (zh) * | 2020-05-15 | 2020-09-04 | 公安部第三研究所 | 实现基于语音大数据的审讯与谈话控制系统及其方法 |
CN112231498A (zh) * | 2020-09-29 | 2021-01-15 | 北京字跳网络技术有限公司 | 互动信息处理方法、装置、设备及介质 |
CN115100701B (zh) * | 2021-03-08 | 2024-08-09 | 福建福清核电有限公司 | 一种基于人工智能技术的会议发言人身份识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
CN103839211A (zh) * | 2014-03-23 | 2014-06-04 | 合肥新涛信息科技有限公司 | 一种基于语音识别的病历转写系统 |
CN105100521A (zh) * | 2014-05-14 | 2015-11-25 | 中兴通讯股份有限公司 | 远程会议中实现有序发言的方法及服务器 |
CN105895085A (zh) * | 2016-03-30 | 2016-08-24 | 科大讯飞股份有限公司 | 一种多媒体转写方法和系统 |
CN205647778U (zh) * | 2016-04-01 | 2016-10-12 | 安徽听见科技有限公司 | 一种智能会议系统 |
CN106657865A (zh) * | 2016-12-16 | 2017-05-10 | 联想(北京)有限公司 | 会议纪要的生成方法、装置及视频会议系统 |
-
2017
- 2017-11-23 CN CN201711178467.5A patent/CN107749313B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
CN103839211A (zh) * | 2014-03-23 | 2014-06-04 | 合肥新涛信息科技有限公司 | 一种基于语音识别的病历转写系统 |
CN105100521A (zh) * | 2014-05-14 | 2015-11-25 | 中兴通讯股份有限公司 | 远程会议中实现有序发言的方法及服务器 |
CN105895085A (zh) * | 2016-03-30 | 2016-08-24 | 科大讯飞股份有限公司 | 一种多媒体转写方法和系统 |
CN205647778U (zh) * | 2016-04-01 | 2016-10-12 | 安徽听见科技有限公司 | 一种智能会议系统 |
CN106657865A (zh) * | 2016-12-16 | 2017-05-10 | 联想(北京)有限公司 | 会议纪要的生成方法、装置及视频会议系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107749313A (zh) | 2018-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107749313B (zh) | 一种自动转写与生成远程医疗会诊记录的方法 | |
US11322148B2 (en) | Speaker attributed transcript generation | |
CN111739553B (zh) | 会议声音采集、会议记录以及会议记录呈现方法和装置 | |
US20210407516A1 (en) | Processing Overlapping Speech from Distributed Devices | |
JP4255461B2 (ja) | 電話会議用のステレオ・マイクロフォン処理 | |
US10771694B1 (en) | Conference terminal and conference system | |
US20200349953A1 (en) | Audio-visual diarization to identify meeting attendees | |
CN106657865A (zh) | 会议纪要的生成方法、装置及视频会议系统 | |
Xia et al. | Spatial release of cognitive load measured in a dual-task paradigm in normal-hearing and hearing-impaired listeners | |
WO2008141539A1 (fr) | Procédé d'affichage de légendes, système et appareil de communication vidéo | |
CN105991964A (zh) | 一种播报多媒体会议中动态信息的方法及装置 | |
CN107333090A (zh) | 视频会议数据处理方法和平台 | |
CN111883168A (zh) | 一种语音处理方法及装置 | |
CN105247854A (zh) | 用于将外部设备关联到视频会议会话的方法和系统 | |
DE102014105570A1 (de) | Identifikationssystem für unbekannte Sprecher | |
CN109560941A (zh) | 会议记录方法、装置、智能终端及存储介质 | |
CN109525800A (zh) | 一种远程会议语音识别数据传输方法 | |
US20080140421A1 (en) | Speaker Tracking-Based Automated Action Method and Apparatus | |
CN114666454A (zh) | 一种智能会议系统 | |
US11468895B2 (en) | Distributed device meeting initiation | |
EP2207311A1 (en) | Voice communication device | |
CN109150556A (zh) | 基于语音识别的多人远程会议记录系统 | |
CN102263929A (zh) | 会议视像信息实时发布系统和相应装置 | |
CN208335209U (zh) | 听障生融合教育课堂辅助系统及装置 | |
CN114764690A (zh) | 一种智能进行会议纪要的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |