CN109858005B

CN109858005B - 基于语音识别的文档更新方法、装置、设备及存储介质

Info

Publication number: CN109858005B
Application number: CN201910170684.2A
Authority: CN
Inventors: 杨尊程
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-07
Filing date: 2019-03-07
Publication date: 2024-01-12
Anticipated expiration: 2039-03-07
Also published as: CN109858005A

Abstract

本发明实施例公开了一种基于语音识别的文档更新方法、装置、设备及存储介质。其中，方法包括：获取与待更新的文档关联的语音信息；将所述语音信息转换为文字内容；根据所述文字内容，更新所述文档的原始内容。本发明实施例中，通过获取到与文档关联的文字内容，即对文档的原始内容进行解释和补充的文字内容；并根据所述文字内容，更新所述文档的原始内容，从而使得文档包括对原始内容进行解释和补充的文字内容，丰富了原始内容，从而在人们阅读更新后的文档时，可以高效率地获取解释和补充的内容。

Description

基于语音识别的文档更新方法、装置、设备及存储介质

技术领域

本发明实施例涉及语音识别技术，尤其涉及一种基于语音识别的文档更新方法、装置、设备及存储介质。

背景技术

目前，阅读文档是人们获取知识的重要手段，文档的内容一般是编写完成后向人们统一展示。在展示过程中，编写者可以通过语言对文档的内容进行解释，提高信息传达效率。

以PPT为例，为了节省PPT的版面，PPT的内容一般是图文并茂，用于解释的文字内容比较少，导致内容单薄。因此，PPT的演讲者需要进一步讲解，陈述更多的信息。如果人们想要充分了解PPT的内容和演讲者的解释，一般采用观看现场录制视频的方式，这种方式要求人们随着视频的节奏慢慢观看，信息获取比较慢、效率比较低。

发明内容

本发明实施例提供一种基于语音识别的文档更新方法、装置、设备及存储介质，以提高信息获取效率。

第一方面，本发明实施例提供了一种基于语音识别的文档更新方法，包括：

获取与待更新的文档关联的语音信息；

将所述语音信息转换为文字内容；

根据所述文字内容，更新所述文档的原始内容。

第二方面，本发明实施例还提供了一种基于语音识别的文档更新装置，包括：

获取装置，用于获取与待更新的文档关联的语音信息；

转换模块，用于将所述语音信息转换为文字内容；

更新模块，用于根据所述文字内容，更新所述文档的原始内容。

第三方面，本发明实施例还提供了一种电子设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一实施例所述的基于语音识别的文档更新方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的基于语音识别的文档更新方法。

本发明实施例中，通过获取与待更新的文档关联的语音信息，将所述语音信息转换为文字内容，从而获取到与文档关联的文字内容，即对文档的原始内容进行解释和补充的文字内容；通过根据所述文字内容，更新所述文档的原始内容，从而使得文档包括对原始内容进行解释和补充的文字内容，丰富了原始内容，从而在人们阅读更新后的文档时，可以高效率地获取解释和补充的内容。

附图说明

图1是本发明实施例一提供的一种基于语音识别的文档更新方法的流程图；

图2是本发明实施例二提供的一种基于语音识别的文档更新方法的流程图；

图3是本发明实施例三提供的一种基于语音识别的文档更新装置的结构示意图；

图4是本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种基于语音识别的文档更新方法的流程图，本实施例可适用于根据语音信息对文档的原始内容进行更新的情况。该方法可以由基于语音识别的文档更新装置来执行，该装置可以由硬件和/或软件构成，并一般集成在电子设备中，具体包括如下操作：

S110、获取与待更新的文档关联的语音信息。

本实施例中，待更新的文档格式包括但不限于PPT、WORD、PDF等。为了方便描述和区分，待更新的文档的内容称为文档的原始内容。原始内容包括但不限于图片、文字、音视频等。与待更新的文档关联的语音信息包括对待更新的文档内容进行解释和补充的语音信息，例如演示者对文档内容的口头解释和补充。

下面在演示文档的应用场景下，详细说明语音信息的获取方法。

在演示文档的现场，通过投影方式或者视频共享方式向人们演示文档，演示者一边演示文档，一边口头向人们解释文档的原始内容，并进行一些补充。一种情况下，在演示者附近部署电子设备，通过电子设备中的音频采集装置，例如麦克风，录制演示者的语音信息。另一种情况下，在演示者附近部署电子设备，通过电子设备的视频采集装置，例如摄像头，录制演示者的视频，在视频录制完成后，从演示者的视频中提取语音信息，即从视频中分离出音轨。

值得说明的是，语音信息可以是如上述提供的在演示文档的过程中获取的，还可以是非演示文档过程中获取。例如，在演示文档之前或者之后，演示者对文档的原始内容进行口头解释和补充，这种情况下，可以人工开启电子设备，通过音频采集装置或者视频采集装置获取语音信息。

S120、将所述语音信息转换为文字内容。

电子设备还包括语音识别模块，用于将演示者的语音信息转换为文字内容。

S130、根据所述文字内容，更新所述文档的原始内容。

可选地，将文字内容插入到原始内容中，以形成新的文档。该新的文档包括演示者解释和补充的内容，还包括原始内容。

可选地，采用文字内容替换文档的原始内容。在一示例中，如果整个文档的原始内容数量小于预设阈值，预设阈值可以是5个字、3个字，说明原始内容的阅读价值较低，则采用全部文字内容替换整个文档的原始内容。

可选地，将一部分文字内容插入到文档的原始内容中，另一部分文字内容替换文档的原始内容。在另一示例中，文档包括多个部分，例如PPT文档包括多张幻灯片，PDF、WORD等文本文档包括多页。则对于文档每个部分，如果原始内容数量小于预设阈值，采用该部分对应的文字内容替换该部分的原始内容；如果原始内容数量大于等于预设阈值，将该部分对应的文字内容插入到该部分的原始内容中。

实施例二

本实施例在上述实施例各可选实施方式的基础上，着重描述将全部文字内容或者部分文字内容插入到原始内容中的实施方式，具体包括以下两种可选实施方式。

第一种实施方式，将在至少一个时段获取的语音信息所转换为的文字内容，分别插入到对应时段进行演示的原始内容中。

可选地，每5分钟或者10分钟划分一个时段。在一应用场景中，预先记录语音信息的获取时刻以及原始内容的演示时刻。获取前10分钟的语音信息转换为的文字内容，以及前10分钟进行演示的原始内容，例如第1页的原始内容，则将前10分钟的文字内容插入到第1页的原始内容中。

第二种可选实施方式，根据文字内容与所述文档的原始内容之间的相似度，将所述文字内容插入到所述文档的原始内容中。

如果原始内容是文字，则直接提取文字即可；如果原始内容是非文字，则需要将原始内容转化为文字。具体地，如果原始内容是图片，则对图片进行目标检测得到图片的目标描述文字，例如“足球”、“草坪”等。如果原始内容是音频，则对音频进行语音识别，得到识别后的文字内容。如果原始内容是视频，则提取音轨，并对音轨进行语音识别，得到识别后的文字内容；或者，对至少一个视频帧进行目标检测得到视频帧的目标描述文字。

接着，计算文字内容与原始内容对应的文字内容(包括直接提取的文字和转换后的文字)之间的相似度，具体地，首先将文字内容和转换后的文字内容分别转换为向量，再计算向量之间的距离或者余弦，作为相似度。然后，将相似度大于相似度阈值的文字内容插入到所述文档的原始内容中。

图2是本发明实施例二提供的一种基于语音识别的文档更新方法的流程图，详细描述了第二种可选实施方式。结合图2，具体包括以下操作：

S210、获取与待更新的文档关联的语音信息。

S220、将所述语音信息转换为文字内容。

S230、读入所述文档。

将存储文档的存储介质连接电子设备，将文档读入至电子设备中。读入的文档包括原始内容和原始内容的页面格式，页面格式包括原始内容所属页码、前后顺序、标题格式、段落划分格式等。

S240、提取所述文档各部分的主题内容。

文档各部分例如是PPT文档的各张幻灯片，或者PDF、WORD等文本文档的各页。本实施例中，为了提高相似度计算的准确性和文字的针对性，提高相似度匹配效率，采用各部分的主题内容与文字内容计算相似度。

根据原始内容的页面格式，提取各部分的主题内容。例如，提取各部分标题格式的文字内容作为主题内容；又例如，根据各部分中段落划分格式，提取第一段落的第一句文字内容，或者最后一段的最后一句文字内容，作为主题内容。

S250、计算所述文字内容分别与各部分主题内容的相似度。

计算文字内容分别与各部分主题内容的相似度，具体地，首先将文字内容和各部分主题内容分别转换为向量，再计算向量之间的距离或者余弦，作为相似度。

文字内容数量一般较大，为了进一步提高相似度匹配效率，在一优选实施方式中，首先，从所述文字内容中，筛选出满足预设条件的至少一个关键内容，所述预设条件至少包括预设位置、对应的语音信息超过音量阈值、超过重复次数阈值中的一种。其中，预设位置可以是整个文字内容的第一句或者最后一句。关键内容包括关键字、词或者句子。如果某些文字内容处于预设位置、对应的语音信息较大，多次重复，说明这些文字内容被演示者着重强调，则将这些文字内容作为关键内容。然后，分别计算每个关键内容与各部分主题内容的相似度。

可选地，在从文字内容中，筛选出满足预设条件的关键内容之前，还包括：对所述文字内容进行数据处理。数据处理包括但不限于去除语气词、停用词和噪音等，从而提高关键内容的精确性，排除其他干扰。

S260、按照内容先后顺序，将相似度大于相似度阈值的文字内容依次插入到所述文档的对应部分中。

一般情况下，演示者在演示文档时，会按照内容先后顺序进行口头解释和补充。内容先后顺序包括原始内容的先后顺序和文字内容的先后顺序。原始内容的先后顺序体现在原始内容的页码大小，文字内容的先后顺序体现在文字内容转换的先后顺序。

例如，按照文字内容的先后顺序，将文字内容划分为多段，确定与第一段文字内容的相似度大于相似度阈值的部分文档，并将第一段文字内容插入到该部分文档之前、之后或者旁边。接着，在前述部分文档之后，确定与第二段文字内容的相似度大于相似度阈值的部分文档，并将第二段文字内容插入到该部分文档之前、之后或者旁边，以此类推，直到插入全部文字内容。

接着上述优选实施方式，按照内容先后顺序，将相似度大于相似度阈值的关键内容对应的文字内容依次插入到所述文档的对应部分中。其中，内容先后顺序包括原始内容的先后顺序和关键内容的先后顺序。关键内容的先后顺序与其对应的文字内容的先后顺序一致。

例如，确定第一个关键内容的相似度大于相似度阈值的主题内容，并将第一个关键内容对应的文字内容插入到该主题内容对应的部分文档之前、之后或者旁边。接着，在前述部分文档之后，确定第二个关键内容的相似度大于相似度阈值的主题内容，并将第二个关键内容对应的文字内容插入到该主题内容对应的部分文档之前、之后或者旁边。以此类推，直到插入全部文字内容。

本实施例中，通过根据文字内容与所述文档的原始内容之间的相似度，将所述文字内容插入到所述文档的原始内容中；或者，将在至少一个时段获取的语音信息所转换为的文字内容，分别插入到对应时段进行演示的原始内容中，从而精准定位插入位置，提高文字内容与原始内容的内容匹配度；而且，通过计算所述文字内容分别与各部分主题内容的相似度；进一步地，按照内容先后顺序，将相似度大于相似度阈值的文字内容依次插入到所述文档的对应部分中，以及按照内容先后顺序，将相似度大于相似度阈值的关键内容对应的文字内容依次插入到所述文档的对应部分中，从而有效地提高相似度计算的准确性和文字的针对性，提高相似度匹配效率。

实施例三

图3是本发明实施例三提供的一种基于语音识别的文档更新装置的结构示意图，本发明实施例适用于根据语音信息对文档的原始内容进行更新的情况，结合图3,基于语音识别的文档更新装置包括：获取装置310、转换模块320和更新模块330。

获取装置310，用于获取与待更新的文档关联的语音信息；

转换模块320，用于将所述语音信息转换为文字内容；

更新模块330，用于根据所述文字内容，更新所述文档的原始内容。

可选地，更新模块330具体用于执行以下操作中的任一种：将所述文字内容插入到所述文档的原始内容中；采用文字内容替换所述文档的原始内容；将一部分文字内容插入到所述文档的原始内容中，采用另一部分文字内容替换所述文档的原始内容。

可选地，更新模块330在将所述文字内容插入到所述文档的原始内容中时，具体用于：根据文字内容与所述文档的原始内容之间的相似度，将所述文字内容插入到所述文档的原始内容中；或者，将在至少一个时段获取的语音信息所转换为的文字内容，分别插入到对应时段进行演示的原始内容中。

可选地，获取装置310在获取与待更新的文档关联的语音信息时，具体用于：在演示所述文档的现场，录制演示者的语音信息；或者，在演示所述文档的现场，录制演示者的视频，并从演示者的视频中提取语音信息。

可选地，更新模块330在根据文字内容与所述文档的原始内容之间的相似度，将所述文字内容插入到所述原始内容中时，具体用于：读入所述文档；提取所述文档各部分的主题内容；计算所述文字内容分别与各部分主题内容的相似度；按照内容先后顺序，将相似度大于相似度阈值的文字内容依次插入到所述文档的对应部分中。

可选地，更新模块330在计算所述文字内容分别与各部分主题内容的相似度时，具体用于：从所述文字内容中，筛选出满足预设条件的至少一个关键内容，所述预设条件至少包括预设位置、超过音量阈值、超过重复次数阈值中的一种；分别计算每个关键内容与各部分主题内容的相似度。相应地，更新模块330在按照内容先后顺序，将相似度大于相似度阈值的文字内容依次插入到所述文档的对应部分中时，具体用于：按照内容先后顺序，将相似度大于相似度阈值的关键内容对应的文字内容依次插入到所述文档的对应部分中。

可选地，该装置还包括数据处理模块，用于在从所述文字内容中，筛选出满足预设条件的至少一个关键内容之前，对所述文字内容进行数据处理。

本发明实施例所提供的基于语音识别的文档更新装置可执行本发明任意实施例所提供的基于语音识别的文档更新方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图4显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于语音识别的文档更新方法。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例的基于语音识别的文档更新方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于语音识别的文档更新方法，其特征在于，包括：

获取与待更新的文档关联的语音信息；其中，所述与待更新的文档关联的语音信息包括对待更新的文档内容进行解释和补充的语音信息；

将所述语音信息转换为文字内容；

根据所述文字内容，更新所述文档的原始内容；其中，所述文字内容用于对所述文档的原始内容进行解释和补充；

其中，根据所述文字内容，更新所述文档的原始内容，包括以下操作中的任一种：

将所述文字内容插入到所述文档的原始内容中，以形成新的文档；其中，所述新的文档包括演示者解释和补充的内容，以及所述原始内容；

当整个文档的原始内容数量小于预设阈值，则采用全部文字内容替换所述整个文档的原始内容；

将一部分文字内容插入到所述文档的原始内容中，采用另一部分文字内容替换所述文档的原始内容；

其中，所述将所述文字内容插入到所述文档的原始内容中，包括：

读入所述文档；提取所述文档各部分的主题内容；从所述文字内容中，筛选出满足预设条件的至少一个关键内容，所述预设条件至少包括预设位置、超过音量阈值、超过重复次数阈值中的一种；分别计算每个关键内容与各部分主题内容的相似度；按照内容先后顺序，将相似度大于相似度阈值的关键内容对应的文字内容依次插入到所述文档的对应部分中；或者，

将在至少一个时段获取的语音信息所转换为的文字内容，分别插入到对应时段进行演示的原始内容中。

2.根据权利要求1所述的方法，其特征在于，所述获取与待更新的文档关联的语音信息，包括：

在演示所述文档的现场，录制演示者的语音信息；或者，

在演示所述文档的现场，录制演示者的视频，并从演示者的视频中提取语音信息。

3.根据权利要求1所述的方法，其特征在于，在从所述文字内容中，筛选出满足预设条件的至少一个关键内容之前，还包括：

对所述文字内容进行数据处理。

4.一种基于语音识别的文档更新装置，其特征在于，包括：

获取装置，用于获取与待更新的文档关联的语音信息；其中，所述与待更新的文档关联的语音信息包括对待更新的文档内容进行解释和补充的语音信息；

转换模块，用于将所述语音信息转换为文字内容；

更新模块，用于根据所述文字内容，更新所述文档的原始内容；其中，所述文字内容用于对所述文档的原始内容进行解释和补充；

其中，所述更新模块具体用于执行以下操作中的任一种：

5.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的基于语音识别的文档更新方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的基于语音识别的文档更新方法。