[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109933671A - 构建个人知识图谱的方法、装置、计算机设备和存储介质 - Google Patents

构建个人知识图谱的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109933671A
CN109933671A CN201910100414.4A CN201910100414A CN109933671A CN 109933671 A CN109933671 A CN 109933671A CN 201910100414 A CN201910100414 A CN 201910100414A CN 109933671 A CN109933671 A CN 109933671A
Authority
CN
China
Prior art keywords
content
knowledge
file
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910100414.4A
Other languages
English (en)
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910100414.4A priority Critical patent/CN109933671A/zh
Publication of CN109933671A publication Critical patent/CN109933671A/zh
Priority to PCT/CN2019/117212 priority patent/WO2020155749A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请揭示了一种构建个人知识图谱的方法、装置、计算机设备和存储介质,其中方法包括:接收用户输入的内容语音;将内容语音转换成内容文本文件;接收用户输入的语音命令,查找与语音命令对应的文件夹,并将内容文本文件存储到文件夹中,其中,文件夹设置有多个,不同的文件夹对应不同的语音命令;对文件夹中的内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;根据内容语音转换成内容文本文件的时间戳、以及文件夹的类别,将知识内容加入到用户的链表中对应类别的链条中,以更新用户的知识图谱。本申请用户可以通过语音播出的方式,对知识进行输出,无需用户手动打字,提高知识图谱建立的效率。

Description

构建个人知识图谱的方法、装置、计算机设备和存储介质
技术领域
本申请涉及到知识图谱领域,特别是涉及到一种构建个人知识图谱的方法、装置、计算机设备和存储介质。
背景技术
知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
构建个人的知识图谱的时候,一般需要获取用户个人的各种数据,如抓取用户网络浏览数据、日常撰写文件的输入数据等,将这些内容进行抽取和聚类,已形成用户的知识图谱,但是这样的知识图谱并不全面,用户的知识好多是存储在大脑中,然后通过语音交互的方式进行输出,这些知识并没有很好的接入到用户的个人知识图谱中,所以,提供一种基于用户语音内容构建知识图谱的方法,是有必要的。
发明内容
本申请的主要目的为提供一种构建个人知识图谱的方法、装置、计算机设备和存储介质,旨在解决现有技术中的个人知识图谱缺少用户语音输出的知识的问题。
为了实现上述发明目的,本申请提出一种构建个人知识图谱的方法,括步骤:
接收用户输入的内容语音;
将所述内容语音转换成内容文本文件;
接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;
对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;
根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
进一步地,所述接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:
接收所述用户输入的语音命令;
将所述语音命令转换成语音文本;
提取所述语音文本中的命令关键字;
在预设的命令列表中查找与所述命令关键字对应的文件夹;
将所述内容文本文件存储到所述文件夹中。
进一步地,所述上接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:
接收所述用户输入的语音命令;
将所述语音命令与预设各类别的类别标准语音命令进行相似度比较;
获取与所述语音命令相似度最大的类别标准语音命令对应的文件夹;
将所述内容文本文件存储到所述文件夹中。
进一步地,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,包括:
接收用户输入的检索语音;
将所述检索语音转换成检索文本文件;
提取所述检索文本文件的检索关键字;
根据所述检索关键字确定所述链表的检索链条,在所述检索链条中查找检索内容。
进一步地,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:
生成所述内容文本文件的知识内容摘要;
将所述述内容文本文件的时间戳、存储内容文本文件的节点信息和知识内容摘要插入到预设的知识列表中,形成知识报表并展示。
进一步地,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:
对所述知识内容对应的链条进行标记。
进一步地,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:
遍历所述知识图谱的各链条上的节点,判断各节点上是否存在相同的知识内容;
若存在,则提取相同的知识内容的知识关键词,并将所述知识关键词与各所述链条的类别进行相似度计算;
保留与所述知识关键词相似度最高的类别对应的链条上的相同的知识内容,将其他的相同的知识内容清除。
本申请还提供一种构建个人知识图谱的装置,包括:
接收单元,用于接收用户输入的内容语音;
第一转换单元,用于将所述内容语音转换成内容文本文件;
接收存储单元,用于接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;
处理单元,用于对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;
更新单元,用于根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的构建个人知识图谱的方法、装置、计算机设备和存储介质,获取用户的语音信息,将其转换成内容文本文件,然后获取语音命令对内容文本文件进行初步的文件分类,提高分类速度,并方便关键内容抽取和相似内容聚类处理,得到整理后的知识内容,最后加入到知识图谱的链条中。本申请用户可以通过语音播出的方式,对知识进行输出,建立用户的知识图谱更加方便,无需用户手动打字,提高知识图谱建立的效率。
附图说明
图1为本申请一实施例的构建个人知识图谱的方法的流程示意图;
图2为本申请一实施例的构建个人知识图谱的装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请提供一种构建个人知识图谱的方法,包括步骤:
S1、接收用户输入的内容语音;
S2、将所述内容语音转换成内容文本文件;
S3、接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;
S4、对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;
S5、根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
如上述步骤S1所述,接收用户输入语音的设备包括各种含有语音输入模块的智能电子设备,如智能手机、平板电脑、计算机等。上述用户输入的内容语音可以为用户独自输入的语音,也可以是用户与其他人进行语音交互时,用户与其他人共同产生的语音。在一个实施例中,内容语音是从用户与其他人进行语音交互时产生的综合语音中,通过声音分离技术,分离出的用户的语音。具体的,在上述综合语音中分离出与预设的用户声纹特征相同的语音,分离出的语音即为用户的内容语音。
如上述步骤S2所述,即为通过语音转文字的技术将接收到的内容语音转换成文字内容,文字内容形成上述的内容文本文件。上述语音转文字技术,可以使用任何一种已经公开的技术,在此不在赘述。
如上述步骤S3所述,上述语音命令用于给上述智能电子设备下达指令。本申请中,上述语音命令用于指导上述内容文件文件存储到对应的文件夹中,起到初步分类的作用。比如,预设有多个不同类别的文件夹,这些文件夹都是用于存储内容文本文件的,但是由于内容文本文件中记载的内容不容易通过计算机进行分类,若果使用上述智能电子设备对内容文本文件中的内容进行关键字等识别分类,当内容文本文件中记载的内容较多时,会消耗大量的智能电子设备的计算资源,而通过用户主动的输入语音命令进行分类,分类速度更快、分类结果更加准确,而且减少计算机分类的计算量。
如上述步骤S4和S5所述,上述链表是一种物理存储单元上的非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。整个链表上各链条的各节点的内容即形成了用户的知识图谱。本申请中,每一个类别的文件夹对应链表中的一个链条。链条上的各节点,并不是直接存储全部的内容文本文件,而是先对内容文本文件进行预处理,预处理的过程即为通过关键字等对内容文本文件中的主要内容进行提取,以及将相似的内容进行合并(聚类)等,以起到精简内容文本文件的目的,将无关的内容清洗掉,得到知识内容,然后将知识内容添加到链表的链条节点上,该链条节点上会标记上述时间戳,以便于了解该节点记录的内容的完成时间,进一步地体现用户的知识图谱中各知识点的建立时间,有助于用户梳理知识点,进行相应的复习等。
在一个实施例中,上述接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤S3,包括:
接收所述用户输入的语音命令;
将所述语音命令转换成语音文本;
提取所述语音文本中的命令关键字;
在预设的命令列表中查找与所述命令关键字对应的文件夹;
将所述内容文本文件存储到所述文件夹中。
在本实施例中,先将语音命令解析成文字,然后提取出命令关键字,根据命令关键字在命令列表中查找对应的文件夹。上述命令列表是命令关键字和文件夹名一一对应的列表,文件夹名与对应的文件夹成一对一映射关系。上述文件夹名一般为知识的类别。本申请中,当用户输入的语音命令中存在多余的语句时,通过提取命令关键字查找文件夹,提高语音命令的识别准确率。
在另一个实施例中,上述接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤S3,包括:
接收所述用户输入的语音命令;
将所述语音命令与预设各类别的类别标准语音命令进行相似度比较;
获取与所述语音命令相似度最大的类别标准语音命令对应的文件夹;
将所述内容文本文件存储到所述文件夹中。
在本实施例中,使用语音相似度的方法查找与所述语音命令近似的类别标准语音命令。每一种类别标准语音命令对应一个类别的文件夹。本申请中,语音相似度的计算,可以利用现有技术进行计算,在此不在赘述。需要注意的,本申请中的类别标准语音命令可以是用户输入的,可以提高对用户输入的语音命令的准确度,即,类别标准语音命令是用户使用自己的发音标准录入到上述智能电子设备中。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤S5之后,包括:
接收用户输入的检索语音;
将所述检索语音转换成检索文本文件;
提取所述检索文本文件的检索关键字;
根据所述检索关键字确定所述链表的检索链条,在所述检索链条中查找检索内容。
在本实施例中,即为在上述的个人知识图谱中检索需要的知识的过程。先将检索语音转换成文本文件,然后提取出检索关键字,根据检索关键字确定需要检索的类别,进而查找到链表对应的链条,在该链条上的各节点查找与检索语音对应的知识,检索速度快,节约计算机的计算资源。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤S5之后,还包括:
生成所述内容文本文件的知识内容摘要;
将所述述内容文本文件的时间戳、存储内容文本文件的节点信息和知识内容摘要插入到预设的知识列表中,形成知识报表并展示。
在本实施例中,上述知识列表是未更新之前的知识图谱对应的知识列表,该知识列表中记录有未更新之前的知识图谱中各链条上的各节点信息、节点上内容文本的时间戳和内容摘要等。形成知识报表并展示,可以使用户更好的了解自己的知识图谱。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤S5之后,还包括:
对所述知识内容对应的链条进行标记。
在本实施例中,对所述知识内容对应的链条进行标记,可以使用户知道该链条上的实施内容是最新更新的。标记的方式可以包括突出颜色,突出文字气泡、文字闪烁等。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤S5之后,还包括:
遍历所述知识图谱的各链条上的节点,判断各节点上是否存在相同的知识内容;
若存在,则提取相同的知识内容的知识关键词,并将所述知识关键词与各所述链条的类别进行相似度计算;
保留与所述知识关键词相似度最高的类别对应的链条上的相同的知识内容,将其他的相同的知识内容清除。
在本实施例中,上述过程即为去除重复知识点的过程,因为在开始的时候,是根据用户输入的语音命令进行各类存储的,所以存在用户分类错误的问题,比如在不同的时间输入相同的内容语音,而且对应输入不同的语音命令,则会出现知识图谱中存在不同的链条节点上存储有相同的知识内容,所以需要本实施例的清除重复的知识内容的处理。上述清除重复的知识内容,可以按照预设的频率进行,比如,每经过7天的时间进行一次等。
本申请实施例的构建个人知识图谱的方法,获取用户的语音信息,将其转换成内容文本文件,然后获取语音命令对内容文本文件进行初步的文件分类,提高分类速度,并方便关键内容抽取和相似内容聚类处理,得到整理后的知识内容,最后加入到知识图谱的链条中。本申请用户可以通过语音播出的方式,对知识进行输出,建立用户的知识图谱更加方便,无需用户手动打字,提高知识图谱建立的效率。
参照图2,本申请提供一种构建个人知识图谱的装置,包括步骤:
接收单元10,用于接收用户输入的内容语音;
第一转换单元20,用于将所述内容语音转换成内容文本文件;
接收存储单元30,用于接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;
处理单元40,用于对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;
更新单元50,用于根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
如上述接收单元10,接收用户输入语音的设备包括各种含有语音输入模块的智能电子设备,如智能手机、平板电脑、计算机等。上述用户输入的内容语音可以为用户独自输入的语音,也可以是用户与其他人进行语音交互时,用户与其他人共同产生的语音。在一个实施例中,内容语音是从用户与其他人进行语音交互时产生的综合语音中,通过声音分离技术,分离出的用户的语音。具体的,在上述综合语音中分离出与预设的用户声纹特征相同的语音,分离出的语音即为用户的内容语音。
如上述第一转换单元20,即为通过语音转文字的技术将接收到的内容语音转换成文字内容,将文字内容形成上述的内容文本文件的单元。上述语音转文字技术,可以使用任何一种已经公开的技术,在此不在赘述。
如上述接收存储单元30,接收到的语音命令用于给上述智能电子设备下达指令。本申请中,上述语音命令用于指导上述内容文件文件存储到对应的文件夹中,起到初步分类的作用。比如,预设有多个不同类别的文件夹,这些文件夹都是用于存储内容文本文件的,但是由于内容文本文件中记载的内容不容易通过计算机进行分类,若果使用上述智能电子设备对内容文本文件中的内容进行关键字等识别分类,当内容文本文件中记载的内容较多时,会消耗大量的智能电子设备的计算资源,而通过用户主动的输入语音命令进行分类,分类速度更快、分类结果更加准确,而且减少计算机分类的计算量。
如上述处理单元40更新单元50,上述链表是一种物理存储单元上的非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。整个链表上各链条的各节点的内容即形成了用户的知识图谱。本申请中,每一个类别的文件夹对应链表中的一个链条。链条上的各节点,并不是直接存储全部的内容文本文件,而是先对内容文本文件进行预处理,预处理的过程即为通过关键字等对内容文本文件中的主要内容进行提取,以及将相似的内容进行合并(聚类)等,以起到精简内容文本文件的目的,将无关的内容清洗掉,得到知识内容,然后将知识内容添加到链表的链条节点上,该链条节点上会标记上述时间戳,以便于了解该节点记录的内容的完成时间,进一步地体现用户的知识图谱中各知识点的建立时间,有助于用户梳理知识点,进行相应的复习等。
在一个实施例中,上述接收存储单元30,包括:
第一接收模块,用于接收所述用户输入的语音命令;
转换模块,用于将所述语音命令转换成语音文本;
提取模块,用于提取所述语音文本中的命令关键字;
查找模块,用于在预设的命令列表中查找与所述命令关键字对应的文件夹;
第一存储模块,用于将所述内容文本文件存储到所述文件夹中。
在本实施例中,先将语音命令解析成文字,然后提取出命令关键字,根据命令关键字在命令列表中查找对应的文件夹。上述命令列表是命令关键字和文件夹名一一对应的列表,文件夹名与对应的文件夹成一对一映射关系。上述文件夹名一般为知识的类别。本申请中,当用户输入的语音命令中存在多余的语句时,通过提取命令关键字查找文件夹,提高语音命令的识别准确率。
在另一个实施例中,上述接收存储单元30,包括:
第二接收模块,用于接收所述用户输入的语音命令;
比较模块,用于将所述语音命令与预设各类别的类别标准语音命令进行相似度比较;
获取模块,用于获取与所述语音命令相似度最大的类别标准语音命令对应的文件夹;
第二存储模块,用于将所述内容文本文件存储到所述文件夹中。
在本实施例中,使用语音相似度的方法查找与所述语音命令近似的类别标准语音命令。每一种类别标准语音命令对应一个类别的文件夹。本申请中,语音相似度的计算,可以利用现有技术进行计算,在此不在赘述。需要注意的,本申请中的类别标准语音命令可以是用户输入的,可以提高对用户输入的语音命令的准确度,即,类别标准语音命令是用户使用自己的发音标准录入到上述智能电子设备中。
在一个实施例中,上述构建个人知识图谱的装置,包括:
接收检索单元,用于接收用户输入的检索语音;
第二转换单元,用于将所述检索语音转换成检索文本文件;
提取单元,用于提取所述检索文本文件的检索关键字;
查找单元,用于根据所述检索关键字确定所述链表的检索链条,在所述检索链条中查找检索内容。
在本实施例中,先将检索语音转换成文本文件,然后提取出检索关键字,根据检索关键字确定需要检索的类别,进而查找到链表对应的链条,在该链条上的各节点查找与检索语音对应的知识,检索速度快,节约计算机的计算资源。
在一个实施例中,上述构建个人知识图谱的装置,还包括:
生成单元,用于生成所述内容文本文件的知识内容摘要;
插入展示单元,用于将所述述内容文本文件的时间戳、存储内容文本文件的节点信息和知识内容摘要插入到预设的知识列表中,形成知识报表并展示。
在本实施例中,上述知识列表是未更新之前的知识图谱对应的知识列表,该知识列表中记录有未更新之前的知识图谱中各链条上的各节点信息、节点上内容文本的时间戳和内容摘要等。形成知识报表并展示,可以使用户更好的了解自己的知识图谱。
在一个实施例中,上述构建个人知识图谱的装置,还包括:
标记单元,用于对所述知识内容对应的链条进行标记。
在本实施例中,对所述知识内容对应的链条进行标记,可以使用户知道该链条上的实施内容是最新更新的。标记的方式可以包括突出颜色,突出文字气泡、文字闪烁等。
在一个实施例中,上述构建个人知识图谱的装置,还包括:
遍历单元,用于遍历所述知识图谱的各链条上的节点,判断各节点上是否存在相同的知识内容
相似度计算单元,用于若各节点上存在相同的知识内容在,则提取相同的知识内容的知识关键词,并将所述知识关键词与各所述链条的类别进行相似度计算;
保留清除单元,用于保留与所述知识关键词相似度最高的类别对应的链条上的相同的知识内容,将其他的相同的知识内容清除。
在本实施例中,因为在开始的时候,是根据用户输入的语音命令进行各类存储的,所以存在用户分类错误的问题,比如在不同的时间输入相同的内容语音,而且对应输入不同的语音命令,则会出现知识图谱中存在不同的链条节点上存储有相同的知识内容,所以需要本实施例的清除重复的知识内容的处理。上述清除重复的知识内容,可以按照预设的频率进行,比如,每经过7天的时间进行一次等。
本申请实施例的构建个人知识图谱的装置,获取用户的语音信息,将其转换成内容文本文件,然后获取语音命令对内容文本文件进行初步的文件分类,提高分类速度,并方便关键内容抽取和相似内容聚类处理,得到整理后的知识内容,最后加入到知识图谱的链条中。本申请用户可以通过语音播出的方式,对知识进行输出,建立用户的知识图谱更加方便,无需用户手动打字,提高知识图谱建立的效率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是上述的管理服务器,或者管理节点对应的服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识图谱等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种构建个人知识图谱的方法。
上述处理器执行上述构建个人知识图谱的方法,包括步骤:接收用户输入的内容语音;将所述内容语音转换成内容文本文件;接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
在一个实施例中,上述接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:接收所述用户输入的语音命令;将所述语音命令转换成语音文本;提取所述语音文本中的命令关键字;在预设的命令列表中查找与所述命令关键字对应的文件夹;将所述内容文本文件存储到所述文件夹中。
在一个实施例中,上述上接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:接收所述用户输入的语音命令;将所述语音命令与预设各类别的类别标准语音命令进行相似度比较;获取与所述语音命令相似度最大的类别标准语音命令对应的文件夹;将所述内容文本文件存储到所述文件夹中。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,包括:接收用户输入的检索语音;将所述检索语音转换成检索文本文件;提取所述检索文本文件的检索关键字;根据所述检索关键字确定所述链表的检索链条,在所述检索链条中查找检索内容。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:生成所述内容文本文件的知识内容摘要;将所述述内容文本文件的时间戳、存储内容文本文件的节点信息和知识内容摘要插入到预设的知识列表中,形成知识报表并展示。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:对所述知识内容对应的链条进行标记。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:遍历所述知识图谱的各链条上的节点,判断各节点上是否存在相同的知识内容;若存在,则提取相同的知识内容的知识关键词,并将所述知识关键词与各所述链条的类别进行相似度计算;保留与所述知识关键词相似度最高的类别对应的链条上的相同的知识内容,将其他的相同的知识内容清除。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例的计算机设备,获取用户的语音信息,将其转换成内容文本文件,然后获取语音命令对内容文本文件进行初步的文件分类,提高分类速度,并方便关键内容抽取和相似内容聚类处理,得到整理后的知识内容,最后加入到知识图谱的链条中。本申请用户可以通过语音播出的方式,对知识进行输出,建立用户的知识图谱更加方便,无需用户手动打字,提高知识图谱建立的效率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种构建个人知识图谱的方法,包括步骤:接收用户输入的内容语音;将所述内容语音转换成内容文本文件;接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
上述构建个人知识图谱的方法,获取用户的语音信息,将其转换成内容文本文件,然后获取语音命令对内容文本文件进行初步的文件分类,提高分类速度,并方便关键内容抽取和相似内容聚类处理,得到整理后的知识内容,最后加入到知识图谱的链条中。本申请用户可以通过语音播出的方式,对知识进行输出,建立用户的知识图谱更加方便,无需用户手动打字,提高知识图谱建立的效率。
在一个实施例中,上述接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:接收所述用户输入的语音命令;将所述语音命令转换成语音文本;提取所述语音文本中的命令关键字;在预设的命令列表中查找与所述命令关键字对应的文件夹;将所述内容文本文件存储到所述文件夹中。
在一个实施例中,上述上接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:接收所述用户输入的语音命令;将所述语音命令与预设各类别的类别标准语音命令进行相似度比较;获取与所述语音命令相似度最大的类别标准语音命令对应的文件夹;将所述内容文本文件存储到所述文件夹中。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,包括:接收用户输入的检索语音;将所述检索语音转换成检索文本文件;提取所述检索文本文件的检索关键字;根据所述检索关键字确定所述链表的检索链条,在所述检索链条中查找检索内容。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:生成所述内容文本文件的知识内容摘要;将所述述内容文本文件的时间戳、存储内容文本文件的节点信息和知识内容摘要插入到预设的知识列表中,形成知识报表并展示。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:对所述知识内容对应的链条进行标记。
在一个实施例中,上述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:遍历所述知识图谱的各链条上的节点,判断各节点上是否存在相同的知识内容;若存在,则提取相同的知识内容的知识关键词,并将所述知识关键词与各所述链条的类别进行相似度计算;保留与所述知识关键词相似度最高的类别对应的链条上的相同的知识内容,将其他的相同的知识内容清除。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种构建个人知识图谱的方法,其特征在于,包括步骤:
接收用户输入的内容语音;
将所述内容语音转换成内容文本文件;
接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;
对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;
根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
2.根据权利要求1所述的构建个人知识图谱的方法,其特征在于,所述接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:
接收所述用户输入的语音命令;
将所述语音命令转换成语音文本;
提取所述语音文本中的命令关键字;
在预设的命令列表中查找与所述命令关键字对应的文件夹;
将所述内容文本文件存储到所述文件夹中。
3.根据权利要求1所述的构建个人知识图谱的方法,其特征在于,所述上接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中的步骤,包括:
接收所述用户输入的语音命令;
将所述语音命令与预设各类别的类别标准语音命令进行相似度比较;
获取与所述语音命令相似度最大的类别标准语音命令对应的文件夹;
将所述内容文本文件存储到所述文件夹中。
4.根据权利要求1所述的构建个人知识图谱的方法,其特征在于,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,包括:
接收用户输入的检索语音;
将所述检索语音转换成检索文本文件;
提取所述检索文本文件的检索关键字;
根据所述检索关键字确定所述链表的检索链条,在所述检索链条中查找检索内容。
5.根据权利要求1所述的构建个人知识图谱的方法,其特征在于,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:
生成所述内容文本文件的知识内容摘要;
将所述述内容文本文件的时间戳、存储内容文本文件的节点信息和知识内容摘要插入到预设的知识列表中,形成知识报表并展示。
6.根据权利要求1所述的构建个人知识图谱的方法,其特征在于,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:
对所述知识内容对应的链条进行标记。
7.根据权利要求1所述的构建个人知识图谱的方法,其特征在于,所述根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱的步骤之后,还包括:
遍历所述知识图谱的各链条上的节点,判断各节点上是否存在相同的知识内容;
若存在,则提取相同的知识内容的知识关键词,并将所述知识关键词与各所述链条的类别进行相似度计算;
保留与所述知识关键词相似度最高的类别对应的链条上的相同的知识内容,将其他的相同的知识内容清除。
8.一种构建个人知识图谱的装置,其特征在于,包括:
接收单元,用于接收用户输入的内容语音;
第一转换单元,用于将所述内容语音转换成内容文本文件;
接收存储单元,用于接收用户输入的语音命令,查找与所述语音命令对应的文件夹,并将所述内容文本文件存储到所述文件夹中,其中,所述文件夹设置有多个,不同的文件夹对应不同的语音命令;
处理单元,用于对所述文件夹中的所述内容文本文件进行关键内容抽取和相似内容聚类处理,得到整理后的知识内容;
更新单元,用于根据所述内容语音转换成内容文本文件的时间戳、以及所述文件夹的类别,将所述知识内容加入到所述用户的链表中对应类别的链条中,以更新所述用户的知识图谱。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910100414.4A 2019-01-31 2019-01-31 构建个人知识图谱的方法、装置、计算机设备和存储介质 Pending CN109933671A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910100414.4A CN109933671A (zh) 2019-01-31 2019-01-31 构建个人知识图谱的方法、装置、计算机设备和存储介质
PCT/CN2019/117212 WO2020155749A1 (zh) 2019-01-31 2019-11-11 构建个人知识图谱的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910100414.4A CN109933671A (zh) 2019-01-31 2019-01-31 构建个人知识图谱的方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109933671A true CN109933671A (zh) 2019-06-25

Family

ID=66985387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910100414.4A Pending CN109933671A (zh) 2019-01-31 2019-01-31 构建个人知识图谱的方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN109933671A (zh)
WO (1) WO2020155749A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609905A (zh) * 2019-09-12 2019-12-24 深圳众赢维融科技有限公司 超点类型识别和图数据处理方法及装置
CN111368099A (zh) * 2020-03-31 2020-07-03 中国建设银行股份有限公司 核心信息语义图谱生成方法及装置
WO2020155749A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN111563170A (zh) * 2020-04-30 2020-08-21 北京明略软件系统有限公司 一种知识图谱的生成方法、装置、计算机存储介质及终端
CN112905805A (zh) * 2021-03-05 2021-06-04 北京中经惠众科技有限公司 知识图谱构建方法及装置、计算机设备和存储介质
CN113539253A (zh) * 2020-09-18 2021-10-22 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163077B (zh) * 2020-09-28 2024-06-04 华南理工大学 一种面向领域问答的知识图谱构建方法
CN118245600B (zh) * 2024-03-20 2024-09-10 佛山职业技术学院 一种基于数字化的思政课程知识图谱构建方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
CN109145123A (zh) * 2018-09-30 2019-01-04 国信优易数据有限公司 知识图谱模型的构建方法、智能交互方法、系统及电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156365B (zh) * 2016-08-03 2019-06-18 北京儒博科技有限公司 一种知识图谱的生成方法及装置
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
US10140286B2 (en) * 2017-02-22 2018-11-27 Google Llc Optimized graph traversal
US10909441B2 (en) * 2017-06-02 2021-02-02 Microsoft Technology Licensing, Llc Modeling an action completion conversation using a knowledge graph
CN107633005B (zh) * 2017-08-09 2020-11-10 广州思涵信息科技有限公司 一种基于课堂教学内容的知识图谱构建、对比系统及方法
CN107644062B (zh) * 2017-08-29 2020-11-17 广州思涵信息科技有限公司 一种基于知识图谱的知识内容权重分析系统及方法
CN109933671A (zh) * 2019-01-31 2019-06-25 平安科技(深圳)有限公司 构建个人知识图谱的方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
CN109145123A (zh) * 2018-09-30 2019-01-04 国信优易数据有限公司 知识图谱模型的构建方法、智能交互方法、系统及电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155749A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN110609905A (zh) * 2019-09-12 2019-12-24 深圳众赢维融科技有限公司 超点类型识别和图数据处理方法及装置
CN111368099A (zh) * 2020-03-31 2020-07-03 中国建设银行股份有限公司 核心信息语义图谱生成方法及装置
CN111368099B (zh) * 2020-03-31 2024-01-19 中国建设银行股份有限公司 核心信息语义图谱生成方法及装置
CN111563170A (zh) * 2020-04-30 2020-08-21 北京明略软件系统有限公司 一种知识图谱的生成方法、装置、计算机存储介质及终端
CN113539253A (zh) * 2020-09-18 2021-10-22 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置
CN113539253B (zh) * 2020-09-18 2024-05-14 厦门市和家健脑智能科技有限公司 一种基于认知评估的音频数据处理方法和装置
CN112905805A (zh) * 2021-03-05 2021-06-04 北京中经惠众科技有限公司 知识图谱构建方法及装置、计算机设备和存储介质
CN112905805B (zh) * 2021-03-05 2023-09-15 北京中经惠众科技有限公司 知识图谱构建方法及装置、计算机设备和存储介质

Also Published As

Publication number Publication date
WO2020155749A1 (zh) 2020-08-06

Similar Documents

Publication Publication Date Title
CN109933671A (zh) 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
TWI746690B (zh) 自然語言問句答案的產生方法、裝置及伺服器
CN110347894A (zh) 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质
CN104850539B (zh) 一种自然语言理解方法及基于该方法的旅游问答系统
US20170337260A1 (en) Method and device for storing data
CN112232058B (zh) 基于深度学习三层语义抽取框架的假新闻识别方法及系统
CN109472033A (zh) 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN111625658A (zh) 基于知识图谱的语音交互方法、装置、设备及存储介质
CN108268580A (zh) 基于知识图谱的问答方法及装置
CN105787134B (zh) 智能问答方法、装置及系统
CN111782800B (zh) 一种面向事件追溯的智能会议分析方法
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN109740159B (zh) 用于命名实体识别的处理方法及装置
CN109508458A (zh) 法律实体的识别方法及装置
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN103488752A (zh) 一种poi智能检索的检索方法
CN116303923A (zh) 一种知识图谱问答方法、装置、计算机设备和存储介质
CN116628229A (zh) 一种利用知识图谱生成文本语料的方法及装置
CN117725182A (zh) 基于大语言模型的数据检索方法、装置、设备和存储介质
CN103823868B (zh) 一种面向在线百科的事件识别方法和事件关系抽取方法
CN104424399B (zh) 一种基于病毒蛋白质本体的知识导航的方法、装置
CN114997167A (zh) 简历内容提取方法及装置
CN107368610B (zh) 基于全文的大文本crf和规则分类方法和系统
Schwalbach et al. Collecting large-scale comparative text data on legislative debates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625