CN112732867B - 文件的处理方法及装置 - Google Patents
文件的处理方法及装置 Download PDFInfo
- Publication number
- CN112732867B CN112732867B CN202011602808.9A CN202011602808A CN112732867B CN 112732867 B CN112732867 B CN 112732867B CN 202011602808 A CN202011602808 A CN 202011602808A CN 112732867 B CN112732867 B CN 112732867B
- Authority
- CN
- China
- Prior art keywords
- resource
- file
- cluster
- newly added
- files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 35
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000004140 cleaning Methods 0.000 claims description 21
- 230000001172 regenerating effect Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 230000009849 deactivation Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000003213 activating effect Effects 0.000 claims 1
- 239000000758 substrate Substances 0.000 claims 1
- 238000002360 preparation method Methods 0.000 description 29
- 230000003993 interaction Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文件的处理方法及装置。其中,该方法包括:获取多个资源文件,并构建每个资源文件的特征信息;基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇;根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包。本发明解决了现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文件的处理方法及装置。
背景技术
随着在线教育的推广,电子化资源越来越丰富,资源的海量增长丰富了老师的选择,为教学带来更多可能性,老师可以在教学中运用多样的资源,丰富课堂内容,活跃课堂气氛。但是,老师面对数量众多、类型众多的电子资源,往往很难快速精准选择到自己预期的资源。为了提高资源的匹配效率,现有技术中常采用单一资源推荐的方法,例如习题推荐。但是老师在完整的教学流程中,需要使用到多种类型资源的组合,以涵盖老师在传授某一特定内容时所需要用到的各类资源,比如上课需要准备课件、课堂或课后需要布置习题练习,以及使用演示动画或知识点讲解视频来巩固学生的知识或提升趣味性,然而现有的单一资源推荐方法无法实现多类型组合资源的推荐,因此老师很难从海量的电子资源中获得需要的资源组合。
针对上述现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文件的处理方法及装置,以至少解决现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的技术问题。
根据本发明实施例的一个方面,提供了一种文件的处理方法,包括:获取多个资源文件,并构建每个资源文件的特征信息;基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇;根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包。
进一步地,获取多个资源文件,并构建每个资源文件的特征信息,包括:获取资源文件中的文本信息,并对文本信息进行分词;通过停用词表对分词结果进行清洗;基于清洗结果进行文本向量化处理,得到用于表示特征信息的文本向量。
进一步地,在资源文件为视频文件的情况下,获取资源文件中的文本信息,包括:在视频文件包括字幕数据的情况下,获取字幕数据,得到视频文件中的文本信息;在视频文件不包括字幕数据的情况下,提取视频文件中的语音信息,并将语音信息转换为文本信息。
进一步地,上述方法还包括:创建与资源文件的文件类型对应的停用词表,其中,创建与资源文件的文件类型对应的停用词表包括:对资源库中的全量资源文件进行分词,其中,资源库包括多种类型的资源文件;从全量资源文件的分词结果中筛选出每种类型的资源文件对应的停用词,其中,根据每种类型的资源文件中每个停用词出现的频率确定每种类型的资源文件对应的停用词;根据每种类型的资源文件对应的停用词生成与文件类型对应的停用词表。
进一步地,通过停用词表对分词结果进行清洗,包括:通过资源文件的文件类型对应的停用词表对分词结果进行清洗。
进一步地,在基于预处理结果进行文本向量化处理,得到用于表示特征信息的文本向量之后,方法还包括如下一项或多项:通过激活函数对文本向量进行放缩处理;对文本向量进行降维处理。
进一步地,基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇,包括:通过K均值聚类算法基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇。
进一步地,在基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇之后,方法还包括:接收新加入的新增资源文件,并构建新增资源文件的特征信息;根据新增资源文件的特征信息和已存在的资源文件的特征信息,确定新增资源文件的近邻文件;根据新增资源文件与近邻文件之间的距离关系,将新增资源划分至多个资源簇中的任意一个资源簇,或为新增资源重新生成一个资源簇。
进一步地,在近邻文件均属于同一个第一目标资源簇的情况下,根据新增资源文件与近邻文件之间的距离关系,将新增资源划分至多个资源簇中的任意一个资源簇,或为新增资源重新生成一个资源簇,包括:获取新增资源文件与第一目标资源簇的质心的第一距离;获取第一目标资源簇中与质心最远的资源文件与质心的第二距离;获取第一目标资源簇中所有资源文件与质心的平均距离;在第一距离与第二距离之差小于或等于平均距离的情况下,将新增资源划分至第一目标资源簇;在第一距离与第二距离之差大于平均距离的情况下,为新增资源重新生成一个资源簇。
进一步地,在近邻文件不属于同一个资源簇的情况下,根据新增资源文件与近邻文件之间的距离关系,将新增资源划分至多个资源簇中的任意一个资源簇,或为新增资源重新生成一个资源簇,包括:获取近邻文件所属资源簇的占比;在存在占比之差小于第一预设值的第二目标资源簇和第三目标资源簇的情况下,获取新增资源与属于第二目标资源簇的近邻文件的距离的第一平均值、新增资源与属于第三目标资源簇的近邻文件的距离的第二平均值、第二目标资源簇内近邻文件的距离的第三平均值以及第三目标资源簇内近邻文件的距离的第四平均值;如果第一平均值、第二平均值、第三平均值和第四平均值满足预设条件,则将新增资源文件和第二目标资源簇中的近邻文件加入第三目标资源簇中,其中,第三目标资源簇的占比高于第二目标资源簇,预设条件包括:第一平均值与第二平均值之差的绝对值小于第二预设值,第一平均值小于第三平均值且第二平均值小于第四平均值;如果第一平均值、第二平均值、第三平均值和第四平均值不满足预设条件,获取与新增资源文件的距离最短的质心所属的资源簇,并将新增资源文件加入确定的资源簇,或为新增资源重新生成一个资源簇。
进一步地,每个资源文件具有对应的文件等级,每个资源簇具有对应的主题,根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包,包括:资源文件提取请求中的请求信息,其中,请求信息包括如下至少一项:提取主题、提取文件等级和每种文件类型对应的提取数量;在资源文件提取请求中包括提取主题和提取文件等级的情况下,从与提取主题相同的资源簇中筛选出符合提取文件等级的资源文件;在资源文件提取请求中包括提取数量的情况下,从符合提取文件等级的资源文件中随机提取与提取数量对应的资源文件构成文件包,并返回文件包。
进一步地,在资源文件提取请求中不包括提取数量的情况下,按照提取主体的历史提取行为确定提取数量,或按照预设的提取数量提取资源文件;在资源文件提取请求中不包括提取主题的情况下,从资源文件数量由高至低排序的前N个资源簇中抽取资源文件;在资源文件提取请求中不包括提取文件等级的情况下,从与提取主题相同的资源簇中随机提取与提取数量对应的资源文件构成文件包。
根据本发明实施例的另一方面,还提供了一种文件的处理装置,包括:获取模块,用于获取多个资源文件,并构建每个资源文件的特征信息;聚类模块,用于基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇;构成模块,用于根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述任意一项的方法步骤。
根据本发明实施例的另一方面,还提供了一种智能交互平板,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述任意一项的方法步骤。
在本发明实施例中,通过构建资源文件的特征信息,并对多个资源文件聚类获得资源簇,根据资源文件提取请求从资源簇中可以获得多个资源的组合构成文件包。该资源文件的组合方法可以用于生成教学用的备课包,通过构建教育领域内的资源文件的本文特征并相应的进行聚类,可生成内容相近、适合配套使用的多资源组合,帮助老师快速组建符合需求的备课包,减少老师查找资源、匹配不同类型资源的时间,解决现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的技术问题,提高了教学效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文件的处理方法的流程图;
图2是根据本发明实施例的一种可选的文件的处理方法的流程图;
图3是根据本发明实施例的一种可选的构建资源文件的特征信息方法的流程图;
图4是根据本发明实施例的一种文件的处理装置的示意图;
图5是根据本发明实施例的一种可选的智能交互平板的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的实施中,将由多种类型资源的组合定义为备课包,备课包内的多种类型的资源之间相互联系,在资源内容上具有连贯性。在现有技术中,通常借用资源本身的标签来实现资源之间的关联,例如,将同一个章节下的题目、课件、视频等关联到一起。但是即便是同一个章节下,不同资源所涉及的内容也可能是不一样的,例如资源举例的场景不同、不适宜配套使用,因此现有技术中的资源的关联方法并不准确,使得老师不能准确的获取到预期的备课包。
实施例1
根据本发明实施例,提供了一种文件的处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例文件的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取多个资源文件,并构建每个资源文件的特征信息。
上述多个资源文件指与用户需求相关的相同类型或者不同类型的资源。在一种可选的生成备课包的实施例中,多个资源文件可以包括但不限于题目、课件、视频以及其他多媒体资源文件,具体的,题目信息可以包含:题目文本内容(题干、选项、答案)、难度、关联章节等;课件信息可以包含:课件内容(包含每一页的文字)、关联章节等;视频信息包含:视频内容(包含每一帧的字幕或音频)、关联章节等等。
为了表征不同类型的资源,需要对不同类型的资源进行特征提取,上述特征信息包括但不限于向量化的文本特征。例如,在上述生成备课包的实施例中,由于题目、课件和视频的文字信息都比较丰富,需要提取其文本特征,对于没有字幕的视频资源,需要将其中的音频转化为文字后提取文本特征,通过获取的文本特征,以表征出不同类型的资源。
步骤S102,基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇。
资源簇可以理解为内容相近的资源组合。在得到各资源文件向量化的特征信息后,可利用向量进行聚类,获得内容相近的资源组合。例如,在上述生成备课包的实施例中,如果限定聚类的范围为章节内,则根据各资源文件的文本特征,对同一章节下的资源文件进行聚类,将内容相近的资源聚到一起获得多个资源簇,每个资源簇中包含有题目、课件以及视频等不同类型的资源文件。
步骤S103,根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包。
文件包可理解为用户预期获得的资源文件组合。资源文件提取请求由用户输入,可以包括资源文件的关键词、各类型资源的数量等,通过匹配资源文件提取请求中的关键词和资源簇中的关键词,返回至少一个关键词匹配的资源簇,从返回的每个资源簇中抽取出资源文件,将各资源簇抽出的不同类型的资源文件组合,构成文件包。在上述生成备课包的实施例中,老师可以将资源内容关键词、各类型资源数量和题目难度等级作为资源文件请求的内容,通过匹配老师输入的关键词和资源簇的关键词,返回最相关的若干个资源簇,在每个资源簇中随机抽选指定数目的题目、课件、视频,最终生成备课包。
在一种可选的生成用于教学的备课包的实施例中,首先获取包括题目、课件、视频在内的资源信息,其中题目信息包含题目文本内容(题干、选项、答案)、难度、关联章节,课件信息包含课件内容(包含每一页的文字)、关联章节,视频信息包含视频内容(包含每一帧的字幕或音频)、关联章节等。构建资源信息的文本特征(即提取出题目、课件、视频的关键词),对文本特征进行向量化处理获得文本向量。在得到各资源信息的文本向量后,可利用向量进行聚类,将内容相近的资源文件聚在同一个资源簇中,例如,设定聚类的范围为章节时,可根据资源的章节标签,对同一章节下的资源进行聚类,将同一章节下的资源聚到一起。老师输入资源文件提取请求并生成备课包,例如,老师输入的提取请求为某一章节的关于某主题的视频文件和题目,则从该章节下对应主题资源簇中,抽选相应数量的视频文件和题目生成备课包。
本实施例通过构建资源文件的特征信息,并对多个资源文件聚类获得资源簇,根据资源文件提取请求从资源簇中可以获得多个资源的组合构成文件包。该资源文件的组合方法可以用于生成教学用的备课包,通过构建教育领域内的资源文件的本文特征并相应的进行聚类,可生成内容相近、适合配套使用的多资源组合,帮助老师快速组建符合需求的备课包,减少老师查找资源、匹配不同类型资源的时间,解决现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的技术问题,提高了教学效率。
作为一种可选的实施例,获取多个资源文件,并构建每个资源文件的特征信息,包括:获取资源文件中的文本信息,并对文本信息进行分词;通过停用词表对分词结果进行清洗;基于清洗结果进行文本向量化处理,得到用于表示特征信息的文本向量。
由于文本特征可以通过词袋模型或词嵌入模型获得,这两种方法都是以词为粒度的文本特征构建,因此在此之前需要对文本进行分词和清洗。上述分词可理解为将文本信息拆分成具有含义的词语单元,清洗可以理解为将获得的多个词用单元中的停用词过滤掉,例如,等边三角形的边长,经分词后,获得“等边三角形”、“的”、“边长”三个词语单元,“的”为没有实际含义的功能性词语(即停用词),对分析结果进行清洗后,保留“等边三角形”、“边长”两个词语单元,并对这两个词语单元进行向量化处理。
在一种可选的实施例中,可使用TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-逆文本频率指数)或word2vec(Word to Vector,词向量模型)对清洗后的文本进行向量化。
作为一种可选的实施例,在资源文件为视频文件的情况下,获取资源文件中的文本信息,包括:在视频文件包括字幕数据的情况下,获取字幕数据,得到视频文件中的文本信息;在视频文件不包括字幕数据的情况下,提取视频文件中的语音信息,并将语音信息转换为文本信息。
需要说明的是,在采用文本向量表征资源文件的特征信息时,需要将不同种类的资源均转换为文本向量。对于没有字幕的视频资源,需要将其中的语音信息转化为文字后提取向量化的文本特征,通过获取的文本特征,以表征出不同类型的资源。
作为一种可选的实施例,上述方法还包括:创建与资源文件的文件类型对应的停用词表,其中,创建与资源文件的文件类型对应的停用词表包括:对资源库中的全量资源文件进行分词,其中,资源库包括多种类型的资源文件;从全量资源文件的分词结果中筛选出每种类型的资源文件对应的停用词,其中,根据每种类型的资源文件中每个停用词出现的频率确定每种类型的资源文件对应的停用词;根据每种类型的资源文件对应的停用词生成与文件类型对应的停用词表。
需要说明的是,在教育领域,不同类型的文件资源(例如,题目、课件以及视频为不同类型的资源文件)中经常包含有通用但信息量较低的文字描述,例如题目中的“下列说法”,课件中的“本节课的目标”,视频中的“为什么”,通用的停用词并不能涵盖这些词汇,因此需要针对教育领域的资源构建专用的停用词表。由于题目、课件、视频的文字表达风格不一样,因此需要单独构建不同类型资源文件的停用词表。
以课件为例,对资源库中全部课件的文本进行提取,随后进行分词,经通用的停用词表清洗后,统计分词后各词的频数,筛选出频数较高的词作为新的停用词,以构建教育资源领域内的专用停用词表。不同类型资源文件的停用词表构建方法可以相同,题目、视频等其他类型的停用词构建方法相同。
作为一种可选的实施例,通过停用词表对分词结果进行清洗,包括:通过资源文件的文件类型对应的停用词表对分词结果进行清洗。
作为一种可选的实施例,在基于预处理结果进行文本向量化处理,得到用于表示特征信息的文本向量之后,方法还包括如下一项或多项:通过激活函数对文本向量进行放缩处理;对文本向量进行降维处理。
由于课件和视频中会重复出现涉及知识点的名词,例如,在讲述“相交线”的课件中会反复在不同页出现“相交线”这个词,该分词在课件中的数量占比较大,直接提取“相交线”的文本特征会造成其他文字权重过低、影响较小。因此提取完文本向量后需要用激活函数做一个element-wise的放缩,将文本向量的每一维值限制到0~1之间。例如,激活函数可以为sigmoid函数,其公式如下:
其中,x为文本向量。
此外,直接提取的文本向量是高维稀疏的,故可统一对不同类型的文本向量(例如,题目、课件、视频)进行降维,降维方法可以为PCA(Principal Components Analysis,主成分分析)、Isomap(Isometric Feature Mapping,等距特征映射)、T-SNE(T-distributedstochastic neighbor embedding,T分布领域嵌入算法)等。
作为一种可选的实施例,基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇,包括:通过K均值聚类算法基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇。
K均值聚类算法,即K-means算法,通过样本间的距离将样本划分到不同的簇,并通过迭代质心来优化聚类效果。通过基于资源文件的向量特征进行聚类,可以将内容相近的资源聚到一起,形成多个资源簇。
作为一种可选的实施例,在基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇之后,方法还包括:接收新加入的新增资源文件,并构建新增资源文件的特征信息;根据新增资源文件的特征信息和已存在的资源文件的特征信息,确定新增资源文件的近邻文件;根据新增资源文件与近邻文件之间的距离关系,将新增资源划分至多个资源簇中的任意一个资源簇,或为新增资源重新生成一个资源簇。
对于教育领域的数据库,每天都有大量新资源入库(例如,新上传的题目、课件、视频等),可以采用增量聚类的方法在原有簇的基础上将新入库的资源加入合适的资源簇中,上述原有簇可以为通过K-means算法获得多个资源簇,也可以为新建的簇。通过增量聚类方法对新资源分类,可提高资源聚类的效率,节约资源数据处理的时间。
作为一种可选的实施例,在近邻文件均属于同一个第一目标资源簇的情况下,根据新增资源文件与近邻文件之间的距离关系,将新增资源划分至多个资源簇中的任意一个资源簇,或为新增资源重新生成一个资源簇,包括:获取新增资源文件与第一目标资源簇的质心的第一距离;获取第一目标资源簇中与质心最远的资源文件与质心的第二距离;获取第一目标资源簇中所有资源文件与质心的平均距离;在第一距离与第二距离之差小于或等于平均距离的情况下,将新增资源划分至第一目标资源簇;在第一距离与第二距离之差大于平均距离的情况下,为新增资源重新生成一个资源簇。
具体的,对于每个新入库的资源提取出文本向量,计算新资源与已分簇的所有资源的距离,得到新资源的k个近邻。如果k个近邻全部属于第一目标资源簇(即同一个簇),计算新资源与该簇的质心的距离dist_c(即第一距离)、该簇所有样本与质心的平均距离dist_mean、该簇中最远的资源文件与质心的距离dist_max(即第二距离),根据如下两个条件公式确定新资源时划分至第一目标资源簇或者新建簇:
a)如果dist_c-dist_max<=dist_mean,即新资源距离质心的距离不会太大,则将新资源划分到第一目标资源簇;
b)如果dist_c-dist_max>dist_mean,即新资源距离质心的距离太大,则单独为新资源创建一个新的簇。
作为一种可选的实施例,在近邻文件不属于同一个资源簇的情况下,根据新增资源文件与近邻文件之间的距离关系,将新增资源划分至多个资源簇中的任意一个资源簇,或为新增资源重新生成一个资源簇,包括:获取近邻文件所属资源簇的占比;在存在占比之差小于第一预设值的第二目标资源簇和第三目标资源簇的情况下,获取新增资源与属于第二目标资源簇的近邻文件的距离的第一平均值、新增资源与属于第三目标资源簇的近邻文件的距离的第二平均值、第二目标资源簇内近邻文件的距离的第三平均值以及第三目标资源簇内近邻文件的距离的第四平均值;如果第一平均值、第二平均值、第三平均值和第四平均值满足预设条件,则将新增资源文件和第二目标资源簇中的近邻文件加入第三目标资源簇中,其中,第三目标资源簇的占比高于第二目标资源簇,预设条件包括:第一平均值与第二平均值之差的绝对值小于第二预设值,第一平均值小于第三平均值且第二平均值小于第四平均值;如果第一平均值、第二平均值、第三平均值和第四平均值不满足预设条件,获取与新增资源文件的距离最短的质心所属的资源簇,并将新增资源文件加入确定的资源簇,或为新增资源重新生成一个资源簇。
具体的,如果上述k个近邻文件不属于同一个簇,则计算近邻文件在其所属的资源簇中的占比,若近邻文件分属m个资源簇,则记近邻文件在其各自所属的各资源簇的占比为f1,f2,...,fm,其中,f1+f2+...+fm=1,并根据如下条件判断新资源加入到哪个资源簇中:
若存在|fi-fj|<f,i≠j,其中,fi和fj分别为近邻文件在第二目标资源簇i和第三目标资源簇j中的占比,f为上述第一预设值,上述第一预设值可以理解为资源簇i和资源簇j的占比阈值,在其占比之差小于该阈值的情况下,近邻文件在资源i和资源簇j的占比相当。计算新资源与资源簇i中近邻文件的平均距离d_i_in(即上述第一平均值)、新资源与资源簇j中近邻文件的平均距离d_j_in(即上述第二平均值),以及资源簇i所包含的近邻文件之间的平均距离d_i_mean(即上述第三平均值),资源簇j所包含的近邻文件之间的平均距离d_j_mean(即上述第四平均值)。
a)如果满足预设条件|d_i_in-d_j_in|<d且d_i_in<d_i_mean、d_j_in<d_j_mean,其中,d为上述第二预设值,第二预设值理解为d_j_in和d_i_in之差的阈值,当d_j_in和d_i_in之差小于该阈值时,新资源与资源簇的近邻文件的距离i和与资源簇j的近邻文件的距离相当且距离较小,则将资源i和资源簇j进行合并后,将新资源划分至资源i和资源簇j合并后的簇中。作为一种可选的实施例,可以将占比较低的资源簇中的近邻文件和新资源一起加入到占比较高的资源簇。
b)如果不满足预设条件,则计算新资源与近邻文件所在的资源簇的质心的距离,并且确定出质心距离最短的资源簇,将该资源簇作为可能加入的备选簇,并根据上述近邻文件均属于同一个第一目标资源簇(此时,将备选簇视为第一目标资源簇)的情况,对新资源加入该备选簇或者加入新建资源簇做出判断。
作为一种可选的实施例,每个资源文件具有对应的文件等级,每个资源簇具有对应的主题,根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包,包括:资源文件提取请求中的请求信息,其中,请求信息包括如下至少一项:提取主题、提取文件等级和每种文件类型对应的提取数量;在资源文件提取请求中包括提取主题和提取文件等级的情况下,从与提取主题相同的资源簇中筛选出符合提取文件等级的资源文件;在资源文件提取请求中包括提取数量的情况下,从符合提取文件等级的资源文件中随机提取与提取数量对应的资源文件构成文件包,并返回文件包。
需要说明的是,每个资源簇中包含根据内容相近程度聚在一起的不同类型的资源,因此在生成文件包时,可以优先从一个资源簇中挑选资源文件,以保证不同资源文件的衔接性。
在教育领域中为老师生成备课包的实施例中,上述提取主题可以为题目、课件和视频的关键词,提取文件等级可以为题目的难度,例如,老师输入生成备课包的请求信息,包括题目、课件和视频的关键词、题目、课件和视频各自的文件数量、以及题目难度等级,根据关键词和文件数量返回多个相关的资源簇,对于每一个资源簇,过滤掉不符合难度等级要求的题目后,从资源簇中随机抽选指定文件数量的资源文件,构成备课包。
作为一种可选的实施例,在资源文件提取请求中不包括提取数量的情况下,按照提取主体的历史提取行为确定提取数量,或按照预设的提取数量提取资源文件;在资源文件提取请求中不包括提取主题的情况下,从资源文件数量由高至低排序的前N个资源簇中抽取资源文件;在资源文件提取请求中不包括提取文件等级的情况下,从与提取主题相同的资源簇中随机提取与提取数量对应的资源文件构成文件包。
需要说明的是,请求信息可以只包含提取主题、提取文件等级和每种文件类型对应的提取数量中的一个或者两个,例如,老师在输入生成备课包的请求时,只输入题目的关键词和难度等级,则可以根据老师在过去输入的备课包请求中的资源文件数量确定,或者根据预设的提取数量确定本次备课包中的资源文件数量。在一种可选的实施例中,可以通过匹配老师输入的关键词和资源簇的关键词,返回内容最相关的m个资源簇,m为预设的返回资源簇数量。如果老师没有输入关键词,可以根据资源簇的热门程度排序,返回排序靠前的m个资源簇。对于每一个资源簇,过滤掉不符合难度要求的题目,再随机抽选指定数目的题目、课件、视频,即可生成备课包。
图2为根据本发明实施例的一种可选的文件的处理方法的流程图,如图2所示,该方法包括:
步骤S201,获取资源信息;所处理的资源包括但不限于题目、课件、视频等,所需题目信息包含:题目文本内容(题干、选项、答案)、难度、关联章节。所需课件信息包含:课件内容(包含每一页的文字)、关联章节。所需视频信息包含:视频内容(包含每一帧的字幕或音频)、关联章节。
步骤S202,资源特征构建;将资源的特征进行向量化,尤其是文本特征向量化。
步骤S203,资源聚类;得到各资源的向量表示后,可利用向量进行聚类,例如,设定聚类的范围为章节内时,可根据资源的章节标签,对同一章节下的资源进行聚类,将内容相近的资源聚到一起。
步骤S204,生成备课包。
图3为根据本发明实施例的一种可选的构建资源文件的特征信息的流程图,如图3所示,该方法包括:
步骤S301,更新停用词表;以课件为例,对资源库中全量课件的文本进行提取,随后进行分词,经通用的停用词表清洗后,统计分词后各词的频数,从频数较高的词中筛选新的停用词,以扩建教育资源领域内的停用词表。
步骤S302,分词去停用词;将各资源文件进行分词后去除停用词。
步骤S303,文本向量化;使用TF-IDF或word2vec对去除停用词后的分词进行向量化。
步骤S304,向量压缩,用激活函数做一个element-wise的放缩,将文本向量的每一维值限制到0~1之间。
通过上述步骤,构建了教育领域内题目、课件、视频适用的停用词表,并在同一空间下进行各类资源的特征提取,以表征不同类型的资源。本实施例使用了聚类的方式去发现相关性较强的资源,更高效的找到内容相近、适合搭配使用的资源组合,对于每天产生的大量新资源,使用增量聚类的方法将新资源计入合适的资源簇中,可以快速帮老师组建符合需求的备课包,减少老师查找资源、匹配不同类型资源的时间,提高教学效率。
实施例2
根据本申请实施例,提供了一种文件的处理装置实施例,图4为根据本发明实施的一种文件的处理装置的示意图,如图4所示,包括:获取模块41,用于获取多个资源文件,并构建每个资源文件的特征信息;聚类模块42,用于基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇;构成模块43,用于根据接收到的资源文件提取请求,从至少一个资源簇中抽取资源文件构成文件包,并返回文件包。
作为一种可选的实施例,上述获取模块,包括:第一分词子模块,用于获取资源文件中的文本信息,并对文本信息进行分词;清洗子模块,用于通过停用词表对分词结果进行清洗;向量化子模块,用于基于清洗结果进行文本向量化处理,得到用于表示特征信息的文本向量。
作为一种可选的实施例,在资源文件为视频文件的情况下,上述获取模块,包括:字幕提取自模块,用于在视频文件包括字幕数据的情况下,获取字幕数据,得到视频文件中的文本信息;语音转换子模块,用于在视频文件不包括字幕数据的情况下,用于提取视频文件中的语音信息,并将语音信息转换为文本信息。
作为一种可选的实施例,上述装置还包括:停用词表创建子模块,用于创建与资源文件的文件类型对应的停用词表,其中,创建与资源文件的文件类型对应的停用词表包括:第二分词子模块,用于对资源库中的全量资源文件进行分词,其中,资源库包括多种类型的资源文件;筛选子模块,用于从全量资源文件的分词结果中筛选出每种类型的资源文件对应的停用词,其中,根据每种类型的资源文件中每个停用词出现的频率确定每种类型的资源文件对应的停用词;停用词表生成子模块,用于根据每种类型的资源文件对应的停用词生成与文件类型对应的停用词表。
作为一种可选的实施例,上述清洗子模块,还用于通过资源文件的文件类型对应的停用词表对分词结果进行清洗。
作为一种可选的实施例,上述装置还包括如下一项或多项:放缩子模块,用于通过激活函数对文本向量进行放缩处理;降维子模块,用于对文本向量进行降维处理。
作为一种可选的实施例,上述聚类模块还用于通过K均值聚类算法基于每个资源文件的特征信息对多个资源文件进行聚类,生成多个资源簇。
作为一种可选的实施例,上述装置,还包括:第一新增子模块,用于接收新加入的新增资源文件,并构建新增资源文件的特征信息;近邻确定子模块,用于根据新增资源文件的特征信息和已存在的资源文件的特征信息,确定新增资源文件的近邻文件;第一划分子模块,用于根据新增资源文件与近邻文件之间的距离关系,将新增资源划分至多个资源簇中的任意一个资源簇,或为新增资源重新生成一个资源簇。
作为一种可选的实施例,在近邻文件均属于同一个第一目标资源簇的情况下,上述第一划分子模块,还包括:第一距离获取子模块,用于获取新增资源文件与第一目标资源簇的质心的第一距离;第二距离获取子模块,用于获取第一目标资源簇中与质心最远的资源文件与质心的第二距离;平均距离获取子模块,用于获取第一目标资源簇中所有资源文件与质心的平均距离;第二划分子模块,用于在第一距离与第二距离之差小于或等于平均距离的情况下,将新增资源划分至第一目标资源簇;第二新增子模块,用于在第一距离与第二距离之差大于平均距离的情况下,为新增资源重新生成一个资源簇。
作为一种可选的实施例,在近邻文件不属于同一个资源簇的情况下,上述第一划分子模块,还包括:占比获取子模块,用于获取近邻文件所属资源簇的占比;平均值获取子模块,用于在存在占比之差小于第一预设值的第二目标资源簇和第三目标资源簇的情况下,获取新增资源与属于第二目标资源簇的近邻文件的距离的第一平均值、新增资源与属于第三目标资源簇的近邻文件的距离的第二平均值、第二目标资源簇内近邻文件的距离的第三平均值以及第三目标资源簇内近邻文件的距离的第四平均值;第一加入子模块,用于如果第一平均值、第二平均值、第三平均值和第四平均值满足预设条件,将新增资源文件和第二目标资源簇中的近邻文件加入第三目标资源簇中,其中,第三目标资源簇的占比高于第二目标资源簇,预设条件包括:第一平均值与第二平均值之差的绝对值小于第二预设值,第一平均值小于第三平均值且第二平均值小于第四平均值;第二加入子模块,用于如果第一平均值、第二平均值、第三平均值和第四平均值不满足预设条件,获取与新增资源文件的距离最短的质心所属的资源簇,并将新增资源文件加入确定的资源簇,或为新增资源重新生成一个资源簇。
作为一种可选的实施例,每个资源文件具有对应的文件等级,每个资源簇具有对应的主题,上述构成模块,包括:提取子模块,用于资源文件提取请求中的请求信息,其中,请求信息包括如下至少一项:提取主题、提取文件等级和每种文件类型对应的提取数量;第一选择子模块,用于在资源文件提取请求中包括提取主题和提取文件等级的情况下,从与提取主题相同的资源簇中筛选出符合提取文件等级的资源文件;第一选择子模块,用于在资源文件提取请求中包括提取数量的情况下,从符合提取文件等级的资源文件中随机提取与提取数量对应的资源文件构成文件包,并返回文件包。
作为一种可选的实施例,上述构成模块还包括:第三选择子模块,用于在资源文件提取请求中不包括提取数量的情况下,按照提取主体的历史提取行为确定提取数量,或按照预设的提取数量提取资源文件;第四选择子模块,用于在资源文件提取请求中不包括提取主题的情况下,从资源文件数量由高至低排序的前N个资源簇中抽取资源文件;在资源文件提取请求中不包括提取文件等级的情况下,从与提取主题相同的资源簇中随机提取与提取数量对应的资源文件构成文件包。
本实施例通过构建资源文件的特征信息,并对多个资源文件聚类获得资源簇,根据资源文件提取请求从资源簇中可以获得多个资源的组合构成文件包。该资源文件的组合方法可以用于生成教学用的备课包,通过构建教育领域内的资源文件的本文特征并相应的进行聚类,可生成内容相近、适合配套使用的多资源组合,帮助老师快速组建符合需求的备课包,减少老师查找资源、匹配不同类型资源的时间,解决现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的技术问题,提高了教学效率。
实施例3
根据本申请实施例,提供了一种计算机存储介质的实施例,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述任意一项的方法步骤。通过构建资源文件的特征信息,并对多个资源文件聚类获得资源簇,根据资源文件提取请求从资源簇中可以获得多个资源的组合构成文件包。该资源文件的组合方法可以用于生成教学用的备课包,通过构建教育领域内的资源文件的本文特征并相应的进行聚类,可生成内容相近、适合配套使用的多资源组合,帮助老师快速组建符合需求的备课包,减少老师查找资源、匹配不同类型资源的时间,解决现有技术中单一教学资源的推荐方法导致老师无法精准找到合适的教学资源的技术问题,提高了教学效率。
实施例4
根据本申请实施例,提供了一种智能交互平板,包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行实施例1中任意一项的方法步骤。
图5是本申请实施例提供的一种智能交互平板的结构示意图,该智能交互平板包含上述的交互设备主体和触摸框,结合图5所示,智能交互平板1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个智能交互平板1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行智能交互平板1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及智能交互平板的操作应用程序。
在图5所示的智能交互平板1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的智能交互平板的操作应用程序,并具体执行实施例1中的任意一项操作。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种文件的处理方法,其特征在于,包括:
获取多个资源文件,并构建每个所述资源文件的特征信息;
基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇;
根据接收到的资源文件提取请求,从至少一个所述资源簇中抽取资源文件构成文件包,并返回所述文件包;
在基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇之后,接收新加入的新增资源文件,并构建所述新增资源文件的特征信息;根据所述新增资源文件的特征信息和已存在的资源文件的特征信息,确定所述新增资源文件的近邻文件;根据所述新增资源文件与所述近邻文件之间的距离关系,将所述新增资源划分至所述多个资源簇中的任意一个资源簇,或为所述新增资源重新生成一个资源簇;
在所述近邻文件不属于同一个资源簇的情况下,根据所述新增资源文件与所述近邻文件之间的距离关系,将所述新增资源划分至所述多个资源簇中的任意一个资源簇,或为所述新增资源重新生成一个资源簇,包括:获取所述近邻文件所属资源簇的占比;在存在占比之差小于第一预设值的第二目标资源簇和第三目标资源簇的情况下,获取所述新增资源与属于所述第二目标资源簇的近邻文件的距离的第一平均值、所述新增资源与属于所述第三目标资源簇的近邻文件的距离的第二平均值、所述第二目标资源簇内近邻文件的距离的第三平均值以及所述第三目标资源簇内近邻文件的距离的第四平均值;如果所述第一平均值、所述第二平均值、所述第三平均值和所述第四平均值满足预设条件,则将所述新增资源文件和所述第二目标资源簇中的近邻文件加入第三目标资源簇中,其中,所述第三目标资源簇的占比高于所述第二目标资源簇,所述预设条件包括:所述第一平均值与所述第二平均值之差的绝对值小于第二预设值,所述第一平均值小于所述第三平均值且所述第二平均值小于所述第四平均值;如果所述第一平均值、所述第二平均值、所述第三平均值和所述第四平均值不满足预设条件,获取与所述新增资源文件的距离最短的质心所属的资源簇,并将所述新增资源文件加入确定的所述资源簇,或为所述新增资源重新生成一个资源簇。
2.根据权利要求1所述的方法,其特征在于,获取多个资源文件,并构建每个所述资源文件的特征信息,包括:
获取所述资源文件中的文本信息,并对所述文本信息进行分词;
通过停用词表对分词结果进行清洗;
基于清洗结果进行文本向量化处理,得到用于表示所述特征信息的文本向量。
3.根据权利要求2所述的方法,其特征在于,在所述资源文件为视频文件的情况下,获取所述资源文件中的文本信息,包括:
在所述视频文件包括字幕数据的情况下,获取所述字幕数据,得到所述视频文件中的文本信息;
在所述视频文件不包括所述字幕数据的情况下,提取所述视频文件中的语音信息,并将所述语音信息转换为文本信息。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:创建与资源文件的文件类型对应的停用词表,其中,创建与资源文件的文件类型对应的停用词表包括:
对资源库中的全量资源文件进行分词,其中,所述资源库包括多种类型的资源文件;
从所述全量资源文件的分词结果中筛选出每种类型的资源文件对应的停用词,其中,根据每种类型的资源文件中每个停用词出现的频率确定每种类型的资源文件对应的停用词;
根据每种类型的资源文件对应的停用词生成与文件类型对应的停用词表。
5.根据权利要求4所述的方法,其特征在于,通过停用词表对分词结果进行清洗,包括:通过所述资源文件的文件类型对应的停用词表对分词结果进行清洗。
6.根据权利要求2所述的方法,其特征在于,在基于清洗结果进行文本向量化处理,得到用于表示所述特征信息的文本向量之后,所述方法还包括如下一项或多项:
通过激活函数对所述文本向量进行放缩处理;
对所述文本向量进行降维处理。
7.根据权利要求1所述的方法,其特征在于,基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇,包括:
通过K均值聚类算法基于每个所述资源文件的特征信息对多个所述资源文件进行聚类,生成所述多个资源簇。
8.根据权利要求1所述的方法,其特征在于,在所述近邻文件均属于同一个第一目标资源簇的情况下,根据所述新增资源文件与所述近邻文件之间的距离关系,将所述新增资源划分至所述多个资源簇中的任意一个资源簇,或为所述新增资源重新生成一个资源簇,包括:
获取所述新增资源文件与所述第一目标资源簇的质心的第一距离;
获取所述第一目标资源簇中与所述质心最远的资源文件与所述质心的第二距离;
获取所述第一目标资源簇中所有资源文件与所述质心的平均距离;
在所述第一距离与所述第二距离之差小于或等于所述平均距离的情况下,将所述新增资源划分至所述第一目标资源簇;
在所述第一距离与所述第二距离之差大于所述平均距离的情况下,为所述新增资源重新生成一个资源簇。
9.根据权利要求1所述的方法,其特征在于,每个资源文件具有对应的文件等级,每个资源簇具有对应的主题,根据接收到的资源文件提取请求,从至少一个所述资源簇中抽取资源文件构成文件包,并返回所述文件包,包括:
所述资源文件提取请求中的请求信息,其中,所述请求信息包括如下至少一项:提取主题、提取文件等级和每种文件类型对应的提取数量;
在所述资源文件提取请求中包括所述提取主题和所述提取文件等级的情况下,从与所述提取主题相同的资源簇中筛选出符合所述提取文件等级的资源文件;
在所述资源文件提取请求中包括所述提取数量的情况下,从符合所述提取文件等级的资源文件中随机提取与所述提取数量对应的资源文件构成所述文件包,并返回所述文件包。
10.根据权利要求9所述的方法,其特征在于,
在所述资源文件提取请求中不包括所述提取数量的情况下,按照提取主体的历史提取行为确定所述提取数量,或按照预设的提取数量提取资源文件;
在所述资源文件提取请求中不包括所述提取主题的情况下,从资源文件数量由高至低排序的前N个资源簇中抽取资源文件;
在所述资源文件提取请求中不包括所述提取文件等级的情况下,从与所述提取主题相同的资源簇中随机提取与所述提取数量对应的资源文件构成所述文件包。
11.一种文件的处理装置,其特征在于,包括:
获取模块,用于获取多个资源文件,并构建每个所述资源文件的特征信息;
聚类模块,用于基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇;在基于每个所述资源文件的特征信息对所述多个资源文件进行聚类,生成多个资源簇之后,接收新加入的新增资源文件,并构建所述新增资源文件的特征信息;根据所述新增资源文件的特征信息和已存在的资源文件的特征信息,确定所述新增资源文件的近邻文件;根据所述新增资源文件与所述近邻文件之间的距离关系,将所述新增资源划分至所述多个资源簇中的任意一个资源簇,或为所述新增资源重新生成一个资源簇,其中,在所述近邻文件不属于同一个资源簇的情况下,根据所述新增资源文件与所述近邻文件之间的距离关系,将所述新增资源划分至所述多个资源簇中的任意一个资源簇,或为所述新增资源重新生成一个资源簇包括:获取所述近邻文件所属资源簇的占比;在存在占比之差小于第一预设值的第二目标资源簇和第三目标资源簇的情况下,获取所述新增资源与属于所述第二目标资源簇的近邻文件的距离的第一平均值、所述新增资源与属于所述第三目标资源簇的近邻文件的距离的第二平均值、所述第二目标资源簇内近邻文件的距离的第三平均值以及所述第三目标资源簇内近邻文件的距离的第四平均值;如果所述第一平均值、所述第二平均值、所述第三平均值和所述第四平均值满足预设条件,则将所述新增资源文件和所述第二目标资源簇中的近邻文件加入第三目标资源簇中,其中,所述第三目标资源簇的占比高于所述第二目标资源簇,所述预设条件包括:所述第一平均值与所述第二平均值之差的绝对值小于第二预设值,所述第一平均值小于所述第三平均值且所述第二平均值小于所述第四平均值;如果所述第一平均值、所述第二平均值、所述第三平均值和所述第四平均值不满足预设条件,获取与所述新增资源文件的距离最短的质心所属的资源簇,并将所述新增资源文件加入确定的所述资源簇,或为所述新增资源重新生成一个资源簇;
构成模块,用于根据接收到的资源文件提取请求,从至少一个所述资源簇中抽取资源文件构成文件包,并返回所述文件包。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至10中任意一项的方法步骤。
13.一种智能交互平板,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至10中任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011602808.9A CN112732867B (zh) | 2020-12-29 | 2020-12-29 | 文件的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011602808.9A CN112732867B (zh) | 2020-12-29 | 2020-12-29 | 文件的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732867A CN112732867A (zh) | 2021-04-30 |
CN112732867B true CN112732867B (zh) | 2024-03-15 |
Family
ID=75610513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011602808.9A Active CN112732867B (zh) | 2020-12-29 | 2020-12-29 | 文件的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732867B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862070A (zh) * | 2017-11-22 | 2018-03-30 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN108647244A (zh) * | 2018-04-13 | 2018-10-12 | 广东技术师范学院 | 思维导图形式的主题教学资源集成方法、网络存储系统 |
CN109299315A (zh) * | 2018-09-03 | 2019-02-01 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN110929161A (zh) * | 2019-12-02 | 2020-03-27 | 南京莱斯网信技术研究院有限公司 | 一种面向大规模用户的个性化教学资源推荐方法 |
-
2020
- 2020-12-29 CN CN202011602808.9A patent/CN112732867B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862070A (zh) * | 2017-11-22 | 2018-03-30 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN108647244A (zh) * | 2018-04-13 | 2018-10-12 | 广东技术师范学院 | 思维导图形式的主题教学资源集成方法、网络存储系统 |
CN109299315A (zh) * | 2018-09-03 | 2019-02-01 | 腾讯科技(深圳)有限公司 | 多媒体资源分类方法、装置、计算机设备及存储介质 |
CN110929161A (zh) * | 2019-12-02 | 2020-03-27 | 南京莱斯网信技术研究院有限公司 | 一种面向大规模用户的个性化教学资源推荐方法 |
Non-Patent Citations (1)
Title |
---|
基于模糊聚类的教学资源自适应推荐研究;黎孟雄 等;中国远程教育(第7期);89-92 * |
Also Published As
Publication number | Publication date |
---|---|
CN112732867A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509465B (zh) | 一种视频数据的推荐方法、装置和服务器 | |
JP5886733B2 (ja) | 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム | |
CN112015949A (zh) | 视频生成方法和装置、存储介质及电子设备 | |
WO2020103899A1 (zh) | 用于生成图文信息的方法和用于生成图像数据库的方法 | |
CN106570708A (zh) | 一种智能客服知识库的管理方法及系统 | |
CN109344298A (zh) | 一种将非结构化数据转化为结构化数据的方法及装置 | |
CN111046194A (zh) | 构建多模态教学知识图谱的方法 | |
CN110569364A (zh) | 在线教学方法、装置、服务器及存储介质 | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
EP4336379A1 (en) | Tracking concepts within content in content management systems and adaptive learning systems | |
CN112231554A (zh) | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN114845149B (zh) | 视频片段的剪辑方法、视频推荐方法、装置、设备及介质 | |
CN115580758A (zh) | 视频内容生成方法及装置、电子设备、存储介质 | |
Ruta et al. | Stylebabel: Artistic style tagging and captioning | |
CN115129850A (zh) | 基于学术异质网络表示学习的参考文献引荐方法及设备 | |
CN114297372A (zh) | 个性化的笔记生成方法及系统 | |
CN112732867B (zh) | 文件的处理方法及装置 | |
CN116051192A (zh) | 处理数据的方法和装置 | |
CN110297965B (zh) | 课件页面的显示及页面集的构造方法、装置、设备和介质 | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN112417295A (zh) | 一种教育云信息推送方法、存储介质及系统 | |
JP6900334B2 (ja) | 映像出力装置、映像出力方法および映像出力プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |