CN116209992A - 用于信息取回系统的多模态表格编码 - Google Patents
用于信息取回系统的多模态表格编码 Download PDFInfo
- Publication number
- CN116209992A CN116209992A CN202180060802.XA CN202180060802A CN116209992A CN 116209992 A CN116209992 A CN 116209992A CN 202180060802 A CN202180060802 A CN 202180060802A CN 116209992 A CN116209992 A CN 116209992A
- Authority
- CN
- China
- Prior art keywords
- column
- encoding
- encoded
- row
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 67
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 210000004027 cell Anatomy 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
多模态表格编码,包括:接收包含表格的电子文档。表格包括多个行、多个列、以及包括列标签或行标签的模式。电子文档包括位于表格外部的表格的描述。接下来,操作单独的机器学习编码器以分别单独地对表格的描述、模式、行中的每一行、以及列中的每一列进行编码。模式、行、以及列与分别标记每一列和每一行的末端的列末端令牌和行末端令牌一起被编码。然后,将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生表格的融合编码,其中融合编码表示表格的结构和表格的内容两者。
Description
背景技术
本发明涉及计算机化信息取回的领域。
信息取回系统通常通过接收查询并且在电子数据的语料库中搜索相关信息进行操作-该电子数据是文本、图像、音频、视频、或者任何其他类型的数据。例如,Web搜索引擎接收用户查询并在万维网中搜索相应信息。在技术上,搜索在由每个搜索引擎维护的万维网的集中式索引中进行,以促进搜索结果的近实时提供。在许多组织信息取回系统中存在类似的索引和搜索,这些系统用于在组织的电子文档和其他数据的内部集合(语料库)中进行搜索。
电子文档(通常包含自由文本的形式的非结构化数据)有时还包括表格(其是结构化数据的形式)。由于表格是根据提供列和/或行标签的特定模式而被组织的,所以它们可以被视为小的结构化数据库。包含在表格中的数据通常具有高质量,并且使得信息取回系统能够索引并搜索这样的表格数据具有很大的益处。
由于在万维网上的HTML(超文本标记语言)中使用的大量表格,已出现被称为“Web表格取回”的领域。已开发和提出了许多自动化的Web表格取回技术,这些技术通常通过接收自然语言的搜索查询并返回所找到的最相关的Web表格的排序列表进行操作。
现有技术的上述示例和与其相关的限制旨在是说明性的而不是排他性的。在阅读说明书和研究附图时,相关领域的其他限制对于本领域技术人员将变得显而易见。
发明内容
结合系统、工具和方法来描述和说明以下实施例及其方面,这些系统、工具和方法旨在是示例性和说明性的,而不限制范围。
实施例涉及一种方法,该方法包括,自动地:(a)接收包含表格的电子文档,其中:表格包括多个行、多个列、以及包括列标签或行标签的模式;并且电子文档包括位于表格外部的表格的描述;(b)操作单独的机器学习编码器以分别单独地对表格的描述、表格的模式、表格的行中的每一行、以及表格的列中的每一列进行编码,其中:(i)表格的模式与分别标记列标签或行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,(ii)表格的行中的每一行与标记相应行的每个数据单元的末端的列末端令牌一起被编码,并且与标记相应行的末端的行末端令牌一起被编码,以及(iii)表格的列中的每一列与标记相应列的每个数据单元的末端的行末端令牌一起被编码,并且与标记相应列的末端的列末端令牌一起被编码;(c)将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生所述表格的融合编码,其中融合编码表示表格的结构和所述表格的内容两者;以及(d)在计算机化信息取回系统的索引中存储表格的融合编码。
另一实施例涉及一种系统,该系统包括:(i)至少一个硬件处理器;以及(ii)非暂态计算机可读存储介质,该非暂态计算机可读存储介质具有随其体现的程序代码,该程序代码由至少一个硬件处理器可执行以自动地:(a)接收包含表格的电子文档,其中:表格包括多个行、多个列、以及包括列标签或行标签的模式;并且电子文档包括位于表格外部的表格的描述;(b)操作单独的机器学习编码器以分别单独地对表格的描述、表格的模式、表格的行中的每一行、以及表格的列中的每一列进行编码,其中:(I)表格的模式与分别标记列标签或行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,(II)表格的行中的每一行与标记相应行的每个数据单元的末端的列末端令牌一起被编码,并且与标记相应行的末端的行末端令牌一起被编码,以及(III)表格的列中的每一列与标记相应列的每个数据单元的末端的行末端令牌一起被编码,并且与标记相应列的末端的列末端令牌一起被编码;(c)将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生所述表格的融合编码,其中融合编码表示表格的结构和所述表格的内容两者;以及(d)在计算机化信息取回系统的索引中存储表格的融合编码。
再一实施例涉及一种计算机程序产品,该计算机程序产品包括非暂态计算机可读存储介质,该非暂态计算机可读存储介质具有以其体现的程序代码,该程序代码由至少一个硬件处理器可执行以:(a)接收包含表格的电子文档,其中:表格包括多个行、多个列、以及包括列标签或行标签的模式;并且电子文档包括位于表格外部的表格的描述;(b)操作单独的机器学习编码器以分别单独地对表格的描述、表格的模式、表格的行中的每一行、以及表格的列中的每一列进行编码,其中:(i)表格的模式与分别标记列标签或行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,(ii)表格的行中的每一行与标记相应行的每个数据单元的末端的列末端令牌一起被编码,并且与标记相应行的末端的行末端令牌一起被编码,以及(iii)表格的列中的每一列与标记相应列的每个数据单元的末端的行末端令牌一起被编码,并且与标记相应列的末端的列末端令牌一起被编码;(c)将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生所述表格的融合编码,其中融合编码表示表格的结构和所述表格的内容两者;以及(d)在计算机化信息取回系统的索引中存储表格的融合编码。
在一些实施例中,单独的机器学习编码器包括对表格的描述进行编码的递归卷积神经网络(RCNN)。
在一些实施例中,单独的机器学习编码器包括对表格的模式进行编码的多层感知器(MLP)、或者对表格的模式进行编码的变换器。
在一些实施例中,单独的机器学习编码器包括:第一三维卷积神经网络(3D-CNN),该第一(3D-CNN)对表格的行进行编码;以及第二3D-CNN,该第二3D-CNN对表格的列进行编码。
在一些实施例中,机器学习门控机制包括门控多模态单元(GMU)。
在一些实施例中,该方法还包括,或者程序代码进一步可执行以用于,在对描述、模式、行和列进行编码之前:将描述、模式、行和列自动地变换成令牌嵌入。
在一些实施例中,该方法还包括,或者程序代码进一步可执行以用于自动地:接收搜索查询;操作对描述进行编码的机器学习编码器以对搜索查询进行编码;以及操作计算机化信息取回系统以基于经编码的搜索查询来搜索索引并且返回表格中的至少一些作为搜索结果。
在一些实施例中,该方法还包括,或者程序代码进一步可执行以用于在对搜索查询进行编码之前:将搜索查询自动地变换成一个或多个令牌嵌入。
除了上述示例性方面和实施例以外,通过参考附图并且通过研究以下具体实施方式,另外的方面和实施例将变得清楚明白。
附图说明
示例性实施例在所参考的附图中进行说明。通常为了呈现的方便和清晰而选择在图中示出的组件和特征的尺寸,并且不一定按比例示出。下面列出了附图。
图1示出了用于多模态表编码的示例性系统的框图。
图2示出了用于多模态表编码的方法的过程图。
图3示出了包括表格的示例性电子文档。
图4示出示例性信息取回系统的框图。
具体实施方式
本文中公开了在系统、方法和计算机程序产品中体现的用于表格的多模态编码的技术,使得所有模态的联合(或者,“融合”)编码可以存储在信息取回系统的索引中并且稍后用于对搜索查询做出响应。有利地,联合编码允许信息取回(IR)系统响应于查询而选择性地仅返回表格的相关部分,而不是直接返回整个表格。这尤其通过对每个表格的不同信息级别(“模态”)进行联合编码而被促进,诸如其列和/或行标题、其包含的数据、以及甚至在电子文档中围绕其的描述。每个这样的模态有利地使用专门为该模态定制的机器学习编码器进行编码。
在备选实施例中,IR系统返回整个表格或表格的排序列表作为搜索结果,但是以提高的相关性级别。
在本技术中,首先操作单独的机器学习编码器来执行不同的表格模态的单独的单模态编码——其描述(围绕表格的自然语言文本)、模式(表格的列和/或行标题)、行和列。为了使编码器还了解表格的结构,在单模态编码之前,可以将特殊标记添加到表格的边界-诸如,每一行和列的末端。
递归卷积神经网络(RCNN)可以用于对表格的描述进行编码。多层感知器(MLP)可以用于对表格的模式进行编码。可以使用三维卷积神经网络(3D-CNN)对表格的行和列中的每一个进行编码。
接下来,机器学习门控机制被应用于经编码的描述、模式、行和列,以产生表格的融合编码。有利地,融合编码表示表格的结构及其内容(其中“内容”不严格地包含在表格中,而是围绕表格的描述-其表征其内容)。
门控多模态单元(GMU)可以被用作机器学习门控机制。
表格的融合编码(也被称为表格的融合“表示”)可以存储在计算机化信息取回系统的索引中。然后,响应于搜索查询,信息取回系统可以进行索引的搜索,并且如果融合编码满足查询,则在其搜索结果中选择性地返回表格的至少一部分。有利地,由于融合编码表示表格的结构和内容两者,IR系统可以返回对事实查询高度特定的结果。例如,图3中的表格列出了世界七个大陆以及每个大陆的各种数据——其人口、人口最多的城市和面积。当用户执行诸如“澳大利亚人口最多的城市”、“亚洲人口是多少”、或者“第二大洲是什么”的面向事实的搜索查询时,IR系统可以利用表格的融合编码并且以类似于从传统数据库中集中提取结构化数据的方式返回高度特定的结果(诸如,分别为“悉尼”、“45亿”、或者“非洲”)。
现在参见图1,其示出了根据实施例的用于多模态表编码的示例性系统100的框图。系统100还可以被称为电子文档索引系统、电子表格索引系统等。系统100可以包括一个或多个硬件处理器102、随机存取存储器(RAM)104、和一个或多个非暂态计算机可读存储设备106。
(多个)存储设备106可以具有存储在其上的、被配置为操作(多个)硬件处理器102的程序指令和/或组件。程序指令可以包括一个或多个软件模块,诸如多模态表格编码模块108。软件组件可以包括操作系统,该操作系统具有用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、功率管理等)并促进各种硬件与软件组件之间的通信的各种软件组件和/或驱动器。
系统100可以通过在由(多个)处理器102执行时将多模态表编码模块108的指令加载到RAM 104中进行操作。多模态表格编码模块108的指令可以使系统100接收包括表格110的电子文档,处理该电子文档,并且输出表格112的融合编码。
如本文中所描述的,系统100仅是本发明的示例性实施例,并且实际上可以只以硬件、只以软件或硬件与软件两者的组合实现。系统100可以具有比所示更多或更少的组件和模块,可以组合组件中的两个或更多个组件,或者可以具有组件的不同配置或布置。系统100可以包括使其能够用作可操作计算机系统的任何附加组件,诸如母板、数据总线、电源、网络接口卡、显示器、输入设备(例如,键盘、指向设备、触敏显示器)等。系统100的组件可以是共置的或分布式的(例如,在分布式计算架构中)。此外,系统100的组件可以是共置的或分布式的,或者系统可以作为一个或多个云计算“实例”、“容器”和/或“虚拟机”运行,如本领域中已知的。
现在参见图2的过程(方法)图来讨论多模态表编码模块108的指令,图2的过程(方法)图说明了根据实施例的用于多模态表编码的方法200。
方法200的步骤可以按它们被呈现的顺序或按不同的顺序(或者,甚至并行地)执行,只要该顺序允许从较早步骤的输出获得对某个步骤的必要输入。另外,方法200的步骤被自动执行(例如,由图1的系统100),除非特别声明某个步骤(或者,其一部分)涉及用户的手动动作。
在步骤202中,可以接收包含至少一个表格的电子文档(在下文中被简称为“文档”)。这可以是超文本标记语言(HTML)文档、可移植文档格式(PDF)文档、富文本格式(RTF)文档、文字处理文档(诸如,MicrosoftWord文档、开放文档)、LaTex文档、或者至少包含文本和表格的任何其他数字文件。可以使用常规技术检测并解析表格。仅作为实例,可以根据在文档中存在的“<table>”、“<tr>”、“<th>”和“<td>”标签来检测并解析HTML文档中的表格。
表格可以被视为包括四个模态——描述(d)、模式(s)、行(r)和列(c)。参见图3可以更好地理解这些模态,图3示出了包括表302的示例性文档300。
描述(d)模态包括在外部伴随表格的自然语言文本,排除表格本身内的文本。该模态通常提供关于表格的内容的一般描述信息,其改善读者对其的理解,并且因此用于包括在融合编码中。这样的信息可以包括例如以下各项中的一项或多项:首先,包含表格的文档的标题(例如,如图3中的“大陆”)。第二,文档中的子标题(例如,图3中的“面积和人口”),诸如包含表格的章节的章节标题。第三,表格的说明文字,其可以位于紧接在表格之前或之后(例如,在图3中位于表格下面的“表格1:面积和人口”)。
模式(s)模态对表格的内容施加结构并包括M个标签(即,s={s1,...,sM}),有时也被称为列名、标题或题目。在图3中,标记是“大陆”、“人口”、“人口最多的城市”、以及“地区(km2)”。每个模态标签对应于表格的一列。备选地,表格的模式可以是分层的(图中未示出),其中一些模式标签包含若干个子标签,并且随后包含若干个相关联的列。在这样的情况下,可以假设模式扁平,并且因此,每个标签对应于单个列。即,跨越多个子标签的每个标签被视为好像其经实际复制以用于这些子标签。表格1和表2示出了这一点:
表格1
标签1 | 标签1 | |
子标签1.1 | 子标签1.2 | |
表格2
假设给定的表格像表格1一样布置,其中“标签1”跨越两个子标签“子标签1.1”和“子标签1.2”,可以认为,好像它像表2一样布置,其中“标签1”被复制以单独跨越子标签1.1”和“子标签1.2”,使得“标签1”的每个实例对应于单个列。
在某种程度上,每个模态标签在暗示什么类型的数据被填充在对应的列的单元内具有语义作用。标签在文本中通常非常短,可以被缩略,并且有时甚至难以被许多读者解释。此外,一些表格模式可以捕获具有复杂语义结构(诸如,层级或功能依赖性、数据约束等)的元数据级信息。这需要以特殊方式对表格模式进行编码,这与对表格的描述的文本(例如)进行编码的方式不同。
表格的行(r)模态包括表格行(即,r={r1,...,rN}),有时也被称为“记录”或“行”。进而,每一行ri包括多个数据单元,每个单元通常对应于表格列中的一个表格列。然而,在某些表格中,数据单元可以跨越多个相邻列。可以类似于以上如何处理具有子标记的标记来处理这样的表——将表视为扁平的,其中针对其跨越的列复制每个这样的数据单元。从IR角度来看,表格行可以表示可以用于回答需要从表格选择特定信息的查询的感兴趣的实体或事实。
表格的列(c)模态包括M个表格列(即,c={c1,...,cM}),有时也被称为“面”,其垂直地划分表格的数据。每一列cj由一组数据单元定义,该组数据单元各自典型地对应于不同的行。列允许回答表达关于一组行的一个或多个(可选地聚合)属性的信息需求的查询,例如,“每大陆的人口和面积”、“平均大陆面积”等。
现在返回参见图2。在预处理步骤204中,可以对模态中的每个模态进行令牌化和嵌入。令牌化可以包括如在自然语言处理(NLP)的领域中常规地完成的将每个模态的内容分离成离散词的过程,该过程还涉及去除任何标点符号。例如,文本“Paulo,Brazil”的令牌化可以产生三个令牌:“Paulo”和“Brazil”。对于数字内容,诸如数字“30,370,000”,令牌化可以仅涉及去除数千个分离器、或者用于增强可读性而不是真实数字表示所要求的任何其他符号。令牌化可以产生每模态m∈{d,s,r,c}的Lm令牌的序列。可选地,通过向包括小于Lm令牌的任何序列应用填充(其中Lm表示模态中的任何模态的最长序列),将不同模态的令牌序列的长度保持一致。
接下来,还可以根据常规NLP技术来执行令牌的嵌入。例如,可以利用GloVe算法(参见J.Pennington et al.,“GloVe:Global Vectors for Word Representation,”Online at https://nlp.stanford.edu/pubs/glove.pdf,last viewed May 24,2020)。嵌入涉及将每个令牌表示为数字的向量,其方式为确保上下文类似的令牌产生相似的嵌入。对于模态m,嵌入的令牌是其中代表该模态m的第t令牌。为了简单起见,每当模态从上下文清楚时,其嵌入令牌简单地表示为<e1,e2,...,eL>。
另外,对于非描述(结构)表格模态(即,m∈{s,r,c}),可以有利地添加两种类型的特殊令牌:列末端(<eoc>)令牌和行末端(<eor>)令牌,如下:
对于该模式,可以在每一列标签的末端处添加<eoc>令牌,即–在每个标签的(多个)嵌入令牌之后。
对于行,可以在行的每个数据单元之后(即,在每个这样的数据单元的(多个)嵌入令牌之后)添加<eoc>令牌。另外,可以在每一行的末端处添加<eor>令牌(在来自行的最后数据单元格的<eoc>令牌之后)。
对于列,可以在列的每个数据单元之后(即,在每个这样的数据单元的(多个)嵌入令牌之后)添加<eor>令牌。另外,可以在每一列的末端处添加<eoc>令牌(在列中的最后数据元的<eor>令牌之后)。
标记表格的边界(每一行和列的末端)的这些令牌类型使得模式、行和列模态与表格的结构定义一起被编码。它们将该结构发信号通知给机器学习编码器,该机器学习编码器接着将对这些模态进行编码。
<eor>和<eoc>当然仅是可以用于标记表格的边界的令牌的示例。本文中明确介绍了表格的边界的任何其他类型的标记,该标记变得嵌入有相关模态。
为了简化呈现,图2仅图示了该表格的单个行和单个列的令牌化和嵌入,但是步骤204当然针对这些模态中的每个模态产生存在于该表格中的所有行/列的令牌序列。
当步骤204结束时,它为这些模态中的每个模态提供令牌序列,包括令牌嵌入以及<eor>和<eoc>令牌(如果添加的话)。
在步骤206中,可以单独地执行这些模态中的每个模态的单模态编码,如下:
描述模态:第一类型的机器学习编码器可以被操作用于对描述模态的令牌序列进行编码。该类型的机器学习编码器可以是特别适合于处理自然语言输入的编码器。例如,这可以是RCNN,该RCNN已显示出对于文本分类和相似NLP任务是高度有效的。如本领域中已知的,RCNN是双向长短期存储器(bi-LSTM),接着是最大池化层。应用bi-LSTM,从左到右<e1,e2,...,eL>和从右到左<eL,eL-1,...,e1>处理输入(令牌序列模态d),对于每个令牌:和分别获得两个LSTM隐藏状态。然后,每个令牌的表示由其左至右上下文其初始嵌入et以及其右至左上下文组成。然后,采用tanh激活来获得反馈给RCNN的卷积部分的表示:
其中max表示逐元素最大函数。池化层允许在所有令牌上获得统一的向量表示,捕捉该文本模态中最重要的潜在因素。
应用第一类型的机器学习编码器,诸如RCNN,产生针对描述模态的潜在表示hd(即,编码)。
模式模态:第二类型的机器学习编码器可以被操作用于对模式模态的令牌序列进行编码。这样的类型的机器学习编码器可以是特别适合于处理和表示无序系列令牌的编码器—每个模态标签可以被认为是无序系列令牌。例如,这可以是多层感知器(MLP),对于该MLP,模式可以被建模为令牌序列的无序集合(每模态标签的序列),其中特殊<eoc>令牌将连续的标签序列分开。为了捕获潜在的标签内和标签间关系,可以首先在每个令牌嵌入上应用两个完全连接的层,如下:
合适的机器学习编码器的另一示例是变换器模型。变换器被设计为处理数据的有序序列,诸如自然语言。然而,与递归网络不同,变压器不需要顺序处理序列。所以,如果所讨论的数据(模式的每个标签)是自然语言,则变换器不需要在其处理末端之前处理标签的开始。
行和列模态:可以单独操作第三类型的机器学习编码器,用于对行模态的令牌序列和列模态的令牌序列进行编码。该类型的机器学习编码器可以是特别适合于多维输入的编码器。例如,这可以是3D-CNN。具有这些模态的每个令牌以及特殊<eoc>和<eor>令牌的E-维度嵌入,每个模态的令牌序列本质上是三维矩阵:一个维度对应于由嵌入投影的潜在维度,第二维度对应于令牌在序列内的位置,以及第三维度对应于由<eoc>和<eor>令牌发信号通知的结构。
给定用于这两种模态中的每一种的令牌序列,可以通过对该单元格内的嵌入求平均值来提取与该行或列中的每个数据单元格相关联的令牌的嵌入;即,在行的情况下在每个相邻的<eoc>令牌之间水平地,并且在列的情况下在每个相邻的令牌<eor>之间垂直地。然后,可以通过观看每个潜在特征作为具有x∈{1,...,E}嵌入特征、y∈{1,...,M}列和z∈{1,...,N}行的条目(x,y,z)来提取三维矩阵。通过扁平化输入的3D表示并且将其乘以扁平的3D滤波器,3D卷积层的应用可以被视为规则的2D矩阵乘法。在第l层中的第f特征映射上的位置(x,y,z)处的值是:
在该示例性3D-CNN架构中,应用具有ReLU激活和最大池化(如上所定义的)的三个卷积层以获得用于行(hr)和列(hc)模态的潜在表示(编码)。
接下来,在步骤208中,诸如通过将机器学习门控机制应用于这些单独编码的模态来执行所有模态的潜在表示(hd,hs,hr,hc)的多模态编码,以产生表格(hT)的融合编码。”d”
例如,门控机制可以包括GMU(参见J.Arevalo et al.,“Gated Multimodal Unitsfor Information Fusion,”in the 5th International Conference on LearningRepresentations(ICLR),Toulon,France,April2017)。GMU接收潜在表示(hd,hs,hr,hc)作为输入(为简单起见,在本文中被表示为m1、m2、m3和m4),然后,使用其原始表示的独立编码,计算每个模态的中间表示然后使用控制对联合表示(编码)hGMU的每一个的贡献的门神经元(z)来组合这些中间表示。GMU的形式定义如下:
hGMU=h⊙z,
其中mi是第i模态并且⊙表示逐元素乘法。
在步骤208之后,可以在IR系统的索引中存储对表格(在此给出的具体示例中的hT或hGMU)的融合编码。
值得注意的是,方法200的步骤可以针对每个包含表格的文档重复,文档期望包括在IR系统上的索引中。例如,如果IR系统是对万维网上的文档进行索引的互联网搜索引擎,则搜索引擎可以在每次它检测到它尝试进行索引的文档中的表格时采用方法200;搜索引擎可以使用方法200对表格进行索引,并且使用搜索引擎的常规索引技术(其不面向表)对文档的剩余部分进行索引。索引并搜索特定语料库的任何类型的组织IR系统或者IR系统可以根据相同的原理进行操作。
现在参见图4,其示出了示例性IR系统400的框图,该IR系统400利用由方法200(图2)产生的融合表格编码来增强其查询应答。根据某些实施例,所讨论的IR系统400的操作将被认为是一种用于信息取回和/或表格取回的方法。IR系统400可以包括以上关于系统100(图1)讨论的硬件和/或软件组件中的一些或全部。在实施例中,系统100(图1)和IR系统400(图4)可以由单个系统实现,该单个系统被称为IR系统、索引和搜索系统等。
IR系统400包括存储包括在文档中的不同表格的融合表格编码的索引402,该文档是该系统被分派索引和搜索的任务的语料库的一部分。
响应于在IR系统400处接收到搜索查询404,该系统可以以与图2的步骤204和206中的描述模态的处理相似的方式处理查询(q),因为该查询被相似地假定为以自然语言书写:该查询可以首先被令牌化和嵌入,并且然后用第一类型的机器学习编码器(相同的机器学习编码器用于对描述模态进行编码)进行单模态编码。例如,这可以是与图2的步骤206相同的RCNN编码器。查询的单模态编码产生其潜在表示hq。
接下来,IR系统400可以基于经编码的查询(hq)在存储在其索引中的融合表格编码中进行搜索,并且返回搜索结果406。由于表格的多模态编码,以及其中用于标记表格的结构的特殊令牌,IR系统400可以选择性地仅返回表格的一个或多个相关部分(例如,数据单元),而不是表格的全部内容(除非查询特别要求所有内容)。例如,参见图3中所示的表格,如果查询是“澳大利亚的人口是多少”,则IR系统400可以返回“41,261,000”,这是“澳大利亚”行和“人口”标签的交叉处的数据单元。相似地,如果查询是“所有大陆的组合面积是多少”,则IR系统400可以计算表格的最右列中的数据单元的合计,并且返回“150,278,00km2”。换言之,包含在相关表格的单个相关数据单元或几个相关数据单元中的信息可以作为搜索结果返回。
备选地,可以响应于搜索查询返回整个表格或者甚至整个表格的排序列表。虽然整个表格可能不提供对用户意图的特定回答,而是要求他或她读取表格以便找到相关信息,但是本技术仍可以是有益的,因为它以与查询高度相关的方式取回正确的表格或正确地对表格的列表进行排序。
实验结果
本多模态表格编码技术(图2)及其相关联的IR系统操作(图4)相对于各种现有技术的表格取回技术进行测试,以评估多模态表格编码对表格取回性能的贡献。
在Wikitables语料库(C.S.Bhagavatula et al.,“Methods for Exploring andMining Tables on Wikipedia,”in Proceedings of IDEA’13,Chicago,IL,USA,2013;andC.S.Bhagavatula et al.,“TabEL:Entity Linking in Web Tables,”in Proceedings ofThe 14th International Semantic Web Conference,2015)上进行第一实验,其包括从Wikipedia、The Free Encyclopedia提取的大约160万个表格。对于每个表格,语料库还包括其Wikipedia文章标题、章节标题和说明文字。
第一实验评估了本技术在基于由S.Zhang et al.,“Ad Hoc Table Retrievalusing Semantic Similarity,”in Proceedings of the Web Conference 2018,April2018提出的60个专门查询的池来取回相关表格信息中的性能。本技术用于对Wikitables语料库进行索引,然后对索引执行60个专门查询(参考IR系统400,以上面描述的方式处理每一个查询)。
性能评估包括了将通过本技术取回的表格信息与由Zhang(2018)定义的基础事实进行比较,Zhang(2018)手动将语料库中的每个表格标注为与60个查询中的每一个无关(等级0)、与60个查询中的每一个相关(等级1)、或者与60个查询中的每一个高度相关(等级2)。值得注意的是,Zhang(2018)的工作限于响应于查询而取回整个表格,并且不解决仅取回直接回答查询的部分表格数据(例如,单个数据单元)的任务。因此,在第一个实验中仅评估了本技术以取回相关表格的能力。
本技术相对于七种现有技术表格取回技术的性能呈现在表3中。使用截止k∈{5,10}的精度(P)、截止k∈{5,10,20}的归一化不连续增益(NDCG)和平均精度(MAP)来评估表格取回质量。由国家标准和技术研究所(National Institute of Standards andTechnology)在https://trec.nist.gov/trec_eval(2020年5月25日最后查看)提供的“trec_eval”工具用于计算本技术的各种评估措施,并且其他七项技术的公开可用的TREC文件(通过“trec_eval”工具)被下载并且用于填充以下表格中的相应行。
方法 | P@5 | P@10 | N@5 | N@10 | N@20 | MAP |
单字段 | 47.33 | 42.17 | 47.81 | 49.27 | 55.22 | 39.86 |
多字段 | 54.00 | 46.50 | 54.13 | 55.92 | 61.15 | 44.77 |
NRM-F | 52.28 | 45.79 | 54.17 | 58.82 | 64.97 | 48.39 |
LTR | 52.67 | 45.17 | 55.27 | 54.56 | 60.31 | 41.12 |
STR | 58.33 | 53.67 | 59.51 | 62.93 | 68.25 | 51.41 |
T2VW | 56.67 | 50.67 | 59.74 | 60.96 | 65.05 | 46.75 |
T2VE | 55.00 | 47.00 | 56.02 | 55.69 | 61.61 | 41.76 |
本技术 | 64.56 | 56.49 | 66.31 | 68.13 | 73.70 | 60.58 |
表3
“单字段(Single-field)”是由M.Cafarella et al.,“WebTables:Exploring thePower of Tables on the Web,”VLDB’08,Auckland,New Zealand,2008提出的技术,其表示单字段文本文档内的所有表格属性。使用BM25相似性对文档进行评分。
“多字段(Multi-field)”是由R.Pimpikar et al.,“Answering Table Querieson the Web using Column Keywords,”in Proceedings of the VLDB Endowment(PVLDB),Vol.5,No.10,pp.908-919(2012)提出的技术,其将表格表示为多字段文档,使每个表格属性保持在不同的字段内并且使用BM25相似性评分。
“NRM-F”是H.Zamani et al.,“Neural Ranking Models with MultipleDocument Fields,”in Proceedings of WSDM’18,Los Angeles,CA,USA(2018)提出的技术,其充当应用于本任务的重要的多字段文档取回备选方案。为此,每个表格属性被再次视为文本字段。由于这样的方法的代码不是公开可获得的,所以它是通过紧跟其公开的论文来实现的。
“LTR”是由Zhang(2018)提出的一种技术,该技术实施使用不同查询、表格和查询表格特征(总计18)训练的逐点排序学习(learning-to-rank,LTR)方法。
“STR”是Zhang(2018)提出的另一种技术,该技术扩展LTR具有16个另外的语义表相似性特征:概念包、实体包、字和图嵌入(使用各种的早期和晚期融合策略计算)。
“T2VW”和“T2VE”是由L.Deng et al.,“Table2Vec:Neural Word and EntityEmbeddings for Table Population and Retrieval,”in Proceedings of SIGIR 2019,July 2019提出的技术,其用从在表格中出现的词(在T2VW中)或实体(在T2VE中)学习的Table2Vec(T2V)嵌入,扩展LTR特征集。
如表3中所示,本技术比这七种现有技术的表格取回技术表现得好得多。
在具体为该实验生成的语料库上进行第二实验,其包含从Wikipedia、The FreeEncyclopedia提取的约75,000个表格。对于每个表格,该语料库还包括其Wikipedia文章标题、章节标题和说明文字-如在Wikitables表格中。这些表伴随有610个自然语言查询的集合,这些自然语言查询各自具有单个表格作为正确答案。对于每个查询,这些表格分别被标记为不相关(等级0)或相关(等级1)。
本技术相对于七种现有技术表格取回技术中的三种的表格的性能呈现在表4中。剩余的四个取回技术未被评估,因为它们的全部特征集不是公开可用的,但是估计当应用于第二实验的特殊语料库时,它们的性能也劣于本技术。
方法 | P@5 | P@10 | N@5 | N@10 | N@20 | MAP |
单字段 | 8.29 | 4.49 | 32.34 | 34.93 | 36.70 | 30.91 |
多字段 | 8.06 | 5.03 | 31.87 | 35.18 | 37.59 | 31.13 |
NRM-F | 12.67 | 7.12 | 50.64 | 53.17 | 54.47 | 47.81 |
本技术 | 18.26 | 9.90 | 69.45 | 71.98 | 72.20 | 63.28 |
表4
如表4中所见,当在第二实验的特殊语料库上测试时,本技术也比这三种现有技术表格取回技术表现得更好。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或者,多个介质)。
计算机可读存储介质可以是可以驻留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、其上记录有指令的机械编码设备、以及上述各项的任何合适的组合。如本文中所使用的计算机可读存储介质不应被解释为暂态信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。相反,计算机可读存储介质是非瞬态(即,非易失性)介质。
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任何组合编写的源代码或目标代码,这些编程语言包括面向对象的编程语言(如Java、Smalltalk、C++等)和常规的过程编程语言(如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或者其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的(多个)逻辑功能的一个或多个可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
数值范围的描述应当被认为已具体公开了所有可能的子范围以及该范围内的单个数值。例如,从1至6的范围的描述应当被认为已具体公开了子范围,如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等,以及该范围内的单个数字,例如1、2、3、4、5和6。无论范围的宽度如何,这都适用。
已出于说明的目的呈现了本发明的各种实施方式的描述,但是并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域普通技术人员将是显而易见的。本文中所使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。
Claims (20)
1.一种方法,包括,自动地:
接收包含表格的电子文档,其中:
所述表格包括:多个行、多个列以及包括列标签或行标签的模式,并且
所述电子文档包括位于所述表格外部的所述表格的描述;
操作单独的机器学习编码器以分别单独地对所述表格的所述描述、所述表格的所述模式、所述表格的所述行中的每一行以及所述表格的所述列中的每一列进行编码,其中:
所述表格的所述模式与分别标记所述列标签或所述行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,
所述表格的所述行中的每一行与标记相应行的每个数据单元的末端的列末端令牌并且与标记相应行的末端的行末端令牌一起被编码,并且
所述表格的所述列中的每一列与标记相应列的每个数据单元的末端的行末端令牌并且与标记相应列的末端的列末端令牌一起被编码;
将机器学习门控机制应用于经编码的所述描述、经编码的所述模式、经编码的所述行以及经编码的所述列,以产生所述表格的融合编码,其中所述融合编码表示所述表格的结构和所述表格的内容两者;以及
在计算机化信息取回系统的索引中存储所述表格的所述融合编码。
2.根据权利要求1所述的方法,其中所述单独的机器学习编码器包括对所述表格的所述描述进行编码的递归卷积神经网络(RCNN)。
3.根据权利要求1所述的方法,其中所述单独的机器学习编码器包括对所述表格的所述模式进行编码的多层感知器(MLP)、或者对所述表格的所述模式进行编码的变换器。
4.根据权利要求1所述的方法,其中所述单独的机器学习编码器包括:
第一三维卷积神经网络(3D-CNN),所述第一3D-CNN对所述表格的所述行进行编码;以及
第二3D-CNN,所述第二3D-CNN对所述表格的所述列进行编码。
5.根据权利要求1所述的方法,其中所述机器学习门控机制包括门控多模态单元(GMU)。
6.根据权利要求1所述的方法,还包括,在对所述描述、所述模式、所述行以及所述列的所述编码之前:
将所述描述、所述模式、所述行以及所述列自动地变换成令牌嵌入。
7.根据权利要求1所述的方法,还包括,自动地:
接收搜索查询;
操作对所述描述进行编码的所述机器学习编码器以对所述搜索查询进行编码;以及
操作所述计算机化信息取回系统,以基于所编码的所述搜索查询来搜索所述索引,并且返回所述表格中的至少一些部分作为搜索结果。
8.根据权利要求7所述的方法,还包括,在对所述搜索查询进行编码之前:
将所述搜索查询自动地变换成一个或多个令牌嵌入。
9.一种系统,包括:
(a)至少一个硬件处理器;以及
(b)非暂态计算机可读存储介质,所述非暂态计算机可读存储介质具有随其体现的程序代码,所述程序代码由所述至少一个硬件处理器可执行以自动地:
接收包含表格的电子文档,其中:
所述表格包括:多个行、多个列以及包括列标签或行标签的模式,并且
所述电子文档包括位于所述表格外部的所述表格的描述;
操作单独的机器学习编码器以分别单独地对所述表格的所述描述、所述表格的所述模式、所述表格的所述行中的每一行以及所述表格的所述列中的每一列进行编码,其中:
所述表格的所述模式与分别标记所述列标签或所述行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,
所述表格的所述行中的每一行与标记相应行的每个数据单元的末端的列末端令牌并且与标记相应行的末端的行末端令牌一起被编码,并且
所述表格的所述列中的每一列与标记相应列的每个数据单元的末端的行末端令牌并且与标记相应列的末端的列末端令牌一起被编码;
将机器学习门控机制应用于经编码的所述描述、经编码的所述模式、经编码的所述行以及经编码的所述列,以产生所述表格的融合编码,其中所述融合编码表示所述表格的结构和所述表格的内容两者;以及
在计算机化信息取回系统的索引中存储所述表格的所述融合编码。
10.根据权利要求9所述的系统,其中所述单独的机器学习编码器包括对所述表格的所述描述进行编码的递归卷积神经网络(RCNN)。
11.根据权利要求9所述的系统,其中所述单独的机器学习编码器包括对所述表格的所述模式进行编码的多层感知器(MLP)、或者对所述表格的所述模式进行编码的变换器。
12.根据权利要求9所述的系统,其中所述单独的机器学习编码器包括:
第一三维卷积神经网络(3D-CNN),所述第一3D-CNN对所述表格的所述行进行编码;以及
第二3D-CNN,所述第二3D-CNN对所述表格的所述列进行编码。
13.根据权利要求9所述的系统,其中所述机器学习门控机制包括门控多模态单元(GMU)。
14.根据权利要求9所述的系统,其中所述程序代码进一步由所述至少一个硬件处理器可执行以,在对所述描述、所述模式、所述行以及所述列的所述编码之前:
将所述描述、所述模式、所述行以及所述列自动地变换成令牌嵌入。
15.根据权利要求9所述的系统,其中所述程序代码进一步由所述至少一个硬件处理器可执行以自动地:
接收搜索查询;
操作对所述描述进行编码的所述机器学习编码器以对所述搜索查询进行编码;以及
操作所述计算机化信息取回系统,以基于所编码的所述搜索查询来搜索所述索引,并且返回所述表格中的至少一些部分作为搜索结果。
16.根据权利要求15所述的系统,其中所述程序代码进一步由所述至少一个硬件处理器可执行以,在对所述搜索查询进行编码之前:
将所述搜索查询自动地变换成一个或多个令牌嵌入。
17.一种计算机程序产品,所述计算机程序产品包括非暂态计算机可读存储介质,所述非暂态计算机可读存储介质具有随其体现的程序代码,所述程序代码由至少一个硬件处理器可执行以:
接收包含表格的电子文档,其中:
所述表格包括:多个行、多个列以及包括列标签或行标签的模式,并且
所述电子文档包括位于所述表格外部的所述表格的描述;
操作单独的机器学习编码器以分别单独地对所述表格的所述描述、所述表格的所述模式、所述表格的所述行中的每一行以及所述表格的所述列中的每一列进行编码,其中:
所述表格的所述模式与分别标记所述列标签或所述行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,
所述表格的所述行中的每一行与标记相应行的每个数据单元的末端的列末端令牌并且与标记相应行的末端的行末端令牌一起被编码,并且
所述表格的所述列中的每一列与标记相应列的每个数据单元的末端的行末端令牌并且与标记相应列的末端的列末端令牌一起被编码;
将机器学习门控机制应用于经编码的所述描述、经编码的所述模式、经编码的所述行以及经编码的所述列,以产生所述表格的融合编码,其中所述融合编码表示所述表格的结构和所述表格的内容两者;以及
在计算机化信息取回系统的索引中存储所述表格的所述融合编码。
18.权利要求17的计算机程序产品,其中所述单独的机器学习编码器包括:
对所述表格的所述描述进行编码的递归卷积神经网络(RCNN);
对所述表格的所述模式进行编码的多层感知器(MLP)、或者对所述表格的所述模式进行编码的变换器;
第一三维卷积神经网络(3D-CNN),所述第一3D-CNN对所述表格的所述行进行编码;以及
第二3D-CNN,所述第二3D-CNN对所述表格的所述列进行编码。
19.权利要求17的计算机程序产品,其中所述机器学习门控机制包括门控多模态单元(GMU)。
20.权利要求17的计算机程序产品,其中所述程序代码进一步由所述至少一个硬件处理器可执行以自动地:
接收搜索查询;
操作对所述描述进行编码的所述机器学习编码器以对所述搜索查询进行编码;以及
操作所述计算机化信息取回系统,以基于所编码的所述搜索查询来搜索所述索引,并且返回所述表格中的至少一些部分作为搜索结果。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/929,194 US11687514B2 (en) | 2020-07-15 | 2020-07-15 | Multimodal table encoding for information retrieval systems |
US16/929,194 | 2020-07-15 | ||
PCT/IB2021/055987 WO2022013675A1 (en) | 2020-07-15 | 2021-07-04 | Multimodal table encoding for information retrieval systems |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116209992A true CN116209992A (zh) | 2023-06-02 |
Family
ID=79554316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180060802.XA Pending CN116209992A (zh) | 2020-07-15 | 2021-07-04 | 用于信息取回系统的多模态表格编码 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11687514B2 (zh) |
CN (1) | CN116209992A (zh) |
WO (1) | WO2022013675A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220309578A1 (en) * | 2021-03-23 | 2022-09-29 | Zensar Technologies Limited | System and method for autonomously generating service proposal response |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6804677B2 (en) * | 2001-02-26 | 2004-10-12 | Ori Software Development Ltd. | Encoding semi-structured data for efficient search and browsing |
WO2003014977A1 (en) * | 2001-08-10 | 2003-02-20 | Datavine Research Services | Method and apparatus for access, integration and analysis of heterogeneous data sources via the manipulation of metadata objects |
US20040194009A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding, extraction and structured reformatting of information in electronic files |
US8886617B2 (en) | 2004-02-20 | 2014-11-11 | Informatica Corporation | Query-based searching using a virtual table |
US7590647B2 (en) * | 2005-05-27 | 2009-09-15 | Rage Frameworks, Inc | Method for extracting, interpreting and standardizing tabular data from unstructured documents |
US20120011115A1 (en) | 2010-07-09 | 2012-01-12 | Jayant Madhavan | Table search using recovered semantic information |
CA2716982C (en) | 2010-10-06 | 2016-07-19 | Ibm Canada Limited - Ibm Canada Limitee | Digital signatures on composite resource documents |
US9292789B2 (en) * | 2012-03-02 | 2016-03-22 | California Institute Of Technology | Continuous-weight neural networks |
US9390115B2 (en) * | 2013-10-11 | 2016-07-12 | Oracle International Corporation | Tables with unlimited number of sparse columns and techniques for an efficient implementation |
US10127315B2 (en) | 2014-07-08 | 2018-11-13 | Microsoft Technology Licensing, Llc | Computing features of structured data |
US20190065502A1 (en) | 2014-08-13 | 2019-02-28 | Google Inc. | Providing information related to a table of a document in response to a search query |
CN104516719B (zh) | 2014-12-16 | 2017-03-22 | 南京大学 | 一种基于令牌的支持并发侧面编程的bpel扩展实现方法 |
US10395118B2 (en) * | 2015-10-29 | 2019-08-27 | Baidu Usa Llc | Systems and methods for video paragraph captioning using hierarchical recurrent neural networks |
US9454524B1 (en) * | 2015-12-04 | 2016-09-27 | Adobe Systems Incorporated | Determining quality of a summary of multimedia content |
US10002313B2 (en) * | 2015-12-15 | 2018-06-19 | Sighthound, Inc. | Deeply learned convolutional neural networks (CNNS) for object localization and classification |
US10157309B2 (en) * | 2016-01-14 | 2018-12-18 | Nvidia Corporation | Online detection and classification of dynamic gestures with recurrent convolutional neural networks |
US10339179B2 (en) | 2016-04-11 | 2019-07-02 | Oracle International Corporation | Graph processing system that can define a graph view from multiple relational database tables |
US10810472B2 (en) * | 2017-05-26 | 2020-10-20 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
US11645835B2 (en) * | 2017-08-30 | 2023-05-09 | Board Of Regents, The University Of Texas System | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications |
US20190325045A1 (en) | 2018-04-20 | 2019-10-24 | Hewlett-Packard Development Company, L.P. | Schema data structure |
-
2020
- 2020-07-15 US US16/929,194 patent/US11687514B2/en active Active
-
2021
- 2021-07-04 CN CN202180060802.XA patent/CN116209992A/zh active Pending
- 2021-07-04 WO PCT/IB2021/055987 patent/WO2022013675A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US11687514B2 (en) | 2023-06-27 |
US20220043794A1 (en) | 2022-02-10 |
WO2022013675A1 (en) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3896581A1 (en) | Learning to rank with cross-modal graph convolutions | |
US9009134B2 (en) | Named entity recognition in query | |
Belwal et al. | A new graph-based extractive text summarization using keywords or topic modeling | |
CN110502621A (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
Kowalski | Information retrieval architecture and algorithms | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
US9575947B2 (en) | System and method of automatically mapping a given annotator to an aggregate of given annotators | |
CN112925901B (zh) | 一种辅助在线问卷评估的评估资源推荐方法及其应用 | |
CN111552766B (zh) | 使用机器学习来表征在引用图形上应用的参考关系 | |
US20240126827A1 (en) | Transferable Neural Architecture for Structured Data Extraction From Web Documents | |
CN116209992A (zh) | 用于信息取回系统的多模态表格编码 | |
CN113918807A (zh) | 数据推荐方法、装置、计算设备及计算机可读存储介质 | |
Parameswaran et al. | Optimal schemes for robust web extraction | |
CN109582958B (zh) | 一种灾难故事线构建方法及装置 | |
Wu | Automating Knowledge Distillation and Representation from Richly Formatted Data | |
US8875007B2 (en) | Creating and modifying an image wiki page | |
Martin et al. | LLMs, Embeddings and Indexing Pipelines to Enable Natural Language Searching on Upstream Datasets | |
CN114662480B (zh) | 同义标签判断方法、装置、计算机设备和存储介质 | |
CN118503454B (zh) | 一种数据查询方法、设备、存储介质及计算机程序产品 | |
CN117633197B (zh) | 应用于释义文档的检索信息生成方法、装置和电子设备 | |
US20240256840A1 (en) | Storing entries in and retrieving information from an object memory | |
Cheng et al. | Retrieving Articles and Image Labeling Based on Relevance of Keywords | |
TANVIR | Design and Implementation of an Efficient Web Crawling | |
Agbogun et al. | A Prototype Machine Learning Algorithm and Its Possible Application to Information Extraction of Structured Academic Data from Unstructured Web Documents | |
Deng | Breaking Down Data Barriers: Knowledge Discovery and Natural Language Interfaces for Heterogeneous Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |