[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN116209992A - 用于信息取回系统的多模态表格编码 - Google Patents

用于信息取回系统的多模态表格编码 Download PDF

Info

Publication number
CN116209992A
CN116209992A CN202180060802.XA CN202180060802A CN116209992A CN 116209992 A CN116209992 A CN 116209992A CN 202180060802 A CN202180060802 A CN 202180060802A CN 116209992 A CN116209992 A CN 116209992A
Authority
CN
China
Prior art keywords
column
encoding
encoded
row
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180060802.XA
Other languages
English (en)
Inventor
R·什拉加
H·罗伊特曼
G·菲根布拉特
M·卡尼姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN116209992A publication Critical patent/CN116209992A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

多模态表格编码,包括:接收包含表格的电子文档。表格包括多个行、多个列、以及包括列标签或行标签的模式。电子文档包括位于表格外部的表格的描述。接下来,操作单独的机器学习编码器以分别单独地对表格的描述、模式、行中的每一行、以及列中的每一列进行编码。模式、行、以及列与分别标记每一列和每一行的末端的列末端令牌和行末端令牌一起被编码。然后,将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生表格的融合编码,其中融合编码表示表格的结构和表格的内容两者。

Description

用于信息取回系统的多模态表格编码
背景技术
本发明涉及计算机化信息取回的领域。
信息取回系统通常通过接收查询并且在电子数据的语料库中搜索相关信息进行操作-该电子数据是文本、图像、音频、视频、或者任何其他类型的数据。例如,Web搜索引擎接收用户查询并在万维网中搜索相应信息。在技术上,搜索在由每个搜索引擎维护的万维网的集中式索引中进行,以促进搜索结果的近实时提供。在许多组织信息取回系统中存在类似的索引和搜索,这些系统用于在组织的电子文档和其他数据的内部集合(语料库)中进行搜索。
电子文档(通常包含自由文本的形式的非结构化数据)有时还包括表格(其是结构化数据的形式)。由于表格是根据提供列和/或行标签的特定模式而被组织的,所以它们可以被视为小的结构化数据库。包含在表格中的数据通常具有高质量,并且使得信息取回系统能够索引并搜索这样的表格数据具有很大的益处。
由于在万维网上的HTML(超文本标记语言)中使用的大量表格,已出现被称为“Web表格取回”的领域。已开发和提出了许多自动化的Web表格取回技术,这些技术通常通过接收自然语言的搜索查询并返回所找到的最相关的Web表格的排序列表进行操作。
现有技术的上述示例和与其相关的限制旨在是说明性的而不是排他性的。在阅读说明书和研究附图时,相关领域的其他限制对于本领域技术人员将变得显而易见。
发明内容
结合系统、工具和方法来描述和说明以下实施例及其方面,这些系统、工具和方法旨在是示例性和说明性的,而不限制范围。
实施例涉及一种方法,该方法包括,自动地:(a)接收包含表格的电子文档,其中:表格包括多个行、多个列、以及包括列标签或行标签的模式;并且电子文档包括位于表格外部的表格的描述;(b)操作单独的机器学习编码器以分别单独地对表格的描述、表格的模式、表格的行中的每一行、以及表格的列中的每一列进行编码,其中:(i)表格的模式与分别标记列标签或行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,(ii)表格的行中的每一行与标记相应行的每个数据单元的末端的列末端令牌一起被编码,并且与标记相应行的末端的行末端令牌一起被编码,以及(iii)表格的列中的每一列与标记相应列的每个数据单元的末端的行末端令牌一起被编码,并且与标记相应列的末端的列末端令牌一起被编码;(c)将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生所述表格的融合编码,其中融合编码表示表格的结构和所述表格的内容两者;以及(d)在计算机化信息取回系统的索引中存储表格的融合编码。
另一实施例涉及一种系统,该系统包括:(i)至少一个硬件处理器;以及(ii)非暂态计算机可读存储介质,该非暂态计算机可读存储介质具有随其体现的程序代码,该程序代码由至少一个硬件处理器可执行以自动地:(a)接收包含表格的电子文档,其中:表格包括多个行、多个列、以及包括列标签或行标签的模式;并且电子文档包括位于表格外部的表格的描述;(b)操作单独的机器学习编码器以分别单独地对表格的描述、表格的模式、表格的行中的每一行、以及表格的列中的每一列进行编码,其中:(I)表格的模式与分别标记列标签或行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,(II)表格的行中的每一行与标记相应行的每个数据单元的末端的列末端令牌一起被编码,并且与标记相应行的末端的行末端令牌一起被编码,以及(III)表格的列中的每一列与标记相应列的每个数据单元的末端的行末端令牌一起被编码,并且与标记相应列的末端的列末端令牌一起被编码;(c)将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生所述表格的融合编码,其中融合编码表示表格的结构和所述表格的内容两者;以及(d)在计算机化信息取回系统的索引中存储表格的融合编码。
再一实施例涉及一种计算机程序产品,该计算机程序产品包括非暂态计算机可读存储介质,该非暂态计算机可读存储介质具有以其体现的程序代码,该程序代码由至少一个硬件处理器可执行以:(a)接收包含表格的电子文档,其中:表格包括多个行、多个列、以及包括列标签或行标签的模式;并且电子文档包括位于表格外部的表格的描述;(b)操作单独的机器学习编码器以分别单独地对表格的描述、表格的模式、表格的行中的每一行、以及表格的列中的每一列进行编码,其中:(i)表格的模式与分别标记列标签或行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,(ii)表格的行中的每一行与标记相应行的每个数据单元的末端的列末端令牌一起被编码,并且与标记相应行的末端的行末端令牌一起被编码,以及(iii)表格的列中的每一列与标记相应列的每个数据单元的末端的行末端令牌一起被编码,并且与标记相应列的末端的列末端令牌一起被编码;(c)将机器学习门控机制应用于经编码的描述、经编码的模式、经编码的行、以及经编码的列,以产生所述表格的融合编码,其中融合编码表示表格的结构和所述表格的内容两者;以及(d)在计算机化信息取回系统的索引中存储表格的融合编码。
在一些实施例中,单独的机器学习编码器包括对表格的描述进行编码的递归卷积神经网络(RCNN)。
在一些实施例中,单独的机器学习编码器包括对表格的模式进行编码的多层感知器(MLP)、或者对表格的模式进行编码的变换器。
在一些实施例中,单独的机器学习编码器包括:第一三维卷积神经网络(3D-CNN),该第一(3D-CNN)对表格的行进行编码;以及第二3D-CNN,该第二3D-CNN对表格的列进行编码。
在一些实施例中,机器学习门控机制包括门控多模态单元(GMU)。
在一些实施例中,该方法还包括,或者程序代码进一步可执行以用于,在对描述、模式、行和列进行编码之前:将描述、模式、行和列自动地变换成令牌嵌入。
在一些实施例中,该方法还包括,或者程序代码进一步可执行以用于自动地:接收搜索查询;操作对描述进行编码的机器学习编码器以对搜索查询进行编码;以及操作计算机化信息取回系统以基于经编码的搜索查询来搜索索引并且返回表格中的至少一些作为搜索结果。
在一些实施例中,该方法还包括,或者程序代码进一步可执行以用于在对搜索查询进行编码之前:将搜索查询自动地变换成一个或多个令牌嵌入。
除了上述示例性方面和实施例以外,通过参考附图并且通过研究以下具体实施方式,另外的方面和实施例将变得清楚明白。
附图说明
示例性实施例在所参考的附图中进行说明。通常为了呈现的方便和清晰而选择在图中示出的组件和特征的尺寸,并且不一定按比例示出。下面列出了附图。
图1示出了用于多模态表编码的示例性系统的框图。
图2示出了用于多模态表编码的方法的过程图。
图3示出了包括表格的示例性电子文档。
图4示出示例性信息取回系统的框图。
具体实施方式
本文中公开了在系统、方法和计算机程序产品中体现的用于表格的多模态编码的技术,使得所有模态的联合(或者,“融合”)编码可以存储在信息取回系统的索引中并且稍后用于对搜索查询做出响应。有利地,联合编码允许信息取回(IR)系统响应于查询而选择性地仅返回表格的相关部分,而不是直接返回整个表格。这尤其通过对每个表格的不同信息级别(“模态”)进行联合编码而被促进,诸如其列和/或行标题、其包含的数据、以及甚至在电子文档中围绕其的描述。每个这样的模态有利地使用专门为该模态定制的机器学习编码器进行编码。
在备选实施例中,IR系统返回整个表格或表格的排序列表作为搜索结果,但是以提高的相关性级别。
在本技术中,首先操作单独的机器学习编码器来执行不同的表格模态的单独的单模态编码——其描述(围绕表格的自然语言文本)、模式(表格的列和/或行标题)、行和列。为了使编码器还了解表格的结构,在单模态编码之前,可以将特殊标记添加到表格的边界-诸如,每一行和列的末端。
递归卷积神经网络(RCNN)可以用于对表格的描述进行编码。多层感知器(MLP)可以用于对表格的模式进行编码。可以使用三维卷积神经网络(3D-CNN)对表格的行和列中的每一个进行编码。
接下来,机器学习门控机制被应用于经编码的描述、模式、行和列,以产生表格的融合编码。有利地,融合编码表示表格的结构及其内容(其中“内容”不严格地包含在表格中,而是围绕表格的描述-其表征其内容)。
门控多模态单元(GMU)可以被用作机器学习门控机制。
表格的融合编码(也被称为表格的融合“表示”)可以存储在计算机化信息取回系统的索引中。然后,响应于搜索查询,信息取回系统可以进行索引的搜索,并且如果融合编码满足查询,则在其搜索结果中选择性地返回表格的至少一部分。有利地,由于融合编码表示表格的结构和内容两者,IR系统可以返回对事实查询高度特定的结果。例如,图3中的表格列出了世界七个大陆以及每个大陆的各种数据——其人口、人口最多的城市和面积。当用户执行诸如“澳大利亚人口最多的城市”、“亚洲人口是多少”、或者“第二大洲是什么”的面向事实的搜索查询时,IR系统可以利用表格的融合编码并且以类似于从传统数据库中集中提取结构化数据的方式返回高度特定的结果(诸如,分别为“悉尼”、“45亿”、或者“非洲”)。
现在参见图1,其示出了根据实施例的用于多模态表编码的示例性系统100的框图。系统100还可以被称为电子文档索引系统、电子表格索引系统等。系统100可以包括一个或多个硬件处理器102、随机存取存储器(RAM)104、和一个或多个非暂态计算机可读存储设备106。
(多个)存储设备106可以具有存储在其上的、被配置为操作(多个)硬件处理器102的程序指令和/或组件。程序指令可以包括一个或多个软件模块,诸如多模态表格编码模块108。软件组件可以包括操作系统,该操作系统具有用于控制和管理一般系统任务(例如,存储器管理、存储设备控制、功率管理等)并促进各种硬件与软件组件之间的通信的各种软件组件和/或驱动器。
系统100可以通过在由(多个)处理器102执行时将多模态表编码模块108的指令加载到RAM 104中进行操作。多模态表格编码模块108的指令可以使系统100接收包括表格110的电子文档,处理该电子文档,并且输出表格112的融合编码。
如本文中所描述的,系统100仅是本发明的示例性实施例,并且实际上可以只以硬件、只以软件或硬件与软件两者的组合实现。系统100可以具有比所示更多或更少的组件和模块,可以组合组件中的两个或更多个组件,或者可以具有组件的不同配置或布置。系统100可以包括使其能够用作可操作计算机系统的任何附加组件,诸如母板、数据总线、电源、网络接口卡、显示器、输入设备(例如,键盘、指向设备、触敏显示器)等。系统100的组件可以是共置的或分布式的(例如,在分布式计算架构中)。此外,系统100的组件可以是共置的或分布式的,或者系统可以作为一个或多个云计算“实例”、“容器”和/或“虚拟机”运行,如本领域中已知的。
现在参见图2的过程(方法)图来讨论多模态表编码模块108的指令,图2的过程(方法)图说明了根据实施例的用于多模态表编码的方法200。
方法200的步骤可以按它们被呈现的顺序或按不同的顺序(或者,甚至并行地)执行,只要该顺序允许从较早步骤的输出获得对某个步骤的必要输入。另外,方法200的步骤被自动执行(例如,由图1的系统100),除非特别声明某个步骤(或者,其一部分)涉及用户的手动动作。
在步骤202中,可以接收包含至少一个表格的电子文档(在下文中被简称为“文档”)。这可以是超文本标记语言(HTML)文档、可移植文档格式(PDF)文档、富文本格式(RTF)文档、文字处理文档(诸如,MicrosoftWord文档、开放文档)、LaTex文档、或者至少包含文本和表格的任何其他数字文件。可以使用常规技术检测并解析表格。仅作为实例,可以根据在文档中存在的“<table>”、“<tr>”、“<th>”和“<td>”标签来检测并解析HTML文档中的表格。
表格可以被视为包括四个模态——描述(d)、模式(s)、行(r)和列(c)。参见图3可以更好地理解这些模态,图3示出了包括表302的示例性文档300。
描述(d)模态包括在外部伴随表格的自然语言文本,排除表格本身内的文本。该模态通常提供关于表格的内容的一般描述信息,其改善读者对其的理解,并且因此用于包括在融合编码中。这样的信息可以包括例如以下各项中的一项或多项:首先,包含表格的文档的标题(例如,如图3中的“大陆”)。第二,文档中的子标题(例如,图3中的“面积和人口”),诸如包含表格的章节的章节标题。第三,表格的说明文字,其可以位于紧接在表格之前或之后(例如,在图3中位于表格下面的“表格1:面积和人口”)。
模式(s)模态对表格的内容施加结构并包括M个标签(即,s={s1,...,sM}),有时也被称为列名、标题或题目。在图3中,标记是“大陆”、“人口”、“人口最多的城市”、以及“地区(km2)”。每个模态标签对应于表格的一列。备选地,表格的模式可以是分层的(图中未示出),其中一些模式标签包含若干个子标签,并且随后包含若干个相关联的列。在这样的情况下,可以假设模式扁平,并且因此,每个标签对应于单个列。即,跨越多个子标签的每个标签被视为好像其经实际复制以用于这些子标签。表格1和表2示出了这一点:
Figure BDA0004113808390000081
表格1
标签1 标签1
子标签1.1 子标签1.2
表格2
假设给定的表格像表格1一样布置,其中“标签1”跨越两个子标签“子标签1.1”和“子标签1.2”,可以认为,好像它像表2一样布置,其中“标签1”被复制以单独跨越子标签1.1”和“子标签1.2”,使得“标签1”的每个实例对应于单个列。
在某种程度上,每个模态标签在暗示什么类型的数据被填充在对应的列的单元内具有语义作用。标签在文本中通常非常短,可以被缩略,并且有时甚至难以被许多读者解释。此外,一些表格模式可以捕获具有复杂语义结构(诸如,层级或功能依赖性、数据约束等)的元数据级信息。这需要以特殊方式对表格模式进行编码,这与对表格的描述的文本(例如)进行编码的方式不同。
表格的行(r)模态包括表格行(即,r={r1,...,rN}),有时也被称为“记录”或“行”。进而,每一行ri包括多个数据单元,每个单元通常对应于表格列中的一个表格列。然而,在某些表格中,数据单元可以跨越多个相邻列。可以类似于以上如何处理具有子标记的标记来处理这样的表——将表视为扁平的,其中针对其跨越的列复制每个这样的数据单元。从IR角度来看,表格行可以表示可以用于回答需要从表格选择特定信息的查询的感兴趣的实体或事实。
表格的列(c)模态包括M个表格列(即,c={c1,...,cM}),有时也被称为“面”,其垂直地划分表格的数据。每一列cj由一组数据单元定义,该组数据单元各自典型地对应于不同的行。列允许回答表达关于一组行的一个或多个(可选地聚合)属性的信息需求的查询,例如,“每大陆的人口和面积”、“平均大陆面积”等。
现在返回参见图2。在预处理步骤204中,可以对模态中的每个模态进行令牌化和嵌入。令牌化可以包括如在自然语言处理(NLP)的领域中常规地完成的将每个模态的内容分离成离散词的过程,该过程还涉及去除任何标点符号。例如,文本“
Figure BDA0004113808390000093
Paulo,Brazil”的令牌化可以产生三个令牌:
Figure BDA0004113808390000094
“Paulo”和“Brazil”。对于数字内容,诸如数字“30,370,000”,令牌化可以仅涉及去除数千个分离器、或者用于增强可读性而不是真实数字表示所要求的任何其他符号。令牌化可以产生每模态m∈{d,s,r,c}的Lm令牌
Figure BDA0004113808390000091
的序列。可选地,通过向包括小于Lm令牌的任何序列应用填充(其中Lm表示模态中的任何模态的最长序列),将不同模态的令牌序列的长度保持一致。
接下来,还可以根据常规NLP技术来执行令牌的嵌入。例如,可以利用GloVe算法(参见J.Pennington et al.,“GloVe:Global Vectors for Word Representation,”Online at https://nlp.stanford.edu/pubs/glove.pdf,last viewed May 24,2020)。嵌入涉及将每个令牌表示为数字的向量,其方式为确保上下文类似的令牌产生相似的嵌入。对于模态m,嵌入的令牌是
Figure BDA0004113808390000092
其中代表该模态m的第t令牌。为了简单起见,每当模态从上下文清楚时,其嵌入令牌简单地表示为<e1,e2,...,eL>。
另外,对于非描述(结构)表格模态(即,m∈{s,r,c}),可以有利地添加两种类型的特殊令牌:列末端(<eoc>)令牌和行末端(<eor>)令牌,如下:
对于该模式,可以在每一列标签的末端处添加<eoc>令牌,即–在每个标签的(多个)嵌入令牌之后。
对于行,可以在行的每个数据单元之后(即,在每个这样的数据单元的(多个)嵌入令牌之后)添加<eoc>令牌。另外,可以在每一行的末端处添加<eor>令牌(在来自行的最后数据单元格的<eoc>令牌之后)。
对于列,可以在列的每个数据单元之后(即,在每个这样的数据单元的(多个)嵌入令牌之后)添加<eor>令牌。另外,可以在每一列的末端处添加<eoc>令牌(在列中的最后数据元的<eor>令牌之后)。
标记表格的边界(每一行和列的末端)的这些令牌类型使得模式、行和列模态与表格的结构定义一起被编码。它们将该结构发信号通知给机器学习编码器,该机器学习编码器接着将对这些模态进行编码。
<eor>和<eoc>当然仅是可以用于标记表格的边界的令牌的示例。本文中明确介绍了表格的边界的任何其他类型的标记,该标记变得嵌入有相关模态。
为了简化呈现,图2仅图示了该表格的单个行和单个列的令牌化和嵌入,但是步骤204当然针对这些模态中的每个模态产生存在于该表格中的所有行/列的令牌序列。
当步骤204结束时,它为这些模态中的每个模态提供令牌序列,包括令牌嵌入以及<eor>和<eoc>令牌(如果添加的话)。
在步骤206中,可以单独地执行这些模态中的每个模态的单模态编码,如下:
描述模态:第一类型的机器学习编码器可以被操作用于对描述模态的令牌序列进行编码。该类型的机器学习编码器可以是特别适合于处理自然语言输入的编码器。例如,这可以是RCNN,该RCNN已显示出对于文本分类和相似NLP任务是高度有效的。如本领域中已知的,RCNN是双向长短期存储器(bi-LSTM),接着是最大池化层。应用bi-LSTM,从左到右<e1,e2,...,eL>和从右到左<eL,eL-1,...,e1>处理输入(令牌序列模态d),对于每个令牌:
Figure BDA0004113808390000111
Figure BDA0004113808390000112
分别获得两个LSTM隐藏状态。然后,每个令牌的表示由其左至右上下文
Figure BDA0004113808390000113
其初始嵌入et以及其右至左上下文
Figure BDA0004113808390000114
组成。然后,采用tanh激活来获得反馈给RCNN的卷积部分的表示:
Figure BDA0004113808390000115
具有针对每个令牌
Figure BDA0004113808390000116
的递归表示,然后应用最大池化层来提取描述的全文之上的主要递归特征,即:
Figure BDA0004113808390000117
其中max表示逐元素最大函数。池化层允许在所有令牌上获得统一的向量表示,捕捉该文本模态中最重要的潜在因素。
应用第一类型的机器学习编码器,诸如RCNN,产生针对描述模态的潜在表示hd(即,编码)。
模式模态:第二类型的机器学习编码器可以被操作用于对模式模态的令牌序列进行编码。这样的类型的机器学习编码器可以是特别适合于处理和表示无序系列令牌的编码器—每个模态标签可以被认为是无序系列令牌。例如,这可以是多层感知器(MLP),对于该MLP,模式可以被建模为令牌序列的无序集合(每模态标签的序列),其中特殊<eoc>令牌将连续的标签序列分开。为了捕获潜在的标签内和标签间关系,可以首先在每个令牌嵌入上应用两个完全连接的层,如下:
Figure BDA0004113808390000118
Figure BDA0004113808390000119
然后,可以连接所有隐藏状态
Figure BDA00041138083900001110
的序列。最后,模式的潜在表示(即,编码)hs可以通过首先应用第三全连接层并且然后应用tanh激活来获得,即:
Figure BDA0004113808390000121
合适的机器学习编码器的另一示例是变换器模型。变换器被设计为处理数据的有序序列,诸如自然语言。然而,与递归网络不同,变压器不需要顺序处理序列。所以,如果所讨论的数据(模式的每个标签)是自然语言,则变换器不需要在其处理末端之前处理标签的开始。
行和列模态:可以单独操作第三类型的机器学习编码器,用于对行模态的令牌序列和列模态的令牌序列进行编码。该类型的机器学习编码器可以是特别适合于多维输入的编码器。例如,这可以是3D-CNN。具有这些模态的每个令牌以及特殊<eoc>和<eor>令牌的E-维度嵌入,每个模态的令牌序列本质上是三维矩阵:一个维度对应于由嵌入投影的潜在维度,第二维度对应于令牌在序列内的位置,以及第三维度对应于由<eoc>和<eor>令牌发信号通知的结构。
给定用于这两种模态中的每一种的令牌序列,可以通过对该单元格内的嵌入求平均值来提取与该行或列中的每个数据单元格相关联的令牌的嵌入;即,在行的情况下在每个相邻的<eoc>令牌之间水平地,并且在列的情况下在每个相邻的令牌<eor>之间垂直地。然后,可以通过观看每个潜在特征作为具有x∈{1,...,E}嵌入特征、y∈{1,...,M}列和z∈{1,...,N}行的条目(x,y,z)来提取三维矩阵。通过扁平化输入的3D表示并且将其乘以扁平的3D滤波器,3D卷积层的应用可以被视为规则的2D矩阵乘法。在第l层中的第f特征映射上的位置(x,y,z)处的值是:
Figure BDA0004113808390000122
其中Pl,Ql,Rl是沿着三维的核大小,
Figure BDA0004113808390000123
是第(l-1)层中的第f特征的第(p,q,s)值,并且blf是第l层的在第f特征映射上的偏置。
在该示例性3D-CNN架构中,应用具有ReLU激活和最大池化(如上所定义的)的三个卷积层以获得用于行(hr)和列(hc)模态的潜在表示(编码)。
接下来,在步骤208中,诸如通过将机器学习门控机制应用于这些单独编码的模态来执行所有模态的潜在表示(hd,hs,hr,hc)的多模态编码,以产生表格(hT)的融合编码。”d”
例如,门控机制可以包括GMU(参见J.Arevalo et al.,“Gated Multimodal Unitsfor Information Fusion,”in the 5th International Conference on LearningRepresentations(ICLR),Toulon,France,April2017)。GMU接收潜在表示(hd,hs,hr,hc)作为输入(为简单起见,在本文中被表示为m1、m2、m3和m4),然后,使用其原始表示
Figure BDA0004113808390000131
的独立编码,计算每个模态的中间表示
Figure BDA0004113808390000132
然后使用控制对联合表示(编码)hGMU的每一个的贡献的门神经元(z)来组合这些中间表示。GMU的形式定义如下:
Figure BDA0004113808390000133
Figure BDA0004113808390000134
Figure BDA0004113808390000135
hGMU=h⊙z,
其中mi是第i模态并且⊙表示逐元素乘法。
在步骤208之后,可以在IR系统的索引中存储对表格(在此给出的具体示例中的hT或hGMU)的融合编码。
值得注意的是,方法200的步骤可以针对每个包含表格的文档重复,文档期望包括在IR系统上的索引中。例如,如果IR系统是对万维网上的文档进行索引的互联网搜索引擎,则搜索引擎可以在每次它检测到它尝试进行索引的文档中的表格时采用方法200;搜索引擎可以使用方法200对表格进行索引,并且使用搜索引擎的常规索引技术(其不面向表)对文档的剩余部分进行索引。索引并搜索特定语料库的任何类型的组织IR系统或者IR系统可以根据相同的原理进行操作。
现在参见图4,其示出了示例性IR系统400的框图,该IR系统400利用由方法200(图2)产生的融合表格编码来增强其查询应答。根据某些实施例,所讨论的IR系统400的操作将被认为是一种用于信息取回和/或表格取回的方法。IR系统400可以包括以上关于系统100(图1)讨论的硬件和/或软件组件中的一些或全部。在实施例中,系统100(图1)和IR系统400(图4)可以由单个系统实现,该单个系统被称为IR系统、索引和搜索系统等。
IR系统400包括存储包括在文档中的不同表格的融合表格编码的索引402,该文档是该系统被分派索引和搜索的任务的语料库的一部分。
响应于在IR系统400处接收到搜索查询404,该系统可以以与图2的步骤204和206中的描述模态的处理相似的方式处理查询(q),因为该查询被相似地假定为以自然语言书写:该查询可以首先被令牌化和嵌入,并且然后用第一类型的机器学习编码器(相同的机器学习编码器用于对描述模态进行编码)进行单模态编码。例如,这可以是与图2的步骤206相同的RCNN编码器。查询的单模态编码产生其潜在表示hq
接下来,IR系统400可以基于经编码的查询(hq)在存储在其索引中的融合表格编码中进行搜索,并且返回搜索结果406。由于表格的多模态编码,以及其中用于标记表格的结构的特殊令牌,IR系统400可以选择性地仅返回表格的一个或多个相关部分(例如,数据单元),而不是表格的全部内容(除非查询特别要求所有内容)。例如,参见图3中所示的表格,如果查询是“澳大利亚的人口是多少”,则IR系统400可以返回“41,261,000”,这是“澳大利亚”行和“人口”标签的交叉处的数据单元。相似地,如果查询是“所有大陆的组合面积是多少”,则IR系统400可以计算表格的最右列中的数据单元的合计,并且返回“150,278,00km2”。换言之,包含在相关表格的单个相关数据单元或几个相关数据单元中的信息可以作为搜索结果返回。
备选地,可以响应于搜索查询返回整个表格或者甚至整个表格的排序列表。虽然整个表格可能不提供对用户意图的特定回答,而是要求他或她读取表格以便找到相关信息,但是本技术仍可以是有益的,因为它以与查询高度相关的方式取回正确的表格或正确地对表格的列表进行排序。
实验结果
本多模态表格编码技术(图2)及其相关联的IR系统操作(图4)相对于各种现有技术的表格取回技术进行测试,以评估多模态表格编码对表格取回性能的贡献。
在Wikitables语料库(C.S.Bhagavatula et al.,“Methods for Exploring andMining Tables on Wikipedia,”in Proceedings of IDEA’13,Chicago,IL,USA,2013;andC.S.Bhagavatula et al.,“TabEL:Entity Linking in Web Tables,”in Proceedings ofThe 14th International Semantic Web Conference,2015)上进行第一实验,其包括从Wikipedia、The Free Encyclopedia提取的大约160万个表格。对于每个表格,语料库还包括其Wikipedia文章标题、章节标题和说明文字。
第一实验评估了本技术在基于由S.Zhang et al.,“Ad Hoc Table Retrievalusing Semantic Similarity,”in Proceedings of the Web Conference 2018,April2018提出的60个专门查询的池来取回相关表格信息中的性能。本技术用于对Wikitables语料库进行索引,然后对索引执行60个专门查询(参考IR系统400,以上面描述的方式处理每一个查询)。
性能评估包括了将通过本技术取回的表格信息与由Zhang(2018)定义的基础事实进行比较,Zhang(2018)手动将语料库中的每个表格标注为与60个查询中的每一个无关(等级0)、与60个查询中的每一个相关(等级1)、或者与60个查询中的每一个高度相关(等级2)。值得注意的是,Zhang(2018)的工作限于响应于查询而取回整个表格,并且不解决仅取回直接回答查询的部分表格数据(例如,单个数据单元)的任务。因此,在第一个实验中仅评估了本技术以取回相关表格的能力。
本技术相对于七种现有技术表格取回技术的性能呈现在表3中。使用截止k∈{5,10}的精度(P)、截止k∈{5,10,20}的归一化不连续增益(NDCG)和平均精度(MAP)来评估表格取回质量。由国家标准和技术研究所(National Institute of Standards andTechnology)在https://trec.nist.gov/trec_eval(2020年5月25日最后查看)提供的“trec_eval”工具用于计算本技术的各种评估措施,并且其他七项技术的公开可用的TREC文件(通过“trec_eval”工具)被下载并且用于填充以下表格中的相应行。
方法 P@5 P@10 N@5 N@10 N@20 MAP
单字段 47.33 42.17 47.81 49.27 55.22 39.86
多字段 54.00 46.50 54.13 55.92 61.15 44.77
NRM-F 52.28 45.79 54.17 58.82 64.97 48.39
LTR 52.67 45.17 55.27 54.56 60.31 41.12
STR 58.33 53.67 59.51 62.93 68.25 51.41
T2VW 56.67 50.67 59.74 60.96 65.05 46.75
T2VE 55.00 47.00 56.02 55.69 61.61 41.76
本技术 64.56 56.49 66.31 68.13 73.70 60.58
表3
“单字段(Single-field)”是由M.Cafarella et al.,“WebTables:Exploring thePower of Tables on the Web,”VLDB’08,Auckland,New Zealand,2008提出的技术,其表示单字段文本文档内的所有表格属性。使用BM25相似性对文档进行评分。
“多字段(Multi-field)”是由R.Pimpikar et al.,“Answering Table Querieson the Web using Column Keywords,”in Proceedings of the VLDB Endowment(PVLDB),Vol.5,No.10,pp.908-919(2012)提出的技术,其将表格表示为多字段文档,使每个表格属性保持在不同的字段内并且使用BM25相似性评分。
“NRM-F”是H.Zamani et al.,“Neural Ranking Models with MultipleDocument Fields,”in Proceedings of WSDM’18,Los Angeles,CA,USA(2018)提出的技术,其充当应用于本任务的重要的多字段文档取回备选方案。为此,每个表格属性被再次视为文本字段。由于这样的方法的代码不是公开可获得的,所以它是通过紧跟其公开的论文来实现的。
“LTR”是由Zhang(2018)提出的一种技术,该技术实施使用不同查询、表格和查询表格特征(总计18)训练的逐点排序学习(learning-to-rank,LTR)方法。
“STR”是Zhang(2018)提出的另一种技术,该技术扩展LTR具有16个另外的语义表相似性特征:概念包、实体包、字和图嵌入(使用各种的早期和晚期融合策略计算)。
“T2VW”和“T2VE”是由L.Deng et al.,“Table2Vec:Neural Word and EntityEmbeddings for Table Population and Retrieval,”in Proceedings of SIGIR 2019,July 2019提出的技术,其用从在表格中出现的词(在T2VW中)或实体(在T2VE中)学习的Table2Vec(T2V)嵌入,扩展LTR特征集。
如表3中所示,本技术比这七种现有技术的表格取回技术表现得好得多。
在具体为该实验生成的语料库上进行第二实验,其包含从Wikipedia、The FreeEncyclopedia提取的约75,000个表格。对于每个表格,该语料库还包括其Wikipedia文章标题、章节标题和说明文字-如在Wikitables表格中。这些表伴随有610个自然语言查询的集合,这些自然语言查询各自具有单个表格作为正确答案。对于每个查询,这些表格分别被标记为不相关(等级0)或相关(等级1)。
本技术相对于七种现有技术表格取回技术中的三种的表格的性能呈现在表4中。剩余的四个取回技术未被评估,因为它们的全部特征集不是公开可用的,但是估计当应用于第二实验的特殊语料库时,它们的性能也劣于本技术。
方法 P@5 P@10 N@5 N@10 N@20 MAP
单字段 8.29 4.49 32.34 34.93 36.70 30.91
多字段 8.06 5.03 31.87 35.18 37.59 31.13
NRM-F 12.67 7.12 50.64 53.17 54.47 47.81
本技术 18.26 9.90 69.45 71.98 72.20 63.28
表4
如表4中所见,当在第二实验的特殊语料库上测试时,本技术也比这三种现有技术表格取回技术表现得更好。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或者,多个介质)。
计算机可读存储介质可以是可以驻留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、其上记录有指令的机械编码设备、以及上述各项的任何合适的组合。如本文中所使用的计算机可读存储介质不应被解释为暂态信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。相反,计算机可读存储介质是非瞬态(即,非易失性)介质。
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任何组合编写的源代码或目标代码,这些编程语言包括面向对象的编程语言(如Java、Smalltalk、C++等)和常规的过程编程语言(如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或者其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的(多个)逻辑功能的一个或多个可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
数值范围的描述应当被认为已具体公开了所有可能的子范围以及该范围内的单个数值。例如,从1至6的范围的描述应当被认为已具体公开了子范围,如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等,以及该范围内的单个数字,例如1、2、3、4、5和6。无论范围的宽度如何,这都适用。
已出于说明的目的呈现了本发明的各种实施方式的描述,但是并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域普通技术人员将是显而易见的。本文中所使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims (20)

1.一种方法,包括,自动地:
接收包含表格的电子文档,其中:
所述表格包括:多个行、多个列以及包括列标签或行标签的模式,并且
所述电子文档包括位于所述表格外部的所述表格的描述;
操作单独的机器学习编码器以分别单独地对所述表格的所述描述、所述表格的所述模式、所述表格的所述行中的每一行以及所述表格的所述列中的每一列进行编码,其中:
所述表格的所述模式与分别标记所述列标签或所述行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,
所述表格的所述行中的每一行与标记相应行的每个数据单元的末端的列末端令牌并且与标记相应行的末端的行末端令牌一起被编码,并且
所述表格的所述列中的每一列与标记相应列的每个数据单元的末端的行末端令牌并且与标记相应列的末端的列末端令牌一起被编码;
将机器学习门控机制应用于经编码的所述描述、经编码的所述模式、经编码的所述行以及经编码的所述列,以产生所述表格的融合编码,其中所述融合编码表示所述表格的结构和所述表格的内容两者;以及
在计算机化信息取回系统的索引中存储所述表格的所述融合编码。
2.根据权利要求1所述的方法,其中所述单独的机器学习编码器包括对所述表格的所述描述进行编码的递归卷积神经网络(RCNN)。
3.根据权利要求1所述的方法,其中所述单独的机器学习编码器包括对所述表格的所述模式进行编码的多层感知器(MLP)、或者对所述表格的所述模式进行编码的变换器。
4.根据权利要求1所述的方法,其中所述单独的机器学习编码器包括:
第一三维卷积神经网络(3D-CNN),所述第一3D-CNN对所述表格的所述行进行编码;以及
第二3D-CNN,所述第二3D-CNN对所述表格的所述列进行编码。
5.根据权利要求1所述的方法,其中所述机器学习门控机制包括门控多模态单元(GMU)。
6.根据权利要求1所述的方法,还包括,在对所述描述、所述模式、所述行以及所述列的所述编码之前:
将所述描述、所述模式、所述行以及所述列自动地变换成令牌嵌入。
7.根据权利要求1所述的方法,还包括,自动地:
接收搜索查询;
操作对所述描述进行编码的所述机器学习编码器以对所述搜索查询进行编码;以及
操作所述计算机化信息取回系统,以基于所编码的所述搜索查询来搜索所述索引,并且返回所述表格中的至少一些部分作为搜索结果。
8.根据权利要求7所述的方法,还包括,在对所述搜索查询进行编码之前:
将所述搜索查询自动地变换成一个或多个令牌嵌入。
9.一种系统,包括:
(a)至少一个硬件处理器;以及
(b)非暂态计算机可读存储介质,所述非暂态计算机可读存储介质具有随其体现的程序代码,所述程序代码由所述至少一个硬件处理器可执行以自动地:
接收包含表格的电子文档,其中:
所述表格包括:多个行、多个列以及包括列标签或行标签的模式,并且
所述电子文档包括位于所述表格外部的所述表格的描述;
操作单独的机器学习编码器以分别单独地对所述表格的所述描述、所述表格的所述模式、所述表格的所述行中的每一行以及所述表格的所述列中的每一列进行编码,其中:
所述表格的所述模式与分别标记所述列标签或所述行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,
所述表格的所述行中的每一行与标记相应行的每个数据单元的末端的列末端令牌并且与标记相应行的末端的行末端令牌一起被编码,并且
所述表格的所述列中的每一列与标记相应列的每个数据单元的末端的行末端令牌并且与标记相应列的末端的列末端令牌一起被编码;
将机器学习门控机制应用于经编码的所述描述、经编码的所述模式、经编码的所述行以及经编码的所述列,以产生所述表格的融合编码,其中所述融合编码表示所述表格的结构和所述表格的内容两者;以及
在计算机化信息取回系统的索引中存储所述表格的所述融合编码。
10.根据权利要求9所述的系统,其中所述单独的机器学习编码器包括对所述表格的所述描述进行编码的递归卷积神经网络(RCNN)。
11.根据权利要求9所述的系统,其中所述单独的机器学习编码器包括对所述表格的所述模式进行编码的多层感知器(MLP)、或者对所述表格的所述模式进行编码的变换器。
12.根据权利要求9所述的系统,其中所述单独的机器学习编码器包括:
第一三维卷积神经网络(3D-CNN),所述第一3D-CNN对所述表格的所述行进行编码;以及
第二3D-CNN,所述第二3D-CNN对所述表格的所述列进行编码。
13.根据权利要求9所述的系统,其中所述机器学习门控机制包括门控多模态单元(GMU)。
14.根据权利要求9所述的系统,其中所述程序代码进一步由所述至少一个硬件处理器可执行以,在对所述描述、所述模式、所述行以及所述列的所述编码之前:
将所述描述、所述模式、所述行以及所述列自动地变换成令牌嵌入。
15.根据权利要求9所述的系统,其中所述程序代码进一步由所述至少一个硬件处理器可执行以自动地:
接收搜索查询;
操作对所述描述进行编码的所述机器学习编码器以对所述搜索查询进行编码;以及
操作所述计算机化信息取回系统,以基于所编码的所述搜索查询来搜索所述索引,并且返回所述表格中的至少一些部分作为搜索结果。
16.根据权利要求15所述的系统,其中所述程序代码进一步由所述至少一个硬件处理器可执行以,在对所述搜索查询进行编码之前:
将所述搜索查询自动地变换成一个或多个令牌嵌入。
17.一种计算机程序产品,所述计算机程序产品包括非暂态计算机可读存储介质,所述非暂态计算机可读存储介质具有随其体现的程序代码,所述程序代码由至少一个硬件处理器可执行以:
接收包含表格的电子文档,其中:
所述表格包括:多个行、多个列以及包括列标签或行标签的模式,并且
所述电子文档包括位于所述表格外部的所述表格的描述;
操作单独的机器学习编码器以分别单独地对所述表格的所述描述、所述表格的所述模式、所述表格的所述行中的每一行以及所述表格的所述列中的每一列进行编码,其中:
所述表格的所述模式与分别标记所述列标签或所述行标签中的每一个的末端的列末端令牌或行末端令牌一起被编码,
所述表格的所述行中的每一行与标记相应行的每个数据单元的末端的列末端令牌并且与标记相应行的末端的行末端令牌一起被编码,并且
所述表格的所述列中的每一列与标记相应列的每个数据单元的末端的行末端令牌并且与标记相应列的末端的列末端令牌一起被编码;
将机器学习门控机制应用于经编码的所述描述、经编码的所述模式、经编码的所述行以及经编码的所述列,以产生所述表格的融合编码,其中所述融合编码表示所述表格的结构和所述表格的内容两者;以及
在计算机化信息取回系统的索引中存储所述表格的所述融合编码。
18.权利要求17的计算机程序产品,其中所述单独的机器学习编码器包括:
对所述表格的所述描述进行编码的递归卷积神经网络(RCNN);
对所述表格的所述模式进行编码的多层感知器(MLP)、或者对所述表格的所述模式进行编码的变换器;
第一三维卷积神经网络(3D-CNN),所述第一3D-CNN对所述表格的所述行进行编码;以及
第二3D-CNN,所述第二3D-CNN对所述表格的所述列进行编码。
19.权利要求17的计算机程序产品,其中所述机器学习门控机制包括门控多模态单元(GMU)。
20.权利要求17的计算机程序产品,其中所述程序代码进一步由所述至少一个硬件处理器可执行以自动地:
接收搜索查询;
操作对所述描述进行编码的所述机器学习编码器以对所述搜索查询进行编码;以及
操作所述计算机化信息取回系统,以基于所编码的所述搜索查询来搜索所述索引,并且返回所述表格中的至少一些部分作为搜索结果。
CN202180060802.XA 2020-07-15 2021-07-04 用于信息取回系统的多模态表格编码 Pending CN116209992A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/929,194 US11687514B2 (en) 2020-07-15 2020-07-15 Multimodal table encoding for information retrieval systems
US16/929,194 2020-07-15
PCT/IB2021/055987 WO2022013675A1 (en) 2020-07-15 2021-07-04 Multimodal table encoding for information retrieval systems

Publications (1)

Publication Number Publication Date
CN116209992A true CN116209992A (zh) 2023-06-02

Family

ID=79554316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180060802.XA Pending CN116209992A (zh) 2020-07-15 2021-07-04 用于信息取回系统的多模态表格编码

Country Status (3)

Country Link
US (1) US11687514B2 (zh)
CN (1) CN116209992A (zh)
WO (1) WO2022013675A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220309578A1 (en) * 2021-03-23 2022-09-29 Zensar Technologies Limited System and method for autonomously generating service proposal response

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804677B2 (en) * 2001-02-26 2004-10-12 Ori Software Development Ltd. Encoding semi-structured data for efficient search and browsing
WO2003014977A1 (en) * 2001-08-10 2003-02-20 Datavine Research Services Method and apparatus for access, integration and analysis of heterogeneous data sources via the manipulation of metadata objects
US20040194009A1 (en) * 2003-03-27 2004-09-30 Lacomb Christina Automated understanding, extraction and structured reformatting of information in electronic files
US8886617B2 (en) 2004-02-20 2014-11-11 Informatica Corporation Query-based searching using a virtual table
US7590647B2 (en) * 2005-05-27 2009-09-15 Rage Frameworks, Inc Method for extracting, interpreting and standardizing tabular data from unstructured documents
US20120011115A1 (en) 2010-07-09 2012-01-12 Jayant Madhavan Table search using recovered semantic information
CA2716982C (en) 2010-10-06 2016-07-19 Ibm Canada Limited - Ibm Canada Limitee Digital signatures on composite resource documents
US9292789B2 (en) * 2012-03-02 2016-03-22 California Institute Of Technology Continuous-weight neural networks
US9390115B2 (en) * 2013-10-11 2016-07-12 Oracle International Corporation Tables with unlimited number of sparse columns and techniques for an efficient implementation
US10127315B2 (en) 2014-07-08 2018-11-13 Microsoft Technology Licensing, Llc Computing features of structured data
US20190065502A1 (en) 2014-08-13 2019-02-28 Google Inc. Providing information related to a table of a document in response to a search query
CN104516719B (zh) 2014-12-16 2017-03-22 南京大学 一种基于令牌的支持并发侧面编程的bpel扩展实现方法
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US9454524B1 (en) * 2015-12-04 2016-09-27 Adobe Systems Incorporated Determining quality of a summary of multimedia content
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
US10157309B2 (en) * 2016-01-14 2018-12-18 Nvidia Corporation Online detection and classification of dynamic gestures with recurrent convolutional neural networks
US10339179B2 (en) 2016-04-11 2019-07-02 Oracle International Corporation Graph processing system that can define a graph view from multiple relational database tables
US10810472B2 (en) * 2017-05-26 2020-10-20 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
US11645835B2 (en) * 2017-08-30 2023-05-09 Board Of Regents, The University Of Texas System Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications
US20190325045A1 (en) 2018-04-20 2019-10-24 Hewlett-Packard Development Company, L.P. Schema data structure

Also Published As

Publication number Publication date
US11687514B2 (en) 2023-06-27
US20220043794A1 (en) 2022-02-10
WO2022013675A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
EP3896581A1 (en) Learning to rank with cross-modal graph convolutions
US9009134B2 (en) Named entity recognition in query
Belwal et al. A new graph-based extractive text summarization using keywords or topic modeling
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
Kowalski Information retrieval architecture and algorithms
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
US9575947B2 (en) System and method of automatically mapping a given annotator to an aggregate of given annotators
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN111552766B (zh) 使用机器学习来表征在引用图形上应用的参考关系
US20240126827A1 (en) Transferable Neural Architecture for Structured Data Extraction From Web Documents
CN116209992A (zh) 用于信息取回系统的多模态表格编码
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
Parameswaran et al. Optimal schemes for robust web extraction
CN109582958B (zh) 一种灾难故事线构建方法及装置
Wu Automating Knowledge Distillation and Representation from Richly Formatted Data
US8875007B2 (en) Creating and modifying an image wiki page
Martin et al. LLMs, Embeddings and Indexing Pipelines to Enable Natural Language Searching on Upstream Datasets
CN114662480B (zh) 同义标签判断方法、装置、计算机设备和存储介质
CN118503454B (zh) 一种数据查询方法、设备、存储介质及计算机程序产品
CN117633197B (zh) 应用于释义文档的检索信息生成方法、装置和电子设备
US20240256840A1 (en) Storing entries in and retrieving information from an object memory
Cheng et al. Retrieving Articles and Image Labeling Based on Relevance of Keywords
TANVIR Design and Implementation of an Efficient Web Crawling
Agbogun et al. A Prototype Machine Learning Algorithm and Its Possible Application to Information Extraction of Structured Academic Data from Unstructured Web Documents
Deng Breaking Down Data Barriers: Knowledge Discovery and Natural Language Interfaces for Heterogeneous Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination