[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113761137B - 一种提取地址信息的方法及装置 - Google Patents

一种提取地址信息的方法及装置 Download PDF

Info

Publication number
CN113761137B
CN113761137B CN202010491275.5A CN202010491275A CN113761137B CN 113761137 B CN113761137 B CN 113761137B CN 202010491275 A CN202010491275 A CN 202010491275A CN 113761137 B CN113761137 B CN 113761137B
Authority
CN
China
Prior art keywords
address
text
segmentation
information
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010491275.5A
Other languages
English (en)
Other versions
CN113761137A (zh
Inventor
王潇斌
丁瑞雪
刘楚
徐光伟
马春平
龙定坤
谢朋峻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010491275.5A priority Critical patent/CN113761137B/zh
Publication of CN113761137A publication Critical patent/CN113761137A/zh
Application granted granted Critical
Publication of CN113761137B publication Critical patent/CN113761137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提取地址信息的方法及装置,涉及计算机技术领域,本发明的主要目的在于从对话文本中提取正确有效的地址信息。本发明主要的技术方案为:基于对话文本确定地址信息的待提取文本;对所述待提取文本进行分词,得到第一地址分词;以及,利用预设词典识别所述待提取文本中的第二地址分词;将所述第一地址分词与第二地址分词按照行政级别进行整合,得到所述对话文本对应的地址信息。

Description

一种提取地址信息的方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种提取地址信息的方法及装置。
背景技术
随着互联网技术的迅速发展,网络成为地理信息的最大聚集处,互联网地理信息已经进入大数据时代,未来10年至少80%以上的人机交互文本数据涉及地理信息,互联网将成为不断更新的大型地理信息数据库,如何将这些地理信息挖掘出并应用到地理信息服务中是主要问题。地名地址数据是最常用的社会公共信息资源,与大众的日常生活紧密相关,同时,地名地址信息也是政府基础行政管理的基础资源。将地名地址信息提取并标准化,使其转化为地理信息服务的基础成果,为大众的生产生活提供支撑,已成为一项迫切的需要。
现有的地理位置信息挖掘算法主要是利用关键字匹配的方法,由于在互联网环境下,特别是在对话场景下获取的文本中的地名地址信息存在描述错误、不准确、同音字、不够标准等问题,所以基于关键字匹配的位置信息挖据算法准确率较低,不足以满足各行各业对地理信息的要求。
发明内容
鉴于上述问题,本发明提出了一种提取地址信息的方法及装置,主要目的在于从对话文本中提取正确有效的地址信息。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种提取地址信息的方法,具体包括:
基于对话文本确定地址信息的待提取文本;
对所述待提取文本进行分词,得到第一地址分词;以及,利用预设词典识别所述待提取文本中的第二地址分词;
将所述第一地址分词与第二地址分词按照行政级别进行整合,得到所述对话文本对应的地址信息。
优选的,基于对话文本确定地址信息的待提取文本,包括:
获取所述对话文本中的一组或多组问答信息对;
将所述问答信息对中问题信息与答复信息进行组合,生成所述待提取文本。
优选的,将所述问答信息对中问题信息与答复信息进行组合,生成所述待提取文本,包括:
确定所述问题信息中的疑问词;
将所述答复信息替换问题信息中的疑问词,得到所述待提取文本。
优选的,对所述待提取文本进行分词,得到第一地址分词,包括:
对所述待提取文本进行分词,获得地址分词;
利用预设规则判断所述地址分词是否正确;
若存在错误,则修改所述地址分词,以得到第一地址分词;
若不存在错误,则使用所述地址分词作为第一地址分词。
优选的,利用预设规则判断所述地址分词是否正确,包括:
利用MMSEG分词算法以及地名词典判断所述地址分词的切分是否正确。
优选的,将所述第一地址分词与第二地址分词按照行政级别进行整合,包括:
将所述第一地址分词与第二地址分词进行去重处理;
对去重处理后的地址分词按照行政级别进行排序;
将排序后的地址分词组合成地址信息。
另一方面,本发明提供一种提取地址信息的装置,具体包括:
确定单元,用于基于对话文本确定地址信息的待提取文本;
分词单元,用于对所述待提取文本进行分词,得到第一地址分词;
识别单元,用于利用预设词典识别所述确定单元确定的待提取文本中的具有行政级别的第二地址分词;
生成单元,用于将所述分词单元得到的第一地址分词与识别单元得到的第二地址分词按照行政级别进行整合,得到所述对话文本对应的地址信息。
优选的,所述确定单元包括:
获取模块,用于获取所述对话文本中的一组或多组问答信息对;
生成模块,用于将所述获取模块得到的问答信息对中问题信息与答复信息进行组合,生成所述待提取文本。
优选的,所述生成模块具体用于,确定所述问题信息中的疑问词;将所述答复信息替换问题信息中的疑问词,得到所述待提取文本。
优选的,所述分词单元包括:
分词模块,用于对所述待提取文本进行分词,获得地址分词;
判断模块,用于利用预设规则判断所述提取模块提取的地址分词是否正确;
修正模块,用于若所述判断模块确定存在错误,则修改所述地址分词,以得到第一地址分词;
确定模块,用于若所述判断模块确定不存在错误,则使用所述地址分词作为第一地址分词。
优选的,所述判断模块具体用于,利用MMSEG分词算法以及地名词典判断所述地址分词的切分是否正确。
优选的,所述生成单元包括:
去重模块,用于将所述第一地址分词与第二地址分词进行去重处理;
排序模块,用于对由所述去重模块去重处理后的地址分词按照行政级别进行排序;
组合模块,用于将所述排序模块排序后的地址分词组合成地址信息。
另一方面,本发明提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的提取地址信息的方法。
借由上述技术方案,本发明提供的一种提取地址信息的方法及装置,主要是针对对话文本而设计的地址信息提取方法与装置,基于对话文本具有语言表述简练的特点,本发明实施例通过对对话文本的处理,先确定提取地址信息的待提取文本,再通过分词与预设词典分别获取其中所含有的地址分词,最后将得到的地址分词按照行政级别整合为正确有效的地址信息进行输出。相对于现有采用模型或使用词典获取地址信息的方式,在对表述简练的对话文本识别时,使用现有的识别模型难以标注出其中地址分词,并且对所识别出的地址分词也难以判断识别的准确性,无法确保其得到的地址信息的有效性,而本发明实施例通过使用分词与预设词典进行互补识别,避免出现识别错误,从而更有效地对待提取文本中的地址分词进行提取,并按照顺序进行组合,得到有效可用的地址信息。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种提取地址信息的方法的流程图;
图2示出了本发明实施例提出的另一种提取地址信息的方法的流程图;
图3示出了本发明实施例提出的一种提取地址信息的装置的组成框图;
图4示出了本发明实施例提出的另一种提取地址信息的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供的一种提取地址信息的方法,该方法针对对话场景下所采集的问答信息进行地址信息提取方式进行优化与改进。本方法具体步骤如图1所示,该方法包括:
步骤101、基于对话文本确定地址信息的待提取文本。
本发明实施例中的对话文本是指基于对话场景所采集的问答信息,比如,在报警电话的对话中,报警人需要通过对话告知接警人其所在位置,还有各类的客服系统,如投诉来电、查询来电等,都需要通过从对话的问答信息中获取客户的地址信息。
由于对话文本多是基于语音转换得到的,而在对话场景下的语言表述大多比较简略,因此,基于对话场景得到的对话文本多是不具有完整语义表述的句子,而这就使得传统的地址识别方式不能有效正确地识别出对话文本中的地址信息。而本步骤就是先对对话文本进行处理,使得处理后的文本具有被识别的可能。在本实施例中,确定待提取文本的具体方式可以是将对话文本按照问答对进行分组,也可以是对部分的问答信息进行过滤,比如删除表述过于简略的答复信息等。
本步骤的目的是通过处理对话文本获取更便于识别的待提取文本,从而提高地址信息的识别效率。
步骤102、对待提取文本进行分词,得到第一地址分词。
由于对话文本经过处理后得到的待提取文本具有了较为完整的语义表述,因此,本步骤可通过分词提取该待提取文本中的地址分词,其中,对于分词与地址词的识别可以使用现有的地址识别模型获取第一地址分词,比如,使用基于公开新闻语料标注的样本训练出的地址识别模型。
通过地址识别模型可以标注出所输入的待提取文本中可能的地址分词,将这些地址分词定义为第一地址分词。
步骤103、利用预设词典识别待提取文本中的第二地址分词。
其中,本发明实施例中的预设词典为根据具体应用需求而设置的地名词典,该地名词典中所记录是具有行政级别的地名,这些地名在规范表述时,其地名后一般都附有对应行政级别的地址词,比如国家、省、市、区/县、街道等。利用预设词典可以对待提取文本中的这类地址分词进行快速匹配,从而得到第二地址分词。
需要说明的是,本步骤与上一步骤102之间不存在逻辑上的先后关系。并且对于使用预设词典进行地址分词匹配的具体方式本步骤不做具体限定。
步骤104、将第一地址分词与第二地址分词按照行政级别进行整合,得到对话文本对应的地址信息。
本步骤是将上述分别通过分词与预设词典识别出的两组地址分词进行组合,得到符合地址表述规律的地址信息。本实施例中,是按照行政级别的顺序对地址分词进行排列组合,从而得到有效的地址信息。需要说明的是,将第一地址分词与第二地址分词进行整合后,得到的地址信息可以是一个,也可以是多个。比如,当同一行政级别的地址分词为多个时,就可以确定从待提取文本中可以得到多组的地址信息。
通过对上述实施例的说明可知,本发明实施例所提供的一种提取地址信息的方法,需要先将对话文本处理为待提取文本,以此克服对话信息中存在语义表述简略、文本转化错误等问题,再分别应用地址识别模型与预设的地名词典分别对待提取文本进行地址分词的提取,之后将两者得到的地址分词按照行政级别进行整合,得到可识别且有效的地址信息。相对于现有的地址信息识别方式,本发明实施例能够针对于对话场景所得到的对话文本进行的有效地地址识别,从对话文本中准确快速地提取出有效的地址信息。
进一步的,针对上述图1所述的提取地址信息的方法,本发明实施例将详细说明针对对话文本的具体处理过程以及地址信息的整合方式,其具体步骤包括:
步骤201、获取对话文本中的一组或多组问答信息对。
本实施例中,一组问答信息对包括一条问题信息与对应的答复信息。具体的,基于对话文本识别其中的问题信息与答复信息的方式,可以通过语义识别的方式实现。其中,一条问题信息所对应的答复信息不限定于一条或多条信息。
在实际应用中,对话文本多是基于某一主题进行的多组问答,仅通过一组问答信息对无法获取充足的地址信息,因此,通过对多组问答信息对的同步分析可以更全面地获取地址信息的内容。
步骤202、将问答信息对中问题信息与答复信息进行组合,生成待提取文本。
其中,将问题信息与答复信息进行组合的目的是为了提高待提取文本的语义信息。这是因为现有的地址识别模型对所输入的语句需要有一定的上下文关系,即所标注的地址分词需要根据语句中的上下文关系进行标注,如果语义信息过少,就会导致语句缺乏上下文关系,从而导致地址识别模型无法有效地标注地址分词。比如,一度问答信息对为:问题:“你在哪里?”,回答:“杭州”,如果仅从答复的信息看,由于其缺少相关的上下文,将导致地址识别模型难以识别或识别不准确。因此,本实施例中针对此种情况对问答信息对进行组合处理后,得到新的待提取文本。
具体的,本实施例的一种组合方式为:先确定问题信息中的疑问词,之后,将答复信息的内容替换掉问题信息中的疑问词,从而得到待提取文本。其中,确定疑问词的方式可以通过匹配预设的疑问词实现,比如,对于问题:“你在哪里?”,经过匹配可以确定该句中的疑问词为“哪里”,那么,经过组合后得到的待提取文本为:“你在杭州。”再比如“问题:你近十四天去过哪些城市?回答:武汉。”经过组合后变成“你近十四天去过武汉。”
步骤203、对所述待提取文本进行分词,得到第一地址分词。
经过上述步骤处理后的待提取文本,本实施例中可以应用已有的地址识别模型标注其中的地址分词。使用已有的地址识别模型,如基于公开新闻语料标注的样本训练出的地址识别模型,这是因为这类模型的训练样本充足,对于对话数据而言,由于用户隐私的问题,难以采集大规模的标注样本来训练模型,因此,本发明实施例采用了已有的地址识别模型对对话文本进行分词处理,并标注待提取文本中的地址分词,以此来解决该对话数据样本不足的问题。
但是,应用已有的地址识别模型处理待提取文本,只能从文本的表面信息来识别地址分词,并不能依据常识分辨所识别的地址分词中的错误。因此,本步骤在提取待提取文本中的第一地址分词的具体方式为:先利用地址识别模型识别待提取文本中含有的地址分词,即通过分词并标注出可能的地址分词,之后,利用预设规则判断所识别出的地址分词是否正确,若存在错误,则修改对应的地址分词,从而得到第一地址分词,反之,则使用这些地址分词作为第一地址分词。
其中,预设规则可以包括判断地址分词中是否存在重复的分词,是否存在错误地址,以及地址分词顺序是否存在乱序等常见问题。对此,本发明实施例中检测地址分词是否正确的具体实现方式可以为:利用MMSEG分词算法以及地名词典判断地址分词的切分是否正确。MMSEG是一种基于词典的分词算法,以正向最大匹配算法为主,多种消除歧义的规则为辅。其是中文分词中一个常见的分词算法,对于其具体的分词原理与方式本实施例不做具体说明,通过MMSEG分词算法可以判断基于待提取文本所提取出的地址分词是否分词正确,再结合地名词典确定所得到地址分词是否为正确的地名,如此对于所识别出的地址分词就可以识别出是否存在重复问题(比如:从“我家在武汉武汉啊”中提取出“武汉武汉”),地址错误问题(比如:“浙江市、杭州区”等)。再通过对相邻地址分词所对应的行政级别的识别还可以区分出彼此的从属关系,从而发现是否存在乱序问题(比如:从“对,武汉湖北省的”中提取出“武汉湖北省”)。
本步骤在使用现有地址识别模型对待提取文本中的地址分词进行识别的同时,还通过预设规则对所识别出的地址分词进行判断,确定其是否存在问题,若无问题,则继续后续的步骤,而如果存在问题,比如地址分词错误,则需要进行重新识别,以此确保得到准确有效的第一地址分词。
步骤204、利用预设词典识别待提取文本中的第二地址分词。
本步骤是对待提取文本中的具有行政级别的地址分词进行识别,通过地名词典的匹配,可以确保所识别出的地址分词准确。该步骤与图1所示的步骤103的内容相同,此处不再赘述。
步骤205、将第一地址分词与第二地址分词按照行政级别进行整合,得到对话文本对应的地址信息。
由于在所识别的第一地址分词与第二地址分词是采用不同的识别方式对同一待提取文本的识别结果,其存在重复地址分词的可能性,因此,本步骤所执行的地址整合首先是对第一地址分词与第二地址分词进行去重处理,之后,对去重处理后的地址分词按照行政级别进行排序,一般是按照行政级别由高到低排序,根据排序结果组合出最终的地址信息,一般是从同一个行政级别的地址分词中提取出与上一级别的地址分词存在隶属关系的分词进行组合。该地址信息可以是一条或多条,比如,提取的地址分词为“孝感、孝昌、武汉、湖北”,经过排序后为“湖北、武汉、孝感、孝昌、”,再经过组合后,得到的地址信息为:“湖北孝感孝昌”、“湖北武汉”。
进一步的,本发明实施例还可以对所得到的地址信息的有效性进行判断,一般地,一条有效的地址信息是由多个地址分词组合而成的,因此,通过判断地址信息中地址分词的数量可以判断该地址信息是否有效,比如,对于由一个地址分词所构成的地址信息将被认定为无效地址。如此,可以让得到的地址信息具有应用价值,确保地址信息的可用性。
通过对上述实施例各步骤以及对应的图示说明可知,本发明实施例所提出的提取地址信息的方法,是利用已有的地址识别模型结合地名词典对对话场景下产生的对话文本进行地址信息的提取,通过对对话文本的信息补全处理,使得处理后的待提取文本可以使用现有的地址识别模型进行地址分词的标注与识别,同时,本发明实施例还对由地址识别模型所标注出的地址分词进行了二次验证,确保地址分词的正确性与有效性,从而使得最后整合出的地址信息为正确有效的地址信息。最后,本发明实施例还按照已有的使用习惯对所识别出的地址分词进行了整合,输出可以直接使用的地址信息。
综合上述实施例的内容,本发明实施例提出的提取地址信息的方法主要用于从对话文本中提取有效的地址信息,而在互联网普及的当下,本发明还可以应用于对位置辅助判断,比如,在确定人员位置时,除了基于该人员所使用的设备位置信息(Location BasedService,LBS)、设备SIM卡信息进行定位外,还可以应用本发明通过实时通讯的文本信息来进行定位,辅助LBS信息与SIM卡信息进行综合定位,以提高定位准确度。
进一步的,作为对上述图1、2所示方法的实现,本发明实施例提供了一种提取地址信息的装置,该装置主要目的在于从对话文本中提取正确有效的地址信息。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:
确定单元31,用于基于对话文本确定地址信息的待提取文本;
分词单元32,用于对所述确定单元31确定的待提取文本进行分词,得到第一地址分词;
识别单元33,用于利用预设词典识别所述确定单元31确定的待提取文本中的第二地址分词;
生成单元34,用于将所述分词单元32得到的第一地址分词与识别单元33得到的第二地址分词按照行政级别进行整合,得到所述对话文本对应的地址信息。
进一步地,如图4所示,所述确定单元31包括:
获取模块311,用于获取所述对话文本中的一组或多组问答信息对;
生成模块312,用于将所述获取模块311得到的问答信息对中问题信息与答复信息进行组合,生成所述待提取文本。
进一步地,如图4所示,所述生成模块312具体用于,确定所述问题信息中的疑问词;将所述答复信息替换问题信息中的疑问词,得到所述待提取文本。
进一步地,如图4所示,所述分词单元32包括:
分词模块321,用于对所述待提取文本进行分词,获得地址分词;
判断模块322,用于利用预设规则判断所述提取模块321提取的地址分词是否正确;
修正模块323,用于若所述判断模块322确定存在错误,则修改所述地址分词,以得到第一地址分词;
确定模块324,用于若所述判断模块322确定不存在错误,则使用所述地址分词作为第一地址分词。
进一步地,如图4所示,所述判断模块322具体用于,利用MMSEG分词算法以及地名词典判断所述地址分词的切分是否正确。
进一步地,如图4所示,所述生成单元34包括:
去重模块341,用于将所述第一地址分词与第二地址分词进行去重处理;
排序模块342,用于对由所述去重模块341去重处理后的地址分词按照行政级别进行排序;
组合模块343,用于将所述排序模块342排序后的地址分词组合成地址信息。
另外,本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一个实施例提供的提取地址信息的方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的较佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (9)

1.一种提取地址信息的方法,所述方法包括:
基于对话文本确定地址信息的待提取文本;
对所述待提取文本进行分词,得到第一地址分词;以及,利用预设词典识别所述待提取文本中的第二地址分词;所述待提取文本进行分词,得到第一地址分词,包括:对所述待提取文本进行分词,获得地址分词;利用预设规则判断所述地址分词是否正确;若存在错误,则修改所述地址分词,以得到第一地址分词;若不存在错误,则使用所述地址分词作为第一地址分词;
利用预设规则判断所述地址分词是否正确,包括:利用MMSEG分词算法以及地名词典判断所述地址分词的切分是否正确;
将所述第一地址分词与第二地址分词按照行政级别进行整合,得到所述对话文本对应的地址信息。
2.根据权利要求1所述的方法,其特征在于,基于对话文本确定地址信息的待提取文本,包括:
获取所述对话文本中的一组或多组问答信息对;
将所述问答信息对中问题信息与答复信息进行组合,生成所述待提取文本。
3.根据权利要求2所述的方法,其特征在于,将所述问答信息对中问题信息与答复信息进行组合,生成所述待提取文本,包括:
确定所述问题信息中的疑问词;
将所述答复信息替换问题信息中的疑问词,得到所述待提取文本。
4.根据权利要求1所述的方法,其特征在于,将所述第一地址分词与第二地址分词按照行政级别进行整合,包括:
将所述第一地址分词与第二地址分词进行去重处理;
对去重处理后的地址分词按照行政级别进行排序;
将排序后的地址分词组合成地址信息。
5.一种提取地址信息的装置,所述装置包括:
确定单元,用于基于对话文本确定地址信息的待提取文本;
分词单元,用于对所述待提取文本进行分词,得到第一地址分词;所述分词单元包括:分词模块,用于对所述待提取文本进行分词,获得地址分词;判断模块,用于利用预设规则判断所述分词模块提取的地址分词是否正确;修正模块,用于若所述判断模块确定存在错误,则修改所述地址分词,以得到第一地址分词;确定模块,用于若所述判断模块确定不存在错误,则使用所述地址分词作为第一地址分词;
所述判断模块具体用于,利用MMSEG分词算法以及地名词典判断所述地址分词的切分是否正确;
识别单元,用于利用预设词典识别所述确定单元确定的待提取文本中的第二地址分词;
生成单元,用于将所述分词单元得到的第一地址分词与识别单元得到的第二地址分词按照行政级别进行整合,得到所述对话文本对应的地址信息。
6.根据权利要求5所述的装置,其特征在于,所述确定单元包括:
获取模块,用于获取所述对话文本中的一组或多组问答信息对;
生成模块,用于将所述获取模块得到的问答信息对中问题信息与答复信息进行组合,生成所述待提取文本。
7.根据权利要求6所述的装置,其特征在于,所述生成模块具体用于,确定所述问题信息中的疑问词;将所述答复信息替换问题信息中的疑问词,得到所述待提取文本。
8.根据权利要求5所述的装置,其特征在于,所述生成单元包括:
去重模块,用于将所述第一地址分词与第二地址分词进行去重处理;
排序模块,用于对由所述去重模块去重处理后的地址分词按照行政级别进行排序;
组合模块,用于将所述排序模块排序后的地址分词组合成地址信息。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-4中任意一项权利要求所述的提取地址信息的方法。
CN202010491275.5A 2020-06-02 2020-06-02 一种提取地址信息的方法及装置 Active CN113761137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010491275.5A CN113761137B (zh) 2020-06-02 2020-06-02 一种提取地址信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010491275.5A CN113761137B (zh) 2020-06-02 2020-06-02 一种提取地址信息的方法及装置

Publications (2)

Publication Number Publication Date
CN113761137A CN113761137A (zh) 2021-12-07
CN113761137B true CN113761137B (zh) 2024-01-09

Family

ID=78782985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010491275.5A Active CN113761137B (zh) 2020-06-02 2020-06-02 一种提取地址信息的方法及装置

Country Status (1)

Country Link
CN (1) CN113761137B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131867B (zh) * 2022-05-17 2024-05-14 贝壳找房(北京)科技有限公司 房本地址拆分方法、装置、计算机程序产品和存储介质
CN115082919B (zh) * 2022-07-22 2022-11-29 平安银行股份有限公司 一种地址识别方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN109977395A (zh) * 2019-02-14 2019-07-05 北京三快在线科技有限公司 处理地址文本的方法、装置、电子设备及可读存储介质
CN110210020A (zh) * 2019-05-22 2019-09-06 武汉虹信通信技术有限责任公司 通讯地址标准化的系统及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929799B2 (en) * 2017-06-29 2021-02-23 Amazon Technologies, Inc. Identification of inaccurate addresses for package deliveries

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN109977395A (zh) * 2019-02-14 2019-07-05 北京三快在线科技有限公司 处理地址文本的方法、装置、电子设备及可读存储介质
CN110210020A (zh) * 2019-05-22 2019-09-06 武汉虹信通信技术有限责任公司 通讯地址标准化的系统及其方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
前后缀与特征词相结合的地名地址提取;王克永;刘纪平;罗安;王勇;;测绘通报(第02期);全文 *

Also Published As

Publication number Publication date
CN113761137A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN106033416B (zh) 一种字符串处理方法及装置
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN111292751B (zh) 语义解析方法及装置、语音交互方法及装置、电子设备
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN105956053B (zh) 一种基于网络信息的搜索方法及装置
CN108027814B (zh) 停用词识别方法与装置
CN111522901B (zh) 文本中地址信息的处理方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN102253937A (zh) 获取网页中的感兴趣信息的方法及相关装置
CN110866091A (zh) 一种数据检索方法及装置
CN113761137B (zh) 一种提取地址信息的方法及装置
CN110298039B (zh) 事件地的识别方法、系统、设备及计算机可读存储介质
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN107423285B (zh) 一种基于文本规则的公司简称识别方法及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110175219A (zh) 一种k12阶段重复学校识别方法、装置、设备及存储介质
CN108475265B (zh) 获取未登录词的方法与装置
CN111611793B (zh) 数据处理方法、装置、设备及存储介质
CN116956930A (zh) 一种融合规则和学习模型的短文本信息提取方法及系统
CN114238735B (zh) 一种互联网数据智能采集方法
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN110968691B (zh) 司法热点确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant