[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN110807305A - 一种替换关键词的稿件生成方法及系统 - Google Patents

一种替换关键词的稿件生成方法及系统 Download PDF

Info

Publication number
CN110807305A
CN110807305A CN201910963015.0A CN201910963015A CN110807305A CN 110807305 A CN110807305 A CN 110807305A CN 201910963015 A CN201910963015 A CN 201910963015A CN 110807305 A CN110807305 A CN 110807305A
Authority
CN
China
Prior art keywords
manuscript
manuscripts
main body
similar
replacing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910963015.0A
Other languages
English (en)
Inventor
张莹
闫成
周明智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Entertainment Interactive Technology Beijing Co Ltd
Original Assignee
Entertainment Interactive Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Entertainment Interactive Technology Beijing Co Ltd filed Critical Entertainment Interactive Technology Beijing Co Ltd
Priority to CN201910963015.0A priority Critical patent/CN110807305A/zh
Publication of CN110807305A publication Critical patent/CN110807305A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种替换关键词的稿件生成方法及系统。该方法包括:接收用户输入的稿件主旨;从稿件主旨中去掉目标主体关键词,得到待匹配稿件;根据待匹配稿件匹配多篇相似稿件;选择多篇相似稿件中的一篇作为模板稿件;将模板稿件中的每个句子分别替换为从多篇相似稿件中除模板稿件外的稿件中匹配到的相似句子,得到待替换稿件;将待替换稿件中的待替换主体关键词替换为目标主体关键词。本发明可以自学习每篇稿件的撰稿风格,内容丰富,可读性强,跟人类正常的撰稿风格相近,在各行各业都能广泛应用,并且,通过使用该方法,降低了稿件撰写的难度,让普通人也能写出各行各业的专业稿件。

Description

一种替换关键词的稿件生成方法及系统
技术领域
本发明涉及文本处理领域,具体涉及一种替换关键词的稿件生成方法及系统。
背景技术
目前市面上有一些稿件生成方法,是通过人工来定义一些固定的文章模板,进行主体替换来形成稿件,这类稿件只能应用在那些稿件结构比较规范的行业。例如体育行业的比赛报道,在后台制作几个比赛报道稿件的模板,把旧的参赛者、时间、地点、参赛队伍、比分等换成新的信息,就能形成一篇新的比赛报道。
现有的稿件生成方法的缺点在于,套用固定模板生成的稿件,风格统一,比较机械,没有太多的感情,也没有深入的观点阐述,生成的稿件比较死板,一般只能适用于体育、财经、体育等特定行业,不能满足真实的稿件灵活多变的需求。
发明内容
针对上述技术问题,本发明提供一种替换关键词的稿件生成方法及系统。
本发明解决上述技术问题的技术方案如下:一种替换关键词的稿件生成方法,包括:
接收用户输入的稿件主旨;
从所述稿件主旨中去掉目标主体关键词,得到待匹配稿件;
根据所述待匹配稿件匹配多篇相似稿件;
选择所述多篇相似稿件中的一篇作为模板稿件;
将所述模板稿件中的每个句子分别替换为从所述多篇相似稿件中除所述模板稿件外的稿件中匹配到的相似句子,得到待替换稿件;
将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词。
本发明的有益效果是:打破了固定模板的局限,不需要人工来设置固定的稿件模板,可以自学习每篇稿件的撰稿风格,通过替换关键词的方式生成各式各样的稿件,内容丰富,可读性强,跟人类正常的撰稿风格相近,而不是看起来就像是机器生成的稿件,可以不断自主学习各类稿件风格,在各行各业都能广泛应用,并且,通过使用该方法,降低了稿件撰写的难度,让普通人也能写出各行各业的专业稿件。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述从所述稿件主旨中去掉目标主体关键词,具体包括:
通过语义分析从所述稿件主旨中识别目标主体关键词;
去掉所述目标主体关键词。
进一步,所述根据所述待匹配稿件匹配多篇相似稿件,具体包括:
根据所述待匹配稿件,将利用网络爬虫技术从网络爬取的网络数据中匹配多篇相似稿件。
进一步,所述选择所述多篇相似稿件中的一篇作为模板稿件,具体包括:
选择所述多篇相似稿件中与所述待匹配稿件的相似度最高的一篇作为模板稿件。
进一步,所述将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词,具体包括:
通过语义分析从所述稿件主旨中识别待替换主体关键词;
将所述待替换主体关键词替换为空格;
接收用户在空格处录入的目标主体关键词。
为实现上述发明目的,本发明还提供一种替换关键词的稿件生成系统,包括:
接收模块,用于接收用户输入的稿件主旨;
删除模块,用于从所述稿件主旨中去掉目标主体关键词,得到待匹配稿件;
匹配模块,用于根据所述待匹配稿件匹配多篇相似稿件;
选择模块,用于选择所述多篇相似稿件中的一篇作为模板稿件;
第一替换模块,用于将所述模板稿件中的每个句子分别替换为从所述多篇相似稿件中除所述模板稿件外的稿件中匹配到的相似句子,得到待替换稿件;
第二替换模块,用于将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词。
进一步,所述删除模块,具体包括:
第一识别单元,用于通过语义分析从所述稿件主旨中识别目标主体关键词;
删除单元,用于去掉所述目标主体关键词。
进一步,所述匹配模块,具体用于:
根据所述待匹配稿件,将利用网络爬虫技术从网络爬取的网络数据中匹配多篇相似稿件。
进一步,所述选择模块,具体用于:
选择所述多篇相似稿件中与所述待匹配稿件的相似度最高的一篇作为模板稿件。
进一步,所述第二替换模块,具体包括:
第二识别单元,用于通过语义分析从所述稿件主旨中识别待替换主体关键词;
替换单元,用于将所述待替换主体关键词替换为空格;
接收单元,用于接收用户在空格处录入的目标主体关键词。
附图说明
图1为本发明实施例提供的一种替换关键词的稿件生成方法的流程图;
图2为本发明实施例提供的一种替换关键词的稿件生成系统的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种替换关键词的稿件生成方法的流程图,如图1所示,该方法包括:
S1、接收用户输入的稿件主旨;
S2、从所述稿件主旨中去掉目标主体关键词,得到待匹配稿件;
S3、根据所述待匹配稿件匹配多篇相似稿件;
S4、选择所述多篇相似稿件中的一篇作为模板稿件;
S5、将所述模板稿件中的每个句子分别替换为从所述多篇相似稿件中除所述模板稿件外的稿件中匹配到的相似句子,得到待替换稿件;
S6、将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词。
具体的,在用户输入一段要写的稿件主旨后,首先通过语义分析从所述稿件主旨中识别并去掉品牌、产品、人名等目标主体关键词,得到待匹配稿件,然后根据待匹配稿件匹配多篇相似稿件,也就是会通过主旨里面的动词、形容词从网络爬取的的海量稿件里找到主体不一致、事件相似的历史文章。
找到这批相似事件的稿件后,在保留这些文章的前后顺序和逻辑结构不变的情况下,选择所述多篇相似稿件中与所述待匹配稿件的相似度最高的一篇作为模板稿件,把该模版稿件的每个句子都去匹配相似的句子,相当于每一句话都换一个类似的表达,意思不变,说法改变。更换相似句子后的稿件,再把里面的主体关键词去掉变成空格。空格部分就是撰稿人员来填空,撰稿人员根据稿件主旨,把要写的稿件中的主体关键词录入到空格里,形成一篇全新的稿件。
本发明实施例提供的一种替换关键词的稿件生成方法,综合利用了语义分析、自然语言处理技术、相似度匹配算法、以及网络爬虫技术、大数据处理技术,打破了固定模板的局限,不需要人工来设置固定的稿件模板,可以自学习每篇稿件的撰稿风格,通过替换关键词的方式生成各式各样的稿件,内容丰富,可读性强,跟人类正常的撰稿风格相近,而不是看起来就像是机器生成的稿件,可以不断自主学习各类稿件风格,在各行各业都能广泛应用,并且,通过使用该方法,降低了稿件撰写的难度,让普通人也能写出各行各业的专业稿件。
图2为本发明实施例提供的一种替换关键词的稿件生成系统的结构框图,如图2所示,该系统包括:
接收模块,用于接收用户输入的稿件主旨;
删除模块,用于从所述稿件主旨中去掉目标主体关键词,得到待匹配稿件;
匹配模块,用于根据所述待匹配稿件匹配多篇相似稿件;
选择模块,用于选择所述多篇相似稿件中的一篇作为模板稿件;
第一替换模块,用于将所述模板稿件中的每个句子分别替换为从所述多篇相似稿件中除所述模板稿件外的稿件中匹配到的相似句子,得到待替换稿件;
第二替换模块,用于将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词。
可选地,在该实施例中,所述删除模块,具体包括:
第一识别单元,用于通过语义分析从所述稿件主旨中识别目标主体关键词;
删除单元,用于去掉所述目标主体关键词。
可选地,在该实施例中,所述匹配模块,具体用于:
根据所述待匹配稿件,将利用网络爬虫技术从网络爬取的网络数据中匹配多篇相似稿件。
可选地,在该实施例中,所述选择模块,具体用于:
选择所述多篇相似稿件中与所述待匹配稿件的相似度最高的一篇作为模板稿件。
可选地,在该实施例中,所述第二替换模块,具体包括:
第二识别单元,用于通过语义分析从所述稿件主旨中识别待替换主体关键词;
替换单元,用于将所述待替换主体关键词替换为空格;
接收单元,用于接收用户在空格处录入的目标主体关键词。
基于本发明的一个具体实施例如下:
例如写一篇vivo手机的新机发布稿件,首先通过主旨关键词新机、发布等词找到模板稿件如下:
在大多数制造商致力于增加屏占比和缩小屏幕上方“刘海”的时代,Vivo巧妙地创造了一个弹出式自拍相机,实现了利用内置摄像头呈现完整屏幕,保证了全屏体验。
遗憾的是,目前只有NEX 2的泄露图,我们并没有太多关于规格的可靠信息。然而,最初的Vivo NEX配有6.59英寸Super AMOLED屏幕,搭载骁龙845处理器和配备8GB内存,外媒表示很希望在下一代手机上看到相同的配置或者更佳的配置。
然后把模板稿件进行句子更换,把里面的主体关键词扣除,如下:
首先就是屏幕,____此次既没有采用____,也没有采用____全面屏,而是推出了一款外观____、屏占比更高的____,屏占比高达____%,同时手机的颜值也有大的提升。
____在其发布之初,以____无边框技术使手机拥有____英寸屏幕的视觉体验和____英寸手机相同的握感,同时在当时搭载____处理器,标配____gB内存,有____和____两种存储规格可选,最高配备了____大内存。
然后把要写的稿件主旨内容填写进去,形成一篇新的稿件,如下:
首先就是屏幕,荣耀此次既没有采用刘海屏,也没有采用水滴全面屏,而是推出了一款外观抢眼、屏占比更高的魅眼全视屏,屏占比高达91.28%,同时手机的颜值也有大的提升。
荣耀v20在其发布之初,以超广无边框技术使手机拥有6.4英寸屏幕的视觉体验,同时在当时搭载麒麟980处理器,标配64gB内存,有64G和128G两种存储规格可选,最高配备了256G大内存。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种替换关键词的稿件生成方法,其特征在于,包括:
接收用户输入的稿件主旨;
从所述稿件主旨中去掉目标主体关键词,得到待匹配稿件;
根据所述待匹配稿件匹配多篇相似稿件;
选择所述多篇相似稿件中的一篇作为模板稿件;
将所述模板稿件中的每个句子分别替换为从所述多篇相似稿件中除所述模板稿件外的稿件中匹配到的相似句子,得到待替换稿件;
将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词。
2.根据权利要求1所述的一种替换关键词的稿件生成方法,其特征在于,所述从所述稿件主旨中去掉目标主体关键词,具体包括:
通过语义分析从所述稿件主旨中识别目标主体关键词;
去掉所述目标主体关键词。
3.根据权利要求1所述的一种替换关键词的稿件生成方法,其特征在于,所述根据所述待匹配稿件匹配多篇相似稿件,具体包括:
根据所述待匹配稿件,将利用网络爬虫技术从网络爬取的网络数据中匹配多篇相似稿件。
4.根据权利要求1所述的一种替换关键词的稿件生成方法,其特征在于,所述选择所述多篇相似稿件中的一篇作为模板稿件,具体包括:
选择所述多篇相似稿件中与所述待匹配稿件的相似度最高的一篇作为模板稿件。
5.根据权利要求1-4任一项所述的一种替换关键词的稿件生成方法,其特征在于,所述将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词,具体包括:
通过语义分析从所述稿件主旨中识别待替换主体关键词;
将所述待替换主体关键词替换为空格;
接收用户在空格处录入的目标主体关键词。
6.一种替换关键词的稿件生成系统,其特征在于,包括:
接收模块,用于接收用户输入的稿件主旨;
删除模块,用于从所述稿件主旨中去掉目标主体关键词,得到待匹配稿件;
匹配模块,用于根据所述待匹配稿件匹配多篇相似稿件;
选择模块,用于选择所述多篇相似稿件中的一篇作为模板稿件;
第一替换模块,用于将所述模板稿件中的每个句子分别替换为从所述多篇相似稿件中除所述模板稿件外的稿件中匹配到的相似句子,得到待替换稿件;
第二替换模块,用于将所述待替换稿件中的待替换主体关键词替换为所述目标主体关键词。
7.根据权利要求6所述的一种替换关键词的稿件生成系统,其特征在于,所述删除模块,具体包括:
第一识别单元,用于通过语义分析从所述稿件主旨中识别目标主体关键词;
删除单元,用于去掉所述目标主体关键词。
8.根据权利要求6所述的一种替换关键词的稿件生成系统,其特征在于,所述匹配模块,具体用于:
根据所述待匹配稿件,将利用网络爬虫技术从网络爬取的网络数据中匹配多篇相似稿件。
9.根据权利要求6所述的一种替换关键词的稿件生成系统,其特征在于,所述选择模块,具体用于:
选择所述多篇相似稿件中与所述待匹配稿件的相似度最高的一篇作为模板稿件。
10.根据权利要求6-9任一项所述的一种替换关键词的稿件生成系统,其特征在于,所述第二替换模块,具体包括:
第二识别单元,用于通过语义分析从所述稿件主旨中识别待替换主体关键词;
替换单元,用于将所述待替换主体关键词替换为空格;
接收单元,用于接收用户在空格处录入的目标主体关键词。
CN201910963015.0A 2019-10-11 2019-10-11 一种替换关键词的稿件生成方法及系统 Pending CN110807305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910963015.0A CN110807305A (zh) 2019-10-11 2019-10-11 一种替换关键词的稿件生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910963015.0A CN110807305A (zh) 2019-10-11 2019-10-11 一种替换关键词的稿件生成方法及系统

Publications (1)

Publication Number Publication Date
CN110807305A true CN110807305A (zh) 2020-02-18

Family

ID=69488216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910963015.0A Pending CN110807305A (zh) 2019-10-11 2019-10-11 一种替换关键词的稿件生成方法及系统

Country Status (1)

Country Link
CN (1) CN110807305A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832284A (zh) * 2020-06-23 2020-10-27 北京数智管家科技有限公司 一种稿件自动化裂变方法
CN111832285A (zh) * 2020-06-23 2020-10-27 北京数智管家科技有限公司 一种自动化推荐稿件素材的方法
CN112651220A (zh) * 2021-01-28 2021-04-13 宁夏智诚安环科技发展股份有限公司四川分公司 一种环境影响评价报告生成方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN108470064A (zh) * 2018-03-26 2018-08-31 黑龙江省经济管理干部学院 一种基于智能机器人的新闻稿生成方法
CN109657223A (zh) * 2018-12-18 2019-04-19 安徽省泰岳祥升软件有限公司 一种公文自动写作方法及装置
US20190228064A1 (en) * 2014-10-30 2019-07-25 International Business Machines Corporation Generation apparatus, generation method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228064A1 (en) * 2014-10-30 2019-07-25 International Business Machines Corporation Generation apparatus, generation method, and program
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及系统
CN108470064A (zh) * 2018-03-26 2018-08-31 黑龙江省经济管理干部学院 一种基于智能机器人的新闻稿生成方法
CN109657223A (zh) * 2018-12-18 2019-04-19 安徽省泰岳祥升软件有限公司 一种公文自动写作方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832284A (zh) * 2020-06-23 2020-10-27 北京数智管家科技有限公司 一种稿件自动化裂变方法
CN111832285A (zh) * 2020-06-23 2020-10-27 北京数智管家科技有限公司 一种自动化推荐稿件素材的方法
CN112651220A (zh) * 2021-01-28 2021-04-13 宁夏智诚安环科技发展股份有限公司四川分公司 一种环境影响评价报告生成方法及其系统

Similar Documents

Publication Publication Date Title
US10949744B2 (en) Recurrent neural network architectures which provide text describing images
CN107958091A (zh) 一种基于金融垂直知识图谱的nlp人工智能方法及交互系统
Dunst et al. The graphic narrative corpus (GNC): design, annotation, and analysis for the digital humanities
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
US20210303864A1 (en) Method and apparatus for processing video, electronic device, medium and product
US7962507B2 (en) Web content mining of pair-based data
CN105205699A (zh) 基于酒店点评的用户标签和酒店标签匹配方法及装置
CN110807305A (zh) 一种替换关键词的稿件生成方法及系统
CN110321537B (zh) 一种文案生成方法和装置
Chen et al. Large-scale tag-based font retrieval with generative feature learning
US20190286931A1 (en) Method and system for automatic image caption generation
Adar et al. CommandSpace: modeling the relationships between tasks, descriptions and features
US11928418B2 (en) Text style and emphasis suggestions
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN105677795A (zh) 抽象语义的推荐方法、推荐装置及推荐系统
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN109978139B (zh) 图片自动生成描述的方法、系统、电子装置及存储介质
Fang et al. Image captioning with word level attention
Pande et al. Development and deployment of a generative model-based framework for text to photorealistic image generation
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
DE102016105584A1 (de) Verbesserte suche in handschriftlichen daten
CN115017884B (zh) 基于图文多模态门控增强的文本平行句对抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200218