CN109657158A - 一种基于社交网络数据的药品不良事件信息提取方法 - Google Patents
一种基于社交网络数据的药品不良事件信息提取方法 Download PDFInfo
- Publication number
- CN109657158A CN109657158A CN201811444462.7A CN201811444462A CN109657158A CN 109657158 A CN109657158 A CN 109657158A CN 201811444462 A CN201811444462 A CN 201811444462A CN 109657158 A CN109657158 A CN 109657158A
- Authority
- CN
- China
- Prior art keywords
- word
- predicate
- drug
- text
- degree value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000003814 drug Substances 0.000 claims abstract description 129
- 229940079593 drug Drugs 0.000 claims abstract description 114
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000011156 evaluation Methods 0.000 claims description 50
- 239000004615 ingredient Substances 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000007667 floating Methods 0.000 claims description 3
- 230000002411 adverse Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 3
- 229960002496 duloxetine hydrochloride Drugs 0.000 description 16
- JFTURWWGPMTABQ-UHFFFAOYSA-N n,n-dimethyl-3-naphthalen-1-yloxy-3-thiophen-2-ylpropan-1-amine Chemical compound C=1C=CC2=CC=CC=C2C=1OC(CCN(C)C)C1=CC=CS1 JFTURWWGPMTABQ-UHFFFAOYSA-N 0.000 description 16
- 239000005517 L01XE01 - Imatinib Substances 0.000 description 11
- 229940080856 gleevec Drugs 0.000 description 11
- KTUFNOKKBVMGRW-UHFFFAOYSA-N imatinib Chemical compound C1CN(C)CCN1CC1=CC=C(C(=O)NC=2C=C(NC=3N=C(C=CN=3)C=3C=NC=CC=3)C(C)=CC=2)C=C1 KTUFNOKKBVMGRW-UHFFFAOYSA-N 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 206010061623 Adverse drug reaction Diseases 0.000 description 6
- 206010044565 Tremor Diseases 0.000 description 6
- 206010030113 Oedema Diseases 0.000 description 4
- 230000032683 aging Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- VGKDLMBJGBXTGI-SJCJKPOMSA-N sertraline Chemical compound C1([C@@H]2CC[C@@H](C3=CC=CC=C32)NC)=CC=C(Cl)C(Cl)=C1 VGKDLMBJGBXTGI-SJCJKPOMSA-N 0.000 description 3
- 229960002073 sertraline Drugs 0.000 description 3
- 208000000059 Dyspnea Diseases 0.000 description 2
- 206010013975 Dyspnoeas Diseases 0.000 description 2
- 206010016029 Face oedema Diseases 0.000 description 2
- VEXZGXHMUGYJMC-UHFFFAOYSA-N Hydrochloric acid Chemical compound Cl VEXZGXHMUGYJMC-UHFFFAOYSA-N 0.000 description 2
- KAESVJOAVNADME-UHFFFAOYSA-N Pyrrole Chemical compound C=1C=CNC=1 KAESVJOAVNADME-UHFFFAOYSA-N 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 208000013220 shortness of breath Diseases 0.000 description 2
- ZEUITGRIYCTCEM-KRWDZBQOSA-N (S)-duloxetine Chemical compound C1([C@@H](OC=2C3=CC=CC=C3C=CC=2)CCNC)=CC=CS1 ZEUITGRIYCTCEM-KRWDZBQOSA-N 0.000 description 1
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 206010013654 Drug abuse Diseases 0.000 description 1
- 206010033557 Palpitations Diseases 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 229960002866 duloxetine Drugs 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 208000011117 substance-related disease Diseases 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Economics (AREA)
- Marketing (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Human Resources & Organizations (AREA)
- Epidemiology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于社交网络数据的药品不良事件信息提取方法,该方法包括以下步骤:抓取社交网络患者用药反馈文本;对评论文本进行数据预处理;对评论文本进行句法分析;对评论文本中的谓词进行语义类识别;识别评论文本中谓词所支配的主体语义角色;计算程度值;填充药品不良事件模板。本发明适用于药品不良事件信息的提取,药物种类不限;能够有效分析患者用药后的反馈信息,为药品的生产、经营、使用及药政部门的管理提供药品不良事件的咨询,利于业务的开展和管理的提高。
Description
技术领域
本发明属于信息抽取技术领域,具体地说,涉及一种基于社交网络数据的药品不良事件信息提取方法。
技术背景
药品不良事件(adverse drug event,简称ADE)是指服用药物治疗疾病过程中所发生的不幸的医疗卫生事件,是由药物引起或与药物相关的患者机体损害。药品不良事件的原因包括药品标准缺陷、药品不良反应、药品质量问题、药品滥用以及用药失误。在概念范围上药品不良事件大于药品不良反应,有些药品不良事件不一定与药物治疗存在因果关系。在涉及的机构和人群方面,药品不良事件涉及到生产和研究者、监管者、流通商、医生、护士、药师、患者或消费者。本着“可疑即报”的原则,将传统的药品不良反应监测延伸至药品不良事件监测,对用药期间出现的各种医学事件都进行监督,可以更大程度地降低用药风险。
尽管药品上市前会进行临床实验分析,医院在临床使用过程中也有相应的集中监测上报制度,但是受到时间、检测对象等限制,,数据代表性差,得出的分析结果无法覆盖所有的药品不良事件,导致药品不良事件被低报或漏报,从而造成无法全面认知药品副作用和安全性注意事项。因此,利用社交网络数据提取药品不良事件信息可以作为现有药物不良事件呈报系统的补充,作为药品安全性和有效性管理工作的重要参考,具有重要的理论价值和现实意义。
发明内容
本发明的技术解决方案:一种基于社交网络数据的药品不良事件信息提取方法,包括以下基本步骤:
从社交网络中抓取网上患者对药物评论文本,以字符形式存储,并对获取的药物评论文本数据进行预处理;
根据依存语法体系,对评论文本进行句法分析,将句法结构描述为一个支配词及其从属成分构成的树结构,并标注主语、谓语、定语的依存关系;其中,所述支配词是谓语中心语;
确定依存句法结构中每一药物评论文本中处于支配地位的谓词,对谓词进行语义类识别,并依据预设规则标注谓词所支配的主体语义角色;其中,所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体;
依据对药物评价文本的标注情况,确定药物评价描述的程度值,并将程度值填充入药品不良事件模板。
其中,在从社交网络中抓取网上患者对药物评论文本的步骤中,是利用爬虫技术从博客、微博、在线评论的社交网络中抓取。
其中,在对获取的用药物评论文本数据进行预处理的步骤中,预处理的步骤包括:
识别药物评论文本对应的评论者名称和URL标识,对药物评论文本进行分词和词性标注,识别药物评价文本中包含的药品名称;
对药物评论文本进行断句处理,以“,?!。”为标志,将文本切分为语块;
将药品名及其对应的评论语块存储于数据库。
其中,在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中,谓词包括形容词、动词、成语和习用语,其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语;对谓词进行语义类识别是根据语义分类词典进行识别。
其中,在依据预设规则标注谓词所支配的主体语义角色的步骤中,预设规则为:
若药物评价文本只有一个谓词,则不标注语义角色;
若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为主谓,则标注词1为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1前有定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为定中结构,则标注词1为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1与谓词的句法关系为定中结构,若词1前有其他定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体。
其中,在确定药物评价描述的程度值的步骤中,包括步骤:
根据语义分类词典中对词语程度值的标注,将药物评价文本中谓词对应的程度值设置为药物评价描述程度值的初始值;
根据程度副词词表,扫描药物评价文本内是否有程度副词,若有,查阅副词词表,根据词表中的调节量值,将第一程度值设为初始值±调节量;其中,初始值>0.5的,取加号,初始值<0.5的取减号;如果赋值后的第一程度值>0.9,则输出第一程度值为0.9;如果赋值后的第一程度值<0.1,则输出第一程度值为0.1;
根据否定词词表,扫描药物评价文本内是否有否定词,若有,将程度值赋值为1-第一程度值,若无,输出第一程度值为最终结果。
其中,语义分类词典对每个词语定义其程度值,以0.1-0.9之间的浮点数表示,其中,0.5为中性,0.1-0.4为不良感受,数值越低表示不良感受越强,0.6-0.9为良好感受,数值越高表示良好感受越强。
其中,药品不良事件模板为:
Ei(dri,pi,bi,dgri)
其中,Ei为事件类型,对应谓词的语义类识别结果,dri为药物名称,对应评论文本预处理识别的药物名称,pi为评论者,对应预处理中的评论者名称和URL标识,bi为感知部位,对应主体语义角色,dgri为程度值,对应程度值计算结果。
其中,当一条评论就一个事件类型、同一感知部位用了多个评价语块描述时,取各评价语块程度值的平均值为最终程度值;若一条评论中识别为同一事件类型、同一感知部位的评价语块有n个,其中,第j个评价语块所计算的程度值为Vj,j=1,2,3,…,n,则在一个事件类型Ei中,程度值dgr的计算公式为:
区别于现有技术,本发明提出一种基于社交网络数据的药品不良事件信息提取方法,该方法包括以下步骤:抓取社交网络患者用药反馈文本;对评论文本进行数据预处理;对评论文本进行句法分析;对评论文本中的谓词进行语义类识别;识别评论文本中谓词所支配的主体语义角色;计算程度值;填充药品不良事件模板。本发明适用于药品不良事件的提取,药物种类不限;能够有效分析患者用药后的反馈信息,为药品的生产、经营、使用及药政部门的管理提供药物不良事件的咨询,利于业务的开展和管理的提高。
附图说明
图1为本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的流程示意图。
图2为本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的逻辑示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1和图2,图1是本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的流程示意图;图2是本发明提供的一种基于社交网络数据的药品不良事件信息提取方法的逻辑示意图。该方法的步骤包括:
S110:从社交网络中抓取网上患者对药物评论文本,以字符形式存储,并对获取的用药物评论文本数据进行预处理。
在从社交网络中抓取网上患者对药物评论文本的步骤中,利用爬虫技术,从博客、微博、在线评论等社交网络中抓取患者对药物的评论文本,例如知乎、微博话题中含有“副作用”和药物不良反应等信息的问答记录,医疗在线评论和药品电商评论中的相关评论,等等。以字符形式存储于本地数据库中。
在对获取的药物评论文本数据进行预处理的步骤中,预处理的步骤包括:
识别药物评论文本对应的评论者名称和URL标识,对药物评论文本进行分词和词性标注,识别药物评价文本中包含的药品名称;
药品名称识别分以下情况处理:
对于半结构化数据,依据文档的结构信息提取药品名称。例如,对于药品电子商务网站评论数据,通过解析*.htm文件,利用源代码结构信息,提取药品名称。
如:提取*.htm的“<h2 class="fn c3 f18"style="width:420px;max-height:52px;overflow:hidde n;text-overflow:ellipsis;"><span class="yaoIco d-icos d-icos-1"></span>广誉远定坤丹</h2>”中的药品名称“广誉远定坤丹”
对于非结构化数据,利用命名实体识别规则提取药品名称。例如从经过分词和词性标注的评论文本中利用规则识别药品名称,所述药品名称识别规则为:从词性标注结果中,识别标记为nz(专有名词)的词语;扫描标注为nz的词语的前两个词和后两个词,匹配以下模式,将符合下列模式的字符串中的*识别为药品名称:
表1药品名称识别模式(*为药品名称)
模式 | 实例 |
服用v*nz | 服用舍曲林 |
#m片/盒/瓶p*nz(#表示任意数词) | 两片舍曲林 |
吃v了u*nz | 吃了健胃消食片 |
*nz的u副作用n | 舍曲林的副作用 |
长期a使用v*nz | 长期使用美多丽托吡卡 |
对药物评论文本进行断句处理,以“,?!。”为标志,将文本切分为语块;
将药品名及其对应的评论语块存储于数据库。
S120:根据依存语法体系,对评论文本进行句法分析,将句法结构描述为一个支配词及其从属成分构成的树结构,并标注主语、谓语、定语的依存关系;其中,所述支配词是谓语中心语。
在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中,谓词包括形容词、动词、成语和习用语,其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语;对谓词进行语义类识别是根据语义分类词典进行识别。
依存句法分析中的句法功能标记与语义结构的对应有较强的规律性,因此采取基于依存句法分析的方法,有效地识别句子中的谓词及其语义角色所在的短语,从而为语义标注提供规则依据。本发明进行语义标注时,是采用哈工大社会计算与信息检索研究中心的语言技术平台(LTP)提供的句法分析器,经python语言编译,实现分词、词性标注和依存句法分析。
所述句法关系分析标记如表2所示:
表2句法关系标记体系
句法关系 | 标记 |
依存关系 | --> |
谓语核心词 | HED |
主谓关系 | SBV |
定中关系 | ATT |
述宾关系 | VOB |
兼语 | DBL |
定中关系 | ATT |
状中结构 | ADV |
动补结构 | CMP |
并列关系 | COO |
介宾关系 | POB |
左附加关系 | LAD |
右附加关系 | RAD |
独立结构 | IS |
标点 | WP |
S130:确定依存句法结构中每一药物评论文本中处于支配地位的谓词,对谓词进行语义类识别,并依据预设规则标注谓词所支配的主体语义角色;其中,所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体。
对评论文本中的谓词进行语义类识别时,语义类为谓词所属的概念意义类别,如动词“颤抖、抖动、发抖”等属于[身体振动]类。所述语义类识别过程包括以下步骤:
(1)定位句子中的谓词,即动词、形容词、成语和习用语,在依存句法结构中处于支配地位,包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语;
(2)根据语义分类词典匹配词语的语义类。
所述药品不良事件语义分类词典是对表达不良事件的谓词按其概念意义和场景意义的区分的类别,分类细化;所述语义分类词典对每个词语定义其程度值,以0.1-0.9之间的浮点数表示,其中,0.5为中性,0.1-0.4为不良感受,数值越低表示不良感受越强,0.6-0.9为良好感受,数值越高表示良好感受越强。所述药品不良事件语义分类词典如表3所示。
其中。药品不良事件语义分类词典是根据著作《现代汉语框架语义网》(刘开瑛,由丽萍.科学出版社,2015.)涉及的方法,以美国语言学家Fillmore提出的框架语义理论为基础,从社交网络药品评论收集药品不良事件词语,按词语语义理解中的概念场景(即框架语义)构建药品不良事件领域的语义分类体系。表三是上述药品不良事件语义分类词典的部分内容。
表3药品不良事件语义分类词典(部分)
识别评论文本中谓词所支配的主体语义角色:所述主体语义角色为从属于谓词的名词性短语,在语义关系上是动作行为或性状描述的主体。如“浑身颤抖”中谓词“颤抖”所支配的主语成分“浑身”为“颤抖”这一动作的主体。
在依据预设规则标注谓词所支配的主体语义角色的步骤中,预设规则为:
若药物评价文本只有一个谓词,则不标注语义角色;
若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为主谓,则标注词1为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1前有定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为定中结构,则标注词1为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1与谓词的句法关系为定中结构,若词1前有其他定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体。
S140:依据对药物评价文本的标注情况,确定药物评价文本的程度值,并将程度值填充入药品不良事件模板。
在确定药物评价文本的程度值的步骤中,包括步骤:
根据语义分类词典中对词语程度值的标注,将药物评价文本中谓词对应的程度值设置为药物评价文本程度值的初始值;
根据程度副词词表,扫描药物评价文本内是否有程度副词,若有,查阅副词词表,根据词表中的调节量值,将第一程度值设为初始值±调节量;其中,初始值>0.5的,取加号,初始值<0.5的取减号;如果赋值后的第一程度值>0.9,则输出第一程度值为0.9;如果赋值后的第一程度值<0.1,则输出第一程度值为0.1。
程度副词词表如下,括号内为调节量:
大(0.1),不能再(0.2),实在(0.1),差不多(0),有点(0),点(0),一点(0),蛮(0.1),偏(0),稍微(0),比较(0),较(0),有些(0),各种(0.1),还(0),好(0.1),很(0.1),挺(0.1),相当(0.1),真(0.1),足够(0.1),够(0.1),甚(0.1),完全(0.2),太(0.2),特别(0.2),最大(0.2),非常(0.2),最(0.2),绝(0.3),极(0.2),极其(0.3),十分(0.2),超(0.3),强力(0.2),非常非常(0.3)
根据否定词词表,扫描药物评价文本内是否有否定词,若有,将程度值赋值为1-第一程度值,若无,输出第一程度值为最终结果。
否定副词词表如下:
并不,不,不必,不大,不可,不许,不要,不意,不用,不再,不曾,不至于,不致,不住,毫不,决不,绝不,没,没有,永不,再不,无处,无从,无端,无须,无庸,无由,一无,勿,毋庸
其中,药品不良事件模板为:
Ei(dri,pi,bi,dgri)
其中,Ei为事件类型,对应谓词的语义类识别结果,dri为药物名称,对应评论文本预处理识别的药物名称,pi为评论者,对应预处理中的评论者名称和URL标识,bi为感知部位,对应主体语义角色,dgri为程度值,对应程度值计算结果。
其中,当一条评论就一个事件类型、同一感知部位用了多个评价语块描述时,取各评价语块程度值的平均值为最终程度值;若一条评论中识别为同一事件类型、同一感知部位的评价语块有n个,其中,第j个评价语块所计算的程度值为Vj,j=1,2,3,…,n,则在一个事件类型Ei中,程度值dgr的计算公式为:
以下为本发明的具体实施方式。
使用来自微博的2个评论进行分析,原句为:
1.长期服用“格列卫”。药物副作用导致脸部浮肿,头发花白,提前衰老。
2.服用盐酸度洛西汀肠溶胶囊,最近四天出现胸闷气短,心慌,坐立不安,身体发抖,心跳特别快,腰酸背痛,浑身乏力。
第一步,对评论文本进行数据预处理
分词和词性标注后,句子如下:
1.长期/d 服用/v “/wp 格列卫/nz ”/wp 。/wp 药物/n 副作用/n 导致/v 脸部/n 浮肿/v ,/wp 头发/n 花白/a ,/wp 提前/v 衰老/a 。/wp
2.服用/v 盐酸度洛西汀肠溶胶囊/nz ,/wp 最近/nt 四天/nt 出现/v 胸闷气短/i ,/wp 心慌/v ,/wp 坐立不安/i ,/wp 身体/n 发抖/v ,/wp 心跳/v 特别/d 快/a,/wp 腰酸背痛/i ,/wp 浑身/n 乏力/a 。/wp
药品名称识别:按照表1的药品名称识别模式,匹配经过分词、词性标注的句子。评论1和评论2均包含nz标记的名词,即专有名词;由nz标记的词语向前扫描两个词语,与模式“服用v*nz”成功匹配,因此,将nz所标识的名词识别为药物名称,分别为“格列卫”和“盐酸度洛西汀肠溶胶囊”。
对评论文本进行断句处理,以“,?!。”为标志,将文本切分为语块;将药品名及其对应的评论语块存储于数据库,如表4所示。
表4预处理后语块
药品名 | 评论语块 |
格列卫 | 长期/d 服用/v “/wp 格列卫/nz ”/wp 。/wp |
格列卫 | 药物/n 副作用/n 导致/v 脸部/n 浮肿/v, /wp |
格列卫 | 头发/n 花白/a ,/wp |
格列卫 | 提前/v 衰老/a 。/wp |
盐酸度洛西汀肠溶胶囊 | 服用/v 盐酸度洛西汀肠溶胶囊/nz ,/wp |
盐酸度洛西汀肠溶胶囊 | 最近/nt 四天/nt 出现/v 胸闷气短/i ,/wp |
盐酸度洛西汀肠溶胶囊 | 坐立不安/i ,/wp |
盐酸度洛西汀肠溶胶囊 | 身体/n 发抖/v ,/wp |
盐酸度洛西汀肠溶胶囊 | 心跳/v 特别/d 快/a ,/wp |
盐酸度洛西汀肠溶胶囊 | 腰酸背痛/i ,/wp |
盐酸度洛西汀肠溶胶囊 | 浑身/n 乏力/a 。/wp |
第二步,对评论文本进行句法分析
例如语块“药物副作用导致脸部浮肿”的依存句法分析结果为:
HED:导致
-->副作用:SBV
-->药物:ATT
-->浮肿:VOB
-->脸部:SBV
语块“头发花白”的分析结果为:
HED:花白
-->头发:SBV
语块“身体发抖”的分析结果为:
HED:发抖
-->身体:SBV
语块“心跳特别快”的分析结果为:
HED:快
-->心跳:SBV
-->特别:ADV
第三步,对评论文本中的谓词进行语义类识别
对句法分析结果中的谓词,即以上实例中标记为HED的词语,按照语义分类词典匹配其所属的语义类,标记如下:
表5语义类识别实例
编号 | 评论语块 |
ch1 | 药物/n 副作用/n 导致/v 脸部/n <<sub>肿胀</sub>浮肿/v> ,/wp |
ch2 | 头发/n <<sub>颜色</sub>花白/a> ,/wp |
ch3 | 提前/v <<sub>老幼</sub>衰老/a> 。/wp |
ch4 | 最近/nt 四天/nt 出现/v <<sub>呼吸</sub>胸闷气短/i> ,/wp |
ch5 | <<sub>惧怕</sub> 坐立不安/i> ,/wp |
ch6 | 身体/n <<sub>身体颤动</sub> 发抖/v> ,/wp |
ch7 | 心跳/v 特别/d <<sub>快慢</sub>快/a> ,/wp |
ch8 | <<sub>疼痛</sub>腰酸背痛/i> ,/wp |
ch9 | 浑身/n <<sub>疲累</sub>乏力/a> 。/wp |
第四步,识别评论文本中谓词所支配的主体语义角色
语块ch1,由于谓词“浮肿”支配一个身体部位词语“脸部”,且句法关系为主语(SBV),根据规则,标注“脸部”为主体。该规则同样适用于ch2,ch6,ch7,ch9。
语块ch3,由于谓词“衰老”没有从属成分,根据规则,不标注语义角色。该规则同样适用于ch4,ch5,ch8。
第五步,程度值计算
根据语义分类词典,以词典中的程度值作为初始值,由于语块ch1,ch2,ch3,ch4,ch5,ch6,ch8,ch9没有否定词和副词,因此以初始值为最终值,分别为0.4,0.4,0.4,0.3,0.3,0.4,0.4,0.4;语块ch7出现了程度副词“特别”,根据副词表中的调节量,(初始值-0.2)为该语块的程度值,即0.2。
第六步,填充药品不良事件模板
采用模式Ei(dri,pi,bi,dgri),提取结果按顺序依次表示,如果某一元素在语块中被省略,则以“null”填充。针对患者的评论1和评论2,提取语义信息,包括:根据语义类识别结果,提取事件类型E,根据预处理结果提取药物名称dr和评论者p,根据语义角色标注结果提取感知部位b,根据程度值计算规则和公式,得出整个药品不良事件的程度值dgr。
评论1的提取结果为:
膨胀(格列卫,网络新闻联播https://s.weibo.com/weibo/%25E8%……,脸部,0.4)
颜色(格列卫,网络新闻联播https://s.weibo.com/weibo/%25E8%……,头发,0.4)
老幼(格列卫,网络新闻联播https://s.weibo.com/weibo/%25E8%……,null,0.4)
评论2的提取结果为:
呼吸(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo?q=%E8%8D%……,null,0.3)
惧怕(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo?q=%E8%8D%……,null,0.3)
身体颤动(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo?q=%E8%8D%……,身体,0.3)
快慢(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo?q=%E8%8D%……,心跳,0.2)
疼痛(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo?q=%E8%8D%……,null,0.4)
疲累(盐酸度洛西汀肠溶胶囊,REVERSEMON https://s.weibo.com/weibo?q=%E8%8D%……,浑身,0.3)
区别于现有技术,本发明提出一种基于社交网络数据的药品不良事件信息提取方法,该方法包括以下步骤:抓取社交网络患者用药反馈文本;对评论文本进行数据预处理;对评论文本进行句法分析;对评论文本中的谓词进行语义类识别;识别评论文本中谓词所支配的主体语义角色;计算程度值;填充药品不良事件模板。本发明适用于药品不良事件的提取,药物种类不限;能够有效分析患者用药后的反馈信息,为药品的生产、经营、使用及药政部门的管理提供药物不良事件的咨询,利于业务的开展和管理的提高。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种基于社交网络数据的药品不良事件信息提取方法,其特征在于,包括:
从社交网络中抓取网上患者对药物评论文本,以字符形式存储,并对获取的药物评论文本数据进行预处理;
根据依存语法体系,对评论文本进行句法分析,将句法结构描述为一个支配词及其从属成分构成的树结构,并标注主语、谓语、定语的依存关系;其中,所述支配词是谓语中心语;
确定依存句法结构中每一药物评论文本中处于支配地位的谓词,对谓词进行语义类识别,并依据预设规则标注谓词所支配的主体语义角色;其中,所述主体语义角色是从属于谓词的名词性短语、且在语义关系上是动作行为或性状描述的主体;
依据对药物评价文本的标注情况,确定药物评价描述的程度值,并将程度值填充入药品不良事件模板。
2.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在从社交网络中抓取网上患者对药物评论文本的步骤中,是利用爬虫技术从博客、微博、在线评论的社交网络中抓取。
3.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在对获取的用药物评论文本数据进行预处理的步骤中,预处理的步骤包括:
识别药物评论文本对应的评论者名称和URL标识,对药物评论文本进行分词和词性标注,识别药物评价文本中包含的药品名称;
对药物评论文本进行断句处理,以“,?!。”为标志,将文本切分为语块;
将药品名及其对应的评论语块存储于数据库。
4.根据权利要求3所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在确定依存句法结构中每一药物评论文本中处于支配地位的谓词的步骤中,谓词包括形容词、动词、成语和习用语,其句法功能包括主谓结构的谓语、述宾结构的述语、述补结构的补语和定中结构的中心语;对谓词进行语义类识别是根据语义分类词典进行识别。
5.根据权利要求4所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在依据预设规则标注谓词所支配的主体语义角色的步骤中,预设规则为:
若药物评价文本只有一个谓词,则不标注语义角色;
若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为主谓,则标注词1为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1前有定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1之前没有其他定语依存成分,且词1与谓词的句法关系为定中结构,则标注词1为主体;
若药物评价文本的句法结构为“谓词-->词1”,且词1与谓词的句法关系为定中结构,若词1前有其他定语依存成分,即“词1-->词2,词2-->词3……”,则将“词3词2词1……”整个序列标注为主体。
6.根据权利要求1所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,在确定药物评价描述的程度值的步骤中,包括步骤:
根据语义分类词典中对词语程度值的标注,将药物评价文本中谓词对应的程度值设置为药物评价文本程度值的初始值;
根据程度副词词表,扫描药物评价文本内是否有程度副词,若有,查阅副词词表,根据词表中的调节量值,将第一程度值设为初始值±调节量;其中,初始值>0.5的,取加号,初始值<0.5的取减号;如果赋值后的第一程度值>0.9,则输出第一程度值为0.9;如果赋值后的第一程度值<0.1,则输出第一程度值为0.1;
根据否定词词表,扫描药物评价文本内是否有否定词,若有,将程度值赋值为1-第一程度值,若无,输出第一程度值为最终结果。
7.根据权利要求6所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,语义分类词典对每个词语定义其程度值,以0.1-0.9之间的浮点数表示,其中,0.5为中性,0.1-0.4为不良感受,数值越低表示不良感受越强,0.6-0.9为良好感受,数值越高表示良好感受越强。
8.根据权利要求2所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,药品不良事件模板为:
Ei(dri,pi,bi,dgri)
其中,Ei为事件类型,对应谓词的语义类识别结果,dri为药物名称,对应评论文本预处理识别的药物名称,pi为评论者,对应预处理中的评论者名称和URL标识,bi为感知部位,对应主体语义角色,dgri为程度值,对应程度值计算结果。
9.根据权利要求2所述的基于社交网络数据的药品不良事件信息提取方法,其特征在于,当一条评论就一个事件类型、同一感知部位用了多个评价语块描述时,取各评价语块程度值的平均值为最终程度值;若一条评论中识别为同一事件类型、同一感知部位的评价语块有n个,其中,第j个评价语块所计算的程度值为Vj,j=1,2,3,…,n,则在一个事件类型Ei中,程度值dgr的计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811444462.7A CN109657158B (zh) | 2018-11-29 | 2018-11-29 | 一种基于社交网络数据的药品不良事件信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811444462.7A CN109657158B (zh) | 2018-11-29 | 2018-11-29 | 一种基于社交网络数据的药品不良事件信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657158A true CN109657158A (zh) | 2019-04-19 |
CN109657158B CN109657158B (zh) | 2022-09-23 |
Family
ID=66112042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811444462.7A Active CN109657158B (zh) | 2018-11-29 | 2018-11-29 | 一种基于社交网络数据的药品不良事件信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657158B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222965A (zh) * | 2019-05-28 | 2019-09-10 | 东华大学 | 基于ugc信息挖掘的在线面料供应商资质标准评分方法 |
CN111062199A (zh) * | 2019-11-05 | 2020-04-24 | 北京中科微澜科技有限公司 | 一种不良信息识别方法及装置 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN112766903A (zh) * | 2021-01-18 | 2021-05-07 | 阿斯利康投资(中国)有限公司 | 识别不良事件的方法、装置、设备及介质 |
CN112949285A (zh) * | 2020-10-13 | 2021-06-11 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
CN113158073A (zh) * | 2021-03-25 | 2021-07-23 | 上海基绪康生物科技有限公司 | 一种从社交媒体中自动发掘不良药物反应的方法 |
CN117077625A (zh) * | 2023-08-15 | 2023-11-17 | 普蕊斯(上海)医药科技开发股份有限公司 | 一种不良事件等级判定方法、电子设备和存储介质 |
CN117744657A (zh) * | 2023-12-26 | 2024-03-22 | 广东外语外贸大学 | 一种基于神经网络模型的药品不良事件检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020040282A1 (en) * | 2000-03-22 | 2002-04-04 | Bailey Thomas C. | Drug monitoring and alerting system |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
US20150120313A1 (en) * | 2013-10-31 | 2015-04-30 | Electronics And Telecommunications Research Institute | Apparatus and method for collecting adverse drug event data over network |
CN108319734A (zh) * | 2018-04-11 | 2018-07-24 | 中国计量大学 | 一种基于线性组合器的产品特征结构树自动构建方法 |
JP2018147463A (ja) * | 2017-03-02 | 2018-09-20 | 茂樹 扇谷 | 薬剤の副作用発現リスク精査システム、薬剤の副作用発現リスクを精査するための方法、およびコンピュータプログラム |
-
2018
- 2018-11-29 CN CN201811444462.7A patent/CN109657158B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020040282A1 (en) * | 2000-03-22 | 2002-04-04 | Bailey Thomas C. | Drug monitoring and alerting system |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
US20150120313A1 (en) * | 2013-10-31 | 2015-04-30 | Electronics And Telecommunications Research Institute | Apparatus and method for collecting adverse drug event data over network |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
JP2018147463A (ja) * | 2017-03-02 | 2018-09-20 | 茂樹 扇谷 | 薬剤の副作用発現リスク精査システム、薬剤の副作用発現リスクを精査するための方法、およびコンピュータプログラム |
CN108319734A (zh) * | 2018-04-11 | 2018-07-24 | 中国计量大学 | 一种基于线性组合器的产品特征结构树自动构建方法 |
Non-Patent Citations (5)
Title |
---|
CHRISTOPHER C. YANG 等: ""Social Media Mining for Drug Safety Signal Detection"", 《SHB "12: PROCEEDINGS OF THE 2012 INTERNATIONAL WORKSHOP ON SMART HEALTH AND WELLBEING》 * |
由丽萍 等: ""基于商品评论语义分析的情感知识图谱构建与查询应用"", 《情报理论与实践》 * |
蔡永铭 等: ""基于社交网络监测药品不良反应"", 《医学信息学杂志》 * |
赵明珍 等: ""基于评论挖掘的药物副作用发现机制"", 《中文信息学报》 * |
赵明珍 等: ""面向社交网络的潜在药物不良反应发现"", 《中文信息学报》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222965A (zh) * | 2019-05-28 | 2019-09-10 | 东华大学 | 基于ugc信息挖掘的在线面料供应商资质标准评分方法 |
CN111062199A (zh) * | 2019-11-05 | 2020-04-24 | 北京中科微澜科技有限公司 | 一种不良信息识别方法及装置 |
CN111062199B (zh) * | 2019-11-05 | 2023-12-22 | 北京中科微澜科技有限公司 | 一种不良信息识别方法及装置 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN112949285A (zh) * | 2020-10-13 | 2021-06-11 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
CN112949285B (zh) * | 2020-10-13 | 2024-04-05 | 广州市百果园网络科技有限公司 | 语句文本检测方法、系统、电子设备及存储介质 |
CN112766903A (zh) * | 2021-01-18 | 2021-05-07 | 阿斯利康投资(中国)有限公司 | 识别不良事件的方法、装置、设备及介质 |
CN112766903B (zh) * | 2021-01-18 | 2024-02-06 | 阿斯利康投资(中国)有限公司 | 识别不良事件的方法、装置、设备及介质 |
CN113158073A (zh) * | 2021-03-25 | 2021-07-23 | 上海基绪康生物科技有限公司 | 一种从社交媒体中自动发掘不良药物反应的方法 |
CN117077625A (zh) * | 2023-08-15 | 2023-11-17 | 普蕊斯(上海)医药科技开发股份有限公司 | 一种不良事件等级判定方法、电子设备和存储介质 |
CN117077625B (zh) * | 2023-08-15 | 2024-05-14 | 普蕊斯(上海)医药科技开发股份有限公司 | 一种不良事件等级判定方法、电子设备和存储介质 |
CN117744657A (zh) * | 2023-12-26 | 2024-03-22 | 广东外语外贸大学 | 一种基于神经网络模型的药品不良事件检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109657158B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657158A (zh) | 一种基于社交网络数据的药品不良事件信息提取方法 | |
CN111708874B (zh) | 基于复杂意图智能识别的人机交互问答方法与系统 | |
Savary et al. | The PARSEME shared task on automatic identification of verbal multiword expressions | |
Siddharthan | Text simplification using typed dependencies: A comparision of the robustness of different generation strategies | |
CN109545373A (zh) | 一种人体疾病症状特征自动抽取方法、系统及设备 | |
EP4191439A1 (en) | Method and apparatus for constructing drug knowledge graph | |
CN110069636B (zh) | 融合依存关系与篇章修辞关系的事件时序关系识别方法 | |
Van Valin Jr | Layered syntax in role and reference grammar | |
Gaur et al. | “Who can help me?”: Knowledge Infused Matching of Support Seekers and Support Providers during COVID-19 on Reddit | |
Stella et al. | Cognitive networks identify the content of English and Italian popular posts about COVID-19 vaccines: Anticipation, logistics, conspiracy and loss of trust | |
Chakma et al. | A 5w1h based annotation scheme for semantic role labeling of english tweets | |
CN109446526A (zh) | 一种隐式篇章关系语料库的构建方法、装置和存储介质 | |
Wachowiak et al. | Drum up SUPPORT: Systematic analysis of image-schematic conceptual metaphors | |
Shi et al. | Open text semantic parsing using FrameNet and WordNet | |
Krieger et al. | Information Extraction from German Patient Records via Hybrid Parsing and Relation Extraction Strategies. | |
Maru et al. | Interpreting repetition expressions in the writing of Trump’s addresses during the Covid-19 pandemic | |
CN117493504A (zh) | 一种基于生成式预训练语言模型的医疗事件抽取方法 | |
CN114334049B (zh) | 一种电子病历结构化处理方法和装置及设备 | |
Kitajima et al. | Performance improvement of drug effects extraction system from Japanese blogs | |
Luo et al. | Understanding early experiences of Chinese frontline nurses during the COVID‐19 pandemic: A text mining and thematic analysis of social media information | |
Sari et al. | Ontology model in pediatric nutrition domain | |
Liu et al. | Research on Intelligent Diagnosis Model Based on the Medical Knowledeg Graph of Multi-source Data Fusion | |
Jiang et al. | BLM-It—Blackbird Language Matrices for Italian: A CALAMITA Challenge | |
CN118246428B (zh) | 基于数字人实时交互和生成式人工智能的回忆录生成系统 | |
Baral et al. | The NL2KR system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |