[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

RU2751993C1 - Method for extracting information from unstructured texts written in natural language - Google Patents

Method for extracting information from unstructured texts written in natural language Download PDF

Info

Publication number
RU2751993C1
RU2751993C1 RU2020129790A RU2020129790A RU2751993C1 RU 2751993 C1 RU2751993 C1 RU 2751993C1 RU 2020129790 A RU2020129790 A RU 2020129790A RU 2020129790 A RU2020129790 A RU 2020129790A RU 2751993 C1 RU2751993 C1 RU 2751993C1
Authority
RU
Russia
Prior art keywords
words
texts
length
required information
absence
Prior art date
Application number
RU2020129790A
Other languages
Russian (ru)
Inventor
Глеб Валерьевич Данилов
Михаил Абрамович Шифрин
Александр Александрович Потапов
Юлия Владимировна Струнина
Татьяна Васильевна Цуканова
Татьяна Евгеньевна Пронкина
Александра Вячеславовна Косырькова
Семен Андреевич Мельченко
Original Assignee
Глеб Валерьевич Данилов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Глеб Валерьевич Данилов filed Critical Глеб Валерьевич Данилов
Priority to RU2020129790A priority Critical patent/RU2751993C1/en
Application granted granted Critical
Publication of RU2751993C1 publication Critical patent/RU2751993C1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: computing.SUBSTANCE: invention relates to a method for extracting information from unstructured texts written in a natural language. In the method, a set of texts is tokenised into sentences, words and word sequences, rare words are deleted, words are brought to the initial form without typos, according to the words in the initial form, a selected plurality of words of certain parts of speech is selected, used in the description of the target information, the presence of the target information is determined in word sequences containing all words from the selected plurality, the presence of the target information is determined for all text documents containing marked word sequences, the amount of text sources, the word occurrence threshold, and the set of parts of speech are optimised to achieve a set quality of information extraction.EFFECT: increased quality of information extraction from text data sources.3 cl, 4 dwg, 1 tbl

Description

Изобретение относится к способам анализа текстов, написанных на естественном языке, а именно к способам извлечения информации и разметки текстовых данных. Изобретение позволяет находить искомую информацию в текстах и приписывать текстам метки заданных классов за минимальное количество времени.The invention relates to methods for analyzing texts written in a natural language, and in particular to methods for extracting information and marking up text data. The invention makes it possible to find the required information in texts and to assign labels of specified classes to the texts in a minimum amount of time.

Известен способ извлечения информации с помощью подготовленных словарей или онтологий, например, примененный в работе [1]. Недостатки этого способа заключаются в необходимости подготовки специализированных онтологий для конкретной предметной области, или перевода существующих онтологий на язык, на котором написаны тексты, если готовые онтологии отсутствуют. Этот этап требует значительных затрат ресурсов и времени (как правило, в масштабе не одной организации), и потому не всегда осуществим.There is a known method of extracting information using prepared dictionaries or ontologies, for example, used in [1]. The disadvantages of this method lie in the need to prepare specialized ontologies for a specific subject area, or to translate existing ontologies into the language in which the texts are written, if there are no ready-made ontologies. This stage requires a significant investment of resources and time (as a rule, on the scale of more than one organization), and therefore is not always feasible.

Известен также способ извлечения информации из неструктурированных текстов, написанных на естественном языке, заключающийся в том, что определяют все источники текстовых данных, в которых содержится искомая информация, составляют множество текстов из всех определенных источников текстовых данных, токенизируют множество текстов на слова, удаляют слова, встречающиеся в текстах реже заданного числа раз, все слова приводят к начальной форме и исправляют в них опечатки, по словам в начальной форме отбирают все слова в исходной форме, которые могут быть использованы в описании искомой информации, и тем самым формируют избранное множество слов, токенизируют множество текстов на последовательности слов длины N, во всех последовательностях слов длины N, содержащих все слова из избранного множества слов, устанавливают наличие или отсутствие искомой информации, для всех документов, содержащих последовательности слов длины N, для которых установлено наличие или отсутствие искомой информации и устанавливают наличие или отсутствие искомой информации [2].There is also known a method of extracting information from unstructured texts written in a natural language, which consists in the fact that all sources of textual data that contain the required information are determined, constitute a set of texts from all defined sources of textual data, tokenize many texts into words, delete words, occurring in texts less often than a given number of times, all words lead to the initial form and correct typos in them, according to words in the initial form, they select all words in their original form that can be used in the description of the required information, and thereby form a selected set of words, tokenize a set of texts on a sequence of words of length N, in all sequences of words of length N, containing all words from a selected set of words, establish the presence or absence of the required information, for all documents containing sequences of words of length N, for which the presence or absence of the required information and mouth is established impose the presence or absence of the required information [2].

Недостатки этого способа заключаются в невысокой эффективности, а именно: избыточном объеме обрабатываемых данных, отсутствии методов уменьшения этого объема без потери качества, больших затратах времени на реализацию способа, а также в недостаточном качестве извлечения информации из источников текстовых данных и разметки источников текстовых данных, например, текстовых документов связанном с потерей информации из предложений, состоящих менее, чем из N слов. Этот способ выбран в качестве прототипа предложенного решения. Технический результат применения изобретения, в целом, заключается в повышении эффективности и качества извлечения информации из источников текстовых данных и разметки источников текстовых данных, например, текстовых документов при сокращении времени на решение этих задач.The disadvantages of this method lie in low efficiency, namely: an excessive amount of processed data, the absence of methods for reducing this volume without loss of quality, a large amount of time spent on the implementation of the method, as well as insufficient quality of information extraction from text data sources and markup of text data sources, for example , text documents associated with the loss of information from sentences consisting of less than N words. This method was chosen as a prototype of the proposed solution. The technical result of the application of the invention, in general, is to increase the efficiency and quality of information extraction from text data sources and markup of text data sources, for example, text documents, while reducing the time spent on solving these problems.

Сущностью изобретения является и указанный технический результат достигается тем, что в способе извлечения информации из неструктурированных текстов, написанных на естественном языке, заключающемся в том, что определяют все источники текстовых данных, в которых содержится искомая информация, составляют множество текстов из всех определенных источников текстовых данных, токенизируют множество текстов на слова, удаляют слова, встречающиеся в текстах реже заданного числа раз, все слова приводят к начальной форме и исправляют в них опечатки, по словам в начальной форме отбирают все слова в исходной форме, которые могут быть использованы в описании искомой информации, и тем самым формируют избранное множество слов, токенизируют множество текстов на последовательности слов длины N, во всех последовательностях слов длины N, содержащих все слова из избранного множества слов, устанавливают наличие или отсутствие искомой информации, для всех документов, содержащих последовательности слов длины N, для которых установлено наличие или отсутствие искомой информации и устанавливают наличие или отсутствие искомой информации, уменьшают число источников текстовых данных до минимального так, чтобы обеспечить заданное качество извлечения информации, перед отбором слов в избранное множество слов удаляют слова, встречающиеся в текстах реже заданного числа раз так, чтобы обеспечить заданное качество извлечения информации при минимальном объеме обрабатываемых данных, определяют набор частей речи и отбирают только им соответствующие слова так, чтобы обеспечить заданное качество извлечения информации при минимальном объеме обрабатываемых данных, для получения последовательностей слов длины N множество текстов сначала токенизируют на предложения, затем предложения токенизируют на последовательности слов длины N, отбирают последовательности слов длины N, в которых слова из избранного множества слов содержатся на центральных позициях, если с последовательности слов длины N предложение не начинается и этой последовательностью не заканчивается, на первых позициях, если с последовательности слов длины N предложение начинается, и на последних позициях, если последовательностью слов длины N предложение заканчивается, во всех предложениях, содержащих менее N слов и хотя бы одно слово из избранного множества слов, устанавливают наличие или отсутствие искомой информации, устанавливают наличие или отсутствие искомой информации в последовательности слов длины N и в предложении, содержащем менее N слов, с помощью значения из числового интервала от 0 включительно, если искомой информации нет, до 1, если искомая информация имеется, принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N и предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, при этом число источников текстов, порог встречаемости слов, набор частей речи совместно подбирают так, чтобы обеспечить заданное качество извлечения информации при минимальном объеме обрабатываемых данных. При значении N, превышающем число слов в самом длинном предложении всего множества текстов, устанавливают наличие или отсутствие искомой информации во всех предложениях множества текстов, содержащих хотя бы одно слово из избранного множества слов, без использования последовательностей слов длины N. Существует вариант, в котором принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N и предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, по факту наличия хотя бы одной последовательности слов длины N или предложения, содержащего менее N слов, которые оценили как 0 или 1.The essence of the invention is and the specified technical result is achieved by the fact that in the method of extracting information from unstructured texts written in a natural language, which consists in the fact that all sources of textual data that contain the required information are determined, there are many texts from all defined sources of textual data , tokenize a set of texts into words, delete words that occur in texts less often than a given number of times, all words lead to the initial form and correct typos in them, according to words in the initial form they select all words in their original form that can be used in the description of the required information , and thereby form a selected set of words, tokenize a set of texts on a sequence of words of length N, in all sequences of words of length N containing all words from a selected set of words, establish the presence or absence of the required information, for all documents containing sequences of words of length N , for which the presence or absence of the required information is established and the presence or absence of the required information is established, the number of text data sources is reduced to a minimum so as to ensure the specified quality of information extraction, before the selection of words in the selected set of words, words that occur in texts less often than a specified number of times are deleted so as to ensure the specified quality of information extraction with a minimum amount of data being processed, a set of parts of speech is determined and only corresponding words are selected so as to provide a specified quality of information extraction with a minimum amount of processed data, to obtain sequences of words of length N, a set of texts is first tokenized into sentences , then sentences are tokenized on a sequence of words of length N, sequences of words of length N are selected, in which words from the selected set of words are contained in central positions, if the sentence does not begin with a sequence of words of length N and does not end with this sequence, in the first positions, if the sentence begins with a sequence of words of length N, and in the last positions, if the sentence ends with a sequence of words of length N, in all sentences containing less than N words and at least one word from the selected set of words , establish the presence or absence of the required information, establish the presence or absence of the required information in a sequence of words of length N and in a sentence containing less than N words, using a value from a numerical interval from 0 inclusive, if the required information is not available, to 1, if the required information is available , make a decision on the presence or absence of the required information in the original source of texts by the totality of sequences of words of length N and sentences containing less than N words in it, for which the presence or absence of the required information is established, while the number of sources of texts, the threshold of occurrence of words, a set of parts speeches are jointly selected so that ensure the specified quality of information extraction with a minimum amount of processed data. When the value N exceeds the number of words in the longest sentence of the entire set of texts, the presence or absence of the required information is established in all sentences of the set of texts containing at least one word from the selected set of words, without using sequences of words of length N. There is a variant in which the decision on the presence or absence of the required information in the original source of texts by the totality of sequences of words of length N and sentences containing less than N words in it, for which the presence or absence of the required information is established, by the presence of at least one sequence of words of length N or a sentence containing less than N words rated as 0 or 1.

Существует также вариант, в котором принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N или предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, по сумме оценок и ее пороговому значению, полученному при оптимизации показателей качества изложенного способа извлечения информации на тестовой выборке.There is also a variant in which a decision is made on the presence or absence of the required information in the original source of texts by the totality of sequences of words of length N or sentences containing less than N words, for which the presence or absence of the required information is established, by the sum of estimates and its threshold value , obtained by optimizing the quality indicators of the stated method for extracting information on the test sample.

Существует также вариант, в котором измеряют точность извлечения информации с помощью заданных метрик качества и программного обеспечения на выборке текстов из ранее определенных источников текстовых данных.There is also a variant in which the accuracy of information extraction is measured using specified quality metrics and software on a sample of texts from previously defined text data sources.

На прилагаемых графических материалах представлены результаты применения изобретения для идентификации мышечной слабости в конечностях до операции у 1167 пациентов нейрохирургической клиники. На фиг. 1 изображена ROC-кривая для способа извлечения информации в варианте 2. На фиг.2 представлена ROC-кривая для способа извлечения информации в варианте 2 с с использованием только существительных. На фиг. 3 показаны графики метрик качества способа извлечения информации в варианте 1 с с использованием только существительных в зависимости от порогового значения числа встречаемости слов в исходном множестве текстов. На фиг.4 показаны графики метрик качества способа извлечения информации в варианте 1 с с использованием только существительных в зависимости от порогового значения числа встречаемости слов в диапазоне 0-10.The accompanying graphic materials show the results of using the invention to identify muscle weakness in the limbs before surgery in 1167 patients of the neurosurgical clinic. FIG. 1 shows the ROC curve for the information extraction method in option 2. FIG. 2 shows the ROC curve for the information extraction method in option 2 with using only nouns. FIG. 3 shows graphs of the quality metrics of the information extraction method in option 1 with the use of only nouns, depending on the threshold value of the number of occurrences of words in the original set of texts. Figure 4 shows graphs of the quality metrics of the information extraction method in option 1 with using only nouns depending on the threshold value of the number of occurrence of words in the range of 0-10.

Осуществление изобретенияImplementation of the invention

Способ извлечения информации из неструктурированных текстов, написанных на естественном языке, включает следующие этапы. Сначала определяют все источники текстовых данных, в которых содержится искомая информация. Это может быть осуществлено следующим образом. Выбирают электронные и неэлектронные библиотеки, архивы, документы, интернет-ресурсы, информационные системы, телекоммуникационные системы, файлы и любые другие хранилища неструктурированной текстовой информации, а также их внутренние разделы и подразделы, поля баз данных и другие источники, содержащие искомую информацию на любых носителях текстовых данных (бумага, фотопленка, электронные запоминающие устройства, прочие носители). Далее составляют множество текстов из всех определенных источников текстовых данных, при этом, например, предварительно переводят текст в электронный текстовый формат с помощью набора текста на клавиатуре, сканирования источника и последующего распознавания программными средствами, диктования компьютеру и последующего распознавания речи и преобразования ее в текстовый формат программными средствами, а также прочими возможными способами. Множество текстов из всех источников формируют в таком виде, в котором для каждого текста указан источник и при необходимости другие идентифицирующие текст структурированные метаданные. Дальнейшую работу с текстами проводят в электронном виде. Токенизируют множество текстов на слова (например, так, как это описано в работе [3]), удаляют слова, встречающиеся в текстах реже заданного числа раз [4], все слова приводят к начальной форме и исправляют в них опечатки (например, по методам, описанным в работах [2, 5, 6]). При этом токенизацию производят с помощью написанных на языках программирования функций, в том числе, входящих в состав специальных библиотек (например, в языках программирования R, Python). Слова приводят к начальной (нормальной, словарной) форме с помощью программных средств лемматизации, заложенных в возможности языков программирования [3], функций специальных библиотек для языков программирования или специального программного обеспечения (например, MyStem, TreeTagger, UDPipe [7-9]), с помощью словарей и других инструментов для приведения слов к начальной форме [2]. Для исправления опечаток в словах используют методы, основанные на кластеризации по расстоянию Левенштейна в модификациях, фонетических и других правилах, специальные словари, функции, написанные на языках программирования, программное обеспечение (например, Hunspell checker) [2, 5, 10]. По словам в начальной форме отбирают все слова в исходной форме, которые могут быть использованы в описании искомой информации, и тем самым формируют избранное множество слов. Это может быть выполнено следующим образом. Из полного списка слов в начальной форме отбирают в отдельный список только те слова, которые в разных словарных формах с учетом возможных опечаток используются в описании искомой информации. Данный этап может быть реализован с помощью программного обеспечения, обеспечивающего просмотр и отбор слов в начальной форме (например, обозначенного в работе [2]). Далее токенизируют множество текстов на последовательности слов длины N, во всех последовательностях слов длины N, содержащих все слова из избранного множества слов, устанавливают наличие или отсутствие искомой информации, для всех документов, содержащих последовательности слов длины N, для которых установлено наличие или отсутствие искомой информации и устанавливают наличие или отсутствие искомой информации. Это может быть осуществлено следующим образом. Токенизацию множества текстов на последовательности слов длины N производят с помощью написанных на языках программирования функций, в том числе, входящих в состав специальных библиотек (например, в языках программирования R, Python). Отбор последовательности слов длины N, содержащих слова из избранного множества слов, проводят автоматически с помощью средств языков программирования или специального программного обеспечения при наличии такового [2]. Наличие или отсутствие искомой информации для всех документов, содержащих последовательности слов длины N, для которых установлено наличие или отсутствие искомой информации, устанавливается автоматически с помощью средств языков программирования или специального программного обеспечения при наличии такового [2]. Отличительным признаком предложенного решения является то, что уменьшают число источников текстовых данных до минимального так, чтобы обеспечить заданное качество извлечения информации. Это может быть осуществлено следующим образом. Способ извлечения информации из неструктурированных текстов, написанных на естественном языке, тестируют на наборе текстовых данных, для которых известно наличие или отсутствие искомой информации, варьируя число и состав источников информации. При тестировании с помощью средств языков программирования определяют метрики качества, например: точность, чувствительность, специфичность, положительное прогностическое значение, отрицательное прогностическое значение, площадь под ROC-кривой с доверительными интервалами, F1-меру. С помощью средств языков программирования (например, R, Python) отбирают минимальное число и состав источников, при использовании которых способ извлечения информации из неструктурированных текстов, написанных на естественном языке, обеспечивает заданные или более высокие значения метрик в тесте на наборе текстовых данных, для которых известно наличие или отсутствие искомой информации. Далее перед отбором слов в избранное множество слов удаляют слова, встречающиеся в текстах реже заданного числа раз так, чтобы обеспечить заданное качество извлечения информации при минимальном объеме обрабатываемых данных. Это может быть осуществлено следующим образом. С помощью средств языков программирования (например, R, Python) варьируют порог числа встречаемости слов в исходном множестве текстов, по которому удаляют слова, и отбирают максимальное пороговое значение так, что при удалении слов, встречающиеся в текстах реже порогового числа раз, способ извлечения информации из неструктурированных текстов, написанных на естественном языке, обеспечивает заданные или более высокие значения метрик качества в тесте на наборе текстовых данных, для которых известно наличие или отсутствие искомой информации. После этого определяют набор частей речи и отбирают только им соответствующие слова так, чтобы обеспечить заданное качество извлечения информации при минимальном объеме обрабатываемых данных. Это может быть осуществлено следующим образом. С помощью средств языков программирования (например, R, Python) перед отбором слов в начальной форме в избранное множество слов варьируют число и комбинацию частей речи и отбирают минимальное число и комбинацию частей речи так, что при удалении слов, соответствующих, прочим частям речи, способ извлечения информации из неструктурированных текстов, написанных на естественном языке, обеспечивает заданные или более высокие значения метрик качества в тесте на наборе текстовых данных, для которых известно наличие или отсутствие искомой информации. Для получения последовательностей слов длины N множество текстов сначала токенизируют на предложения, затем предложения токенизируют на последовательности слов длины N, отбирают последовательности слов длины N, в которых слова из избранного множества слов содержатся на центральных позициях, если с последовательности слов длины N предложение не начинается и этой последовательностью не заканчивается, на первых позициях, если с последовательности слов длины N предложение начинается, и на последних позициях, если последовательностью слов длины N предложение заканчивается. Это может быть осуществлено следующим образом. Токенизацию множества текстов на предложения, а также токенизацию предложений на последовательности слов длины N производят с помощью написанных на языках программирования функций, в том числе, входящих в состав специальных библиотек (например, в языках программирования R, Python). Определяют позицию каждого слова из избранного множества слов внутри последовательности слов длины N, отбирают последовательности слов длины N при наличии слова на определенной позиции с помощью написанных на языках программирования функций, в том числе, входящих в состав специальных библиотек (например, в языках программирования R, Python). Во всех предложениях, содержащих менее N слов и хотя бы одно слово из избранного множества слов, устанавливают наличие или отсутствие искомой информации. При значении N, превышающем число слов в самом длинном предложении всего множества текстов, устанавливают наличие или отсутствие искомой информации во всех предложениях множества текстов, содержащих хотя бы одно слово из избранного множества слов. Устанавливают наличие или отсутствие искомой информации в последовательности слов длины N и в предложении, содержащем менее N слов, с помощью значения из числового интервала от 0 включительно, если искомой информации нет, до 1. При этом устанавливают значение 1, если в последовательности слов длины N и в предложении содержится искомая информация; значение 0, если в последовательности слов длины N и в предложении искомая информация не содержится; значение 0,5, если в последовательности слов длины N и в предложении нельзя исключить содержание искомой информации; прочие значения в интервале от 0 до 1, если это оправдано в задаче извлечения конкретной искомой информации. Если искомая информация имеется, принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N и предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации. Это может быть осуществлено следующим образом. С помощью средств языков программирования (например, R, Python) определяют вхождение последовательности слов длины N и предложений, для которых установлено наличие или отсутствие искомой информации, в каждый исходный источник текстов и анализируют совокупность оценок последовательностей слов длины N и предложений в каждом источнике текстов. С помощью средств языков программирования (например, R, Python) на основании совокупности оценок последовательностей слов длины N и предложений в каждом источнике текстов определяют наличие или отсутствие искомой информации. При этом число источников текстов, порог встречаемости слов, набор частей речи подбирают в совокупности так, чтобы обеспечить заданное качество извлечения информации при минимальном объеме обрабатываемых данных. Это может быть осуществлено следующим образом. С помощью средств языка программирования (например, R, Python) минимизируются число источников текстов и набор частей речи, при этом максимизируется порог встречаемости слов, при котором слова могут быть отобраны в избранное множество слов - так, что способ извлечения информации из неструктурированных текстов, написанных на естественном языке, обеспечивает заданные или более высокие значения метрик качества в тесте на наборе текстовых данных, для которых известно наличие или отсутствие искомой информации.The method for extracting information from unstructured natural language texts includes the following steps. First, all sources of text data that contain the required information are determined. This can be done as follows. They choose electronic and non-electronic libraries, archives, documents, Internet resources, information systems, telecommunication systems, files and any other repositories of unstructured text information, as well as their internal sections and subsections, database fields and other sources containing the required information on any media text data (paper, film, electronic storage devices, other media). Further, many texts are compiled from all defined sources of textual data, while, for example, the text is preliminarily translated into an electronic text format by typing on the keyboard, scanning the source and then software recognition, dictating to the computer and then recognizing the speech and converting it into a text format software, as well as in other possible ways. The set of texts from all sources is formed in such a form in which the source and, if necessary, other structured metadata identifying the text are indicated for each text. Further work with the texts is carried out in electronic form. They tokenize a set of texts into words (for example, as described in [3]), delete words that occur in texts less often than a given number of times [4], all words lead to the initial form and correct typos in them (for example, using the methods described in [2, 5, 6]). In this case, tokenization is performed using functions written in programming languages, including those that are part of special libraries (for example, in the programming languages R, Python). Words are brought to the initial (normal, dictionary) form with the help of lemmatization software, embedded in the capabilities of programming languages [3], functions of special libraries for programming languages or special software (for example, MyStem, TreeTagger, UDPipe [7-9]), using dictionaries and other tools to bring words to their initial form [2]. To correct typos in words, methods are used based on clustering by Levenshtein distance in modifications, phonetic and other rules, special dictionaries, functions written in programming languages, software (for example, Hunspell checker) [2, 5, 10]. According to words in the initial form, all words in the original form are selected that can be used in describing the required information, and thereby form a selected set of words. This can be done as follows. From the complete list of words in the initial form, select into a separate list only those words that are used in different vocabulary forms, taking into account possible misprints, in the description of the required information. This stage can be implemented using software that provides viewing and selection of words in the initial form (for example, indicated in [2]). Next, a set of texts is tokenized on a sequence of words of length N, in all sequences of words of length N, containing all words from a selected set of words, the presence or absence of the required information is established, for all documents containing sequences of words of length N, for which the presence or absence of the required information is established and establish the presence or absence of the required information. This can be done as follows. Tokenization of a set of texts on a sequence of words of length N is performed using functions written in programming languages, including those that are part of special libraries (for example, in the programming languages R, Python). The selection of a sequence of words of length N containing words from a selected set of words is carried out automatically using the means of programming languages or special software, if available [2]. The presence or absence of the required information for all documents containing sequences of words of length N, for which the presence or absence of the required information is established, is established automatically using the means of programming languages or special software, if available [2]. A distinctive feature of the proposed solution is that the number of text data sources is reduced to a minimum so as to ensure the specified quality of information extraction. This can be done as follows. The method of extracting information from unstructured texts written in natural language is tested on a set of text data for which the presence or absence of the required information is known, varying the number and composition of information sources. When testing using programming languages, quality metrics are determined, for example: accuracy, sensitivity, specificity, positive predictive value, negative predictive value, area under the ROC curve with confidence intervals, F1-measure. Using the means of programming languages (for example, R, Python), the minimum number and composition of sources are selected, when using which the method of extracting information from unstructured texts written in natural language provides specified or higher values of metrics in the test on a set of text data, for which the presence or absence of the required information is known. Further, before selecting words for the selected set of words, words are removed that occur in texts less often than a specified number of times so as to ensure a specified quality of information extraction with a minimum amount of data being processed. This can be done as follows. Using the means of programming languages (for example, R, Python), the threshold for the number of occurrences of words in the original set of texts is varied, according to which words are removed, and the maximum threshold value is selected so that when removing words that occur in the texts less often than the threshold number of times, the method for extracting information from unstructured natural language texts, provides specified or higher values of quality metrics in a test on a set of textual data for which the presence or absence of the required information is known. After that, a set of parts of speech is determined and only their corresponding words are selected so as to provide a given quality of information extraction with a minimum amount of data being processed. This can be done as follows. Using the means of programming languages (for example, R, Python), before selecting words in the initial form to the selected set of words, the number and combination of parts of speech are varied and the minimum number and combination of parts of speech are selected so that when removing words corresponding to other parts of speech, the method extraction of information from unstructured texts written in natural language provides specified or higher values of quality metrics in the test on a set of text data for which the presence or absence of the required information is known. To obtain sequences of words of length N, a set of texts is first tokenized into sentences, then sentences are tokenized into sequences of words of length N, sequences of words of length N are selected, in which words from the selected set of words are contained in central positions, if the sentence does not begin with a sequence of words of length N, and this sequence does not end, in the first positions, if the sentence begins with a sequence of words of length N, and in the last positions, if the sentence ends with a sequence of words of length N. This can be done as follows. The tokenization of a set of texts into sentences, as well as the tokenization of sentences on a sequence of words of length N, is performed using functions written in programming languages, including those included in special libraries (for example, in the programming languages R, Python). The position of each word from the selected set of words within a sequence of words of length N is determined, sequences of words of length N are selected if there is a word at a certain position using functions written in programming languages, including those included in special libraries (for example, in programming languages R, Python). In all sentences containing less than N words and at least one word from the selected set of words, the presence or absence of the required information is established. If the value N exceeds the number of words in the longest sentence of the entire set of texts, the presence or absence of the required information is established in all sentences of the set of texts containing at least one word from the selected set of words. The presence or absence of the required information in a sequence of words of length N and in a sentence containing less than N words is established using a value from a numerical interval from 0 inclusive, if there is no required information, to 1. At the same time, the value is set to 1 if in a sequence of words of length N and the offer contains the required information; value 0 if the required information is not contained in the sequence of words of length N and in the sentence; value 0.5, if the content of the required information cannot be excluded in the sequence of words of length N and in the sentence; other values in the range from 0 to 1, if it is justified in the task of extracting specific required information. If the required information is available, a decision is made on the presence or absence of the required information in the original source of texts based on the totality of sequences of words of length N and sentences containing less than N words in it, for which the presence or absence of the required information has been established. This can be done as follows. Using the means of programming languages (for example, R, Python), the occurrence of a sequence of words of length N and sentences for which the presence or absence of the required information has been established is determined in each source of texts and a set of estimates of sequences of words of length N and sentences in each source of texts is analyzed. Using the means of programming languages (for example, R, Python), based on a set of evaluations of sequences of words of length N and sentences in each text source, the presence or absence of the required information is determined. In this case, the number of sources of texts, the threshold of occurrence of words, the set of parts of speech are selected in aggregate so as to ensure the specified quality of information extraction with a minimum amount of processed data. This can be done as follows. Using the means of a programming language (for example, R, Python), the number of text sources and a set of parts of speech are minimized, while the threshold of occurrence of words is maximized at which words can be selected into a selected set of words - so that the way to extract information from unstructured texts written in natural language, provides specified or higher values of quality metrics in a test on a set of textual data for which the presence or absence of the required information is known.

Существует вариант, в котором принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N и предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, по факту наличия хотя бы одной последовательности слов длины N или предложения, содержащего менее N слов, которые оценили как 0 или 1. Это может быть осуществлено следующим образом. При наличии хотя бы одной последовательности длины N или предложения, оцененных как 1 в исходном источнике документов, устанавливается наличие искомой информации в данном исходном источнике текстовых данных. В противном случае устанавливается отсутствие информации в данном исходном источнике текстов.There is a variant in which a decision is made on the presence or absence of the required information in the original source of texts based on the totality of sequences of words of length N and sentences containing less than N words, for which the presence or absence of the required information is established, upon the presence of at least one sequence of words length N or a sentence containing less than N words that are rated as 0 or 1. This can be done as follows. If there is at least one sequence of length N or a sentence, evaluated as 1 in the original source of documents, the presence of the required information in this original source of text data is established. Otherwise, the absence of information in this original source of texts is established.

Существует также вариант, в котором принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N или предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, по сумме оценок и ее пороговому значению, полученному при оптимизации показателей качества изложенного способа извлечения информации на тестовой выборке. Это может быть осуществлено следующим образом. С помощью средств языков программирования (например, R, Python) определяют вхождение последовательности слов длины N и предложений, для которых установлено наличие или отсутствие искомой информации, в каждый исходный источник текстов и суммируют оценки последовательностей слов длины N и предложений в каждом источнике текстов. С помощью средств языков программирования (например, R, Python) определяют значение суммы оценок последовательностей слов длины N и предложений в каждом источнике текстов, пороговое для принятия решений о наличии или отсутствии искомой информации в каждом источнике текстов, так, чтобы на тестовом наборе текстовых данных максимизировалась сумма чувствительности и специфичности способа извлечения информации из неструктурированных текстов, написанных на естественном языке, или оптимизировалась другая метрика интереса.There is also a variant in which a decision is made on the presence or absence of the required information in the original source of texts by the totality of sequences of words of length N or sentences containing less than N words, for which the presence or absence of the required information is established, by the sum of estimates and its threshold value , obtained by optimizing the quality indicators of the stated method for extracting information on the test sample. This can be done as follows. Using the means of programming languages (for example, R, Python), the occurrence of a sequence of words of length N and sentences for which the presence or absence of the required information is established is determined in each original source of texts and the estimates of sequences of words of length N and sentences in each source of texts are summed up. Using the means of programming languages (for example, R, Python), the value of the sum of estimates of sequences of words of length N and sentences in each text source is determined, the threshold for making decisions about the presence or absence of the required information in each text source, so that on the test set of text data the sum of the sensitivity and specificity of the method for extracting information from unstructured natural language texts was maximized, or another metric of interest was optimized.

Существует также вариант, в котором дополнительно измеряют точность извлечения информации с помощью заданных метрик качества и программного обеспечения на выборке текстов из ранее определенных источников текстовых данных, которая не использовалась для минимизации числа источников текстов и набора частей речи, а также максимизации порога встречаемости слов, по которому слова могут быть отобраны в избранное множество слов. Это может быть осуществлено следующим образом. Используют набор источников текстовых данных, для которых установлено наличие или отсутствие искомой информации и который не используется для минимизации числа источников текстов и набора частей речи, а также максимизации порога встречаемости слов, по которому слова могут быть отобраны в избранное множество слов. С помощью средств языков программирования (например, R, Python), используя данный набор источников текстовых данных, определяют заданные метрики качества: точность, чувствительность, специфичность, положительное прогностическое значение, отрицательное прогностическое значение, площадь под ROC-кривой с доверительными интервалами, F1-меру и другие метрики качества при необходимости.There is also an option in which the accuracy of information extraction is additionally measured using specified quality metrics and software on a sample of texts from previously defined text data sources, which was not used to minimize the number of text sources and a set of parts of speech, as well as to maximize the word occurrence threshold, according to to which words can be selected into a selected set of words. This can be done as follows. A set of text data sources is used, for which the presence or absence of the required information is established and which is not used to minimize the number of text sources and a set of parts of speech, as well as to maximize the word occurrence threshold by which words can be selected into a selected set of words. Using the means of programming languages (for example, R, Python), using this set of text data sources, the specified quality metrics are determined: accuracy, sensitivity, specificity, positive predictive value, negative predictive value, area under the ROC curve with confidence intervals, F1- measure and other quality metrics, if necessary.

Технические результаты Технический результат применения изобретения заключается в повышении эффективности и качества извлечения информации из источников текстовых данных и разметки источников текстовых данных (например, текстовых документов) при сокращении времени на решение этих задач.Technical Results The technical result of applying the invention is to improve the efficiency and quality of information extraction from text data sources and markup of text data sources (for example, text documents) while reducing the time spent on solving these problems.

Уменьшение числа источников текстов, удаление слов, встречающиеся в текстах реже заданного числа раз, минимизация набора частей речи позволяют сократить объем обрабатываемых данных при извлечении информации и разметке источников текстовых данных, что обеспечивает сокращение времени на извлечение информации и разметку источников текстовых данных без потери качества - то есть приводит к техническому результату - повышению эффективности извлечения информации и разметки источников текстовых данных.Reducing the number of text sources, removing words that occur in texts less often than a given number of times, minimizing the set of parts of speech can reduce the amount of processed data when extracting information and marking up text data sources, which reduces the time required to extract information and mark up text data sources without losing quality - that is, it leads to the technical result - an increase in the efficiency of information extraction and markup of text data sources.

Предварительная токенизация множества текстов на предложения перед токенизацией предложений на последовательности слов длины N позволяет сократить объем последовательностей слов длины N и предотвратить создание последовательностей слов длины N, ранее не встречавшихся внутри предложений, что обеспечивает сокращение времени на извлечение информации и разметки текстовых данных и уменьшает число возможных ошибок извлечения информации и разметки текстовых данных - то есть приводит к техническим результатам - повышению эффективности и качества извлечения информации и разметки источников текстовых данных.Pre-tokenization of a set of texts into sentences before tokenization of sentences on a sequence of words of length N allows one to reduce the volume of sequences of words of length N and prevent the creation of sequences of words of length N that were not previously encountered inside sentences, which provides a reduction in the time for extracting information and marking text data and reduces the number of possible errors of information extraction and text data markup - that is, leads to technical results - an increase in the efficiency and quality of information extraction and markup of text data sources.

Отбор последовательностей слов длины N, в которых слова из избранного множества слов содержатся на центральных позициях, если с последовательности слов длины N предложение не начинается и этой последовательностью не заканчивается, на первых позициях, если с последовательности слов длины N предложение начинается, и на последних позициях, если последовательностью слов длины N предложение заканчивается, позволяет сократить объем последовательностей слов длины N, что обеспечивает сокращение времени на извлечение информации и разметки текстовых данных - то есть приводит к техническому результату -повышению эффективности извлечения информации и разметки источников текстовых данных.Selection of sequences of words of length N, in which words from the selected set of words are contained in central positions, if the sentence does not begin with a sequence of words of length N and does not end with this sequence, in the first positions, if the sentence begins with a sequence of words of length N, and in the last positions , if the sentence ends with a sequence of words of length N, it allows to reduce the volume of sequences of words of length N, which provides a reduction in the time for extracting information and marking up text data - that is, it leads to the technical result - an increase in the efficiency of information extraction and marking up text data sources.

Установление наличия или отсутствия искомой информации во всех предложениях, содержащих менее N слов и хотя бы одно слово из избранного множества слов, позволяет не потерять часть информации, то есть приводит к техническому результату - повышению качества извлечения информации и разметки источников текстовых данных.Establishing the presence or absence of the required information in all sentences containing less than N words and at least one word from the selected set of words allows not to lose part of the information, that is, it leads to the technical result - to improve the quality of information extraction and markup of text data sources.

Установление наличия или отсутствия искомой информации в последовательностях слов длины N и в предложениях, содержащих менее N слов, с помощью значения из числового интервала от 0 до 1 обеспечивает увеличение надежности и гибкости извлечения информации и разметки текстовых данных, то есть приводит к техническому результату - повышению качества извлечения информации и разметки источников текстовых данных.Establishing the presence or absence of the required information in sequences of words of length N and in sentences containing less than N words using a value from a numerical interval from 0 to 1 provides an increase in the reliability and flexibility of information extraction and text data markup, that is, leads to a technical result - an increase quality of information extraction and markup of text data sources.

Принятие решения о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N и предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, обеспечивает увеличение надежности и гибкости извлечения информации и разметки текстовых данных, то есть приводит к техническому результату - повышению качества извлечения информации и разметки источников текстовых данных.Making a decision on the presence or absence of the required information in the original source of texts based on the aggregate in it of sequences of words of length N and sentences containing less than N words, for which the presence or absence of the required information is established, provides an increase in the reliability and flexibility of extracting information and marking up textual data, then that is, it leads to the technical result - improving the quality of information extraction and markup of text data sources.

Совместный подбор источников текстов, порога встречаемости слов, набора частей речи обеспечивает заданное качество извлечения информации и разметки источников текстовых данных при минимальном объеме обрабатываемых данных, то есть приводит к техническому результату -повышению эффективности и качества извлечения информации и разметки источников текстовых данных.The joint selection of text sources, the threshold of occurrence of words, a set of parts of speech provides a given quality of information extraction and labeling of text data sources with a minimum amount of processed data, that is, it leads to the technical result - an increase in the efficiency and quality of information extraction and labeling of text data sources.

Контроль заданных метрик качества: точности, чувствительности, специфичности, положительного прогностического значения, отрицательного прогностического значения, площади под ROC-кривой с доверительными интервалами, F1-меры и при необходимости других метрик качества на наборе источников текстовых данных, для которых установлено наличие или отсутствие искомой информации и который не используется для минимизации числа источников текстов и набора частей речи, а также максимизации порога встречаемости слов, по которому слова могут быть отобраны в избранное множество слов, приводит к техническому результату - повышению качества извлечения информации и разметки источников текстовых данных.Control of the specified quality metrics: accuracy, sensitivity, specificity, positive predictive value, negative predictive value, area under the ROC-curve with confidence intervals, F1-measures and, if necessary, other quality metrics on a set of text data sources for which the presence or absence of the desired information and which is not used to minimize the number of sources of texts and a set of parts of speech, as well as to maximize the threshold of occurrence of words, according to which words can be selected into a selected set of words, leads to the technical result - to improve the quality of information extraction and markup of text data sources.

Пример использования изобретения Изложенный способ извлечения информации из неструктурированных текстов, написанных на естественном языке, был применен для извлечения информации о наличии или отсутствии мышечной слабости у 1167 пациентов с опухолью головного мозга при поступлении в нейрохирургическую клинику. Для реализации способа были определены все источники текстовых данных в электронной истории болезни, в которых содержалась искомая информация о наличии или отсутствии мышечной слабости у данных пациентов при поступлении в нейрохирургическую клинику: документ, отражающий данные первичного осмотра пациента, и раздел выписного эпикриза, повторяющий в свободной форме данные первичного осмотра. Для 1167 пациентов из указанных источников текстовых данных составлено множество текстов. Это множество текстов далее было токенизировано на 9932 уникальных слова, и для каждого слова было подсчитано число употреблений во всем множестве текстов. Далее все слова были приведены к начальной форме с помощью лемматизатора MyStem (Yandex). С помощью слов в начальной форме в избранное множество слов были отобраны все слова (738), используемые для описания мышечной слабости.Example of using the invention The disclosed method of extracting information from unstructured texts written in natural language was used to extract information about the presence or absence of muscle weakness in 1167 patients with a brain tumor upon admission to a neurosurgical clinic. To implement the method, all sources of textual data in the electronic medical history were identified, which contained the required information about the presence or absence of muscle weakness in these patients upon admission to the neurosurgical clinic: a document reflecting the data of the initial examination of the patient, and a section of the discharge summary, which was repeated in a free form the data of the initial examination. Many texts have been compiled for 1167 patients from these textual data sources. This set of texts was further tokenized into 9932 unique words, and the number of occurrences in the entire set of texts was counted for each word. Further, all words were brought to their initial form using the lemmatizer MyStem (Yandex). With the help of words in the initial form, all the words (738) used to describe muscle weakness were selected into a selected set of words.

Множество текстов далее токенизировали на последовательности слов длины N и отобрали 7413 последовательностей слов длины N и предложений, из менее N слов, содержащих слова из избранного множества слов, как описано в способе. Для каждой последовательности слов длины N и предложения, содержащего менее N слов, устанавливали наличие или отсутствие искомой информации о мышечной слабости, присваивая оценки 1 или 0 соответственно, а также оценку 0,5, если наличие искомой информации о мышечной слабости нельзя было подтвердить или исключить. Вышеописанные этапы работы были выполнены в течение 13 часов. Далее устанавливали наличие или отсутствие искомой информации о мышечной слабости для всех документов, содержащих последовательности слов длины N и предложения, содержащие менее N слов, для которых было установлено наличие или отсутствие искомой информации, с помощью нескольких вариантов.The plurality of texts were further tokenized into word sequences of length N and 7413 sequences of words of length N and sentences were selected from less than N words containing words from a selected set of words, as described in the method. For each sequence of words of length N and a sentence containing less than N words, the presence or absence of the required information about muscle weakness was established, assigning a score of 1 or 0, respectively, and a score of 0.5, if the presence of the required information about muscle weakness could not be confirmed or excluded. ... The above stages of work were completed within 13 hours. Next, the presence or absence of the required information on muscle weakness was established for all documents containing sequences of words of length N and sentences containing less than N words for which the presence or absence of the required information was established using several options.

В варианте 1 принимали решение о наличии искомой информации о мышечной слабости, если в исходном источнике текстов содержалась хотя бы одна последовательность слов длины N и или хотя бы одно предложение, содержащее менее N слов, которые оценили как 1.In option 1, a decision was made on the availability of the required information about muscle weakness if the original source of texts contained at least one sequence of words of length N and or at least one sentence containing less than N words, which were rated as 1.

В варианте 2 принимали решение о наличии искомой информации о мышечной слабости, суммируя оценки последовательностей слов длины N и предложений в каждом источнике текстов и определяя пороговое значение суммы так, чтобы максимизировать сумму чувствительности и специфичности способа извлечения информации из неструктурированных текстов. В результате принимали решение о наличии искомой информации о мышечной слабости, если сумма была равна или превышала 2,5 (значение порога). ROC-кривая для способа извлечения информации в варианте 2 показана на фиг. 1.In option 2, a decision was made on the presence of the required information on muscle weakness by summing the estimates of sequences of words of length N and sentences in each source of texts and determining the threshold value of the sum so as to maximize the sum of the sensitivity and specificity of the method for extracting information from unstructured texts. As a result, a decision was made on the availability of the required information on muscle weakness if the sum was equal to or exceeded 2.5 (threshold value). The ROC curve for the information extraction method in Option 2 is shown in FIG. one.

Вариант 1 с (существительные) отличался от варианта 1 тем, что из 9932 уникальных слов были использованы только существительные (4061), из которых в избранное множество слов попадали только 320, а число анализируемых последовательностей длины N и предложений, содержавших менее N слов, составило 4885. При существенном сокращении объема анализируемых слов и последовательностей слов длины N и предложений, содержавших менее N слов, высокое качество работы извлечения информации из неструктурированных текстов практически не изменилось (Таблица 1).Option 1 с (nouns) differed from option 1 in that out of 9932 unique words, only nouns were used (4061), of which only 320 were included in the selected set of words, and the number of analyzed sequences of length N and sentences containing less than N words was 4885. With a significant reduction in the volume of analyzed words and word sequences of length N and sentences containing less than N words, the high quality of the work of extracting information from unstructured texts practically did not change (Table 1).

Вариант 2 с (существительные) отличался от варианта 2 тем, что из 9932 уникальных слов были использованы только существительные (4061), из которых в избранное множество слов попадали только 320, а число анализируемых последовательностей длины N и предложений, содержавших менее N слов, составило 4885. В результате принимали решение о наличии искомой информации о мышечной слабости, если сумма была равна или превышала 2. На фиг. 2 представлена ROC-кривая для способа извлечения информации в варианте 2 с (существительные). Такой подход приводил к сокращению времени работы и улучшению качества извлечения информации по сравнению с исходным способом 2 (Таблица 1).Option 2 with (nouns) differed from option 2 in that out of 9932 unique words, only nouns were used (4061), of which only 320 were included in the selected set of words, and the number of analyzed sequences of length N and sentences containing less than N words was 4885. As a result, a decision was made on the presence of the required information on muscle weakness, if the sum was equal to or exceeded 2. In FIG. 2 shows the ROC-curve for the information extraction method in option 2 c (nouns). This approach led to a reduction in the work time and an improvement in the quality of information extraction compared to the original method 2 (Table 1).

Метрики качества (SENS - чувствительность, SPEC - специфичность, АСС - точность, PPV - положительное прогностическое значение, NPV -отрицательное прогностическое значение, F - F-мера, Порог - порог встречаемости слова, ROC AUC - площадь под ROC-кривой) способа извлечения информации из неструктурированных текстов в нескольких вариантах представлены в Таблице 1.Quality metrics (SENS - sensitivity, SPEC - specificity, ACC - accuracy, PPV - positive predictive value, NPV - negative predictive value, F - F-measure, Threshold - word threshold, ROC AUC - area under the ROC-curve) of the extraction method information from unstructured texts in several versions are presented in Table 1.

Figure 00000001
Figure 00000001

При реализации способа извлечения информации в варианте 1 с (существительные) и удалении слов, встречавшихся менее 4 раз во всем множестве текстов, общее число слов уменьшилось до 2376, при этом число слов в избранном множестве слов уменьшилось до 152, а число последовательностей слов длины N и предложений, содержащих менее N слов, сократилось до 4663 без потери качества извлечения информации. Фиг. 3 показывает, как менялись значения метрик качества извлечения информации по способу в варианте 1 с (существительные) при изменении порогового значения числа встречаемости слов, по которому «редко» встречающиеся в тексте слова удаляются перед отбором слов в избранное множество слов. Фиг. 4 иллюстрируют эту закономерность на интервале порогового значения числа встречаемости слов от 0 до 10.When implementing the method for extracting information in option 1c (nouns) and deleting words that occurred less than 4 times in the entire set of texts, the total number of words decreased to 2376, while the number of words in the selected set of words decreased to 152, and the number of word sequences of length N and sentences containing less than N words was reduced to 4663 without losing the quality of information extraction. FIG. 3 shows how the values of the metrics of the quality of information extraction by the method in option 1 s (nouns) changed when the threshold value of the number of occurrences of words changed, according to which the words "rarely" found in the text are removed before the selection of words into the selected set of words. FIG. 4 illustrate this pattern in the interval of the threshold value of the number of occurrence of words from 0 to 10.

Указанные варианты оптимизации способа извлечения информации позволили сократить время работы по способу извлечения информации о мышечной слабости при поступлении в нейрохирургическую клинику до 6 часов без потери качества извлечения информации.The indicated options for optimizing the method of information extraction made it possible to reduce the time spent working on the method of extracting information about muscle weakness upon admission to a neurosurgical clinic to 6 hours without losing the quality of information retrieval.

ЛитератураLiterature

1. Yang Y. Ontology-based venous thromboembolism risk assessment model developing from medical records From The Third International Workshop on Semantics-Powered Data Analytics / Yang Y., Wang X., Huang Y., Chen N., Shi J., Chen Т., Madrid S. - 2018.1. Yang Y. Ontology-based venous thromboembolism risk assessment model developing from medical records From The Third International Workshop on Semantics-Powered Data Analytics / Yang Y., Wang X., Huang Y., Chen N., Shi J., Chen T., Madrid S. - 2018.

2. Danilov G. An Information Extraction Algorithm for Detecting Adverse Events in Neurosurgery Using Documents Written in a Natural Rich-in-Morphology Language. / Danilov G., Shifrin M., Strunina U., Pronkina Т., Potapov A. // Studies in health technology and informatics - 2019. - T. 262 - C. 194-197.2. Danilov G. An Information Extraction Algorithm for Detecting Adverse Events in Neurosurgery Using Documents Written in a Natural Rich-in-Morphology Language. / Danilov G., Shifrin M., Strunina U., Pronkina T., Potapov A. // Studies in health technology and informatics - 2019. - T. 262 - C. 194-197.

3. Jurafsky D. Regular Expressions, Text Normalization, Edit Distance, 2019. Вып. 3-1-98 c.3. Jurafsky D. Regular Expressions, Text Normalization, Edit Distance, 2019. 3-1-98 c.

4. Silge J.Text Mining with R: A tidy approach / J. Silge, D. Robinson - O’Reilly Media, Inc., 2017.4. Silge J. Text Mining with R: A tidy approach / J. Silge, D. Robinson - O'Reilly Media, Inc., 2017.

5. Jurafsky D. Spelling Correction and the Noisy Channel, 2019. - 1-14 c.5. Jurafsky D. Spelling Correction and the Noisy Channel, 2019. - 1-14 p.

6. Sarker A. An unsupervised and customizable misspelling generator for mining noisy health-related text sources / Sarker Α., Gonzalez-Hernandez G. // Journal of Biomedical Informatics - 2018. - T. 88 - C. 98-107.6. Sarker A. An unsupervised and customizable misspelling generator for mining noisy health-related text sources / Sarker Α., Gonzalez-Hernandez G. // Journal of Biomedical Informatics - 2018. - T. 88 - P. 98-107.

7. MyStem - Технологии Яндекса [Электронный ресурс]. URL: https://yandex.ru/dev/mystem/ (accessed: 14.06.2020).7. MyStem - Yandex Technologies [Electronic resource]. URL: https://yandex.ru/dev/mystem/ (accessed: 06/14/2020).

8. TreeTagger [Электронный ресурс]. URL: https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (accessed: 14.06.2020).8. TreeTagger [Electronic resource]. URL: https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (accessed: 06/14/2020).

9. UDPipe | UFAL [Электронный ресурс]. URL: http://ufal.mff.cuni.cz/udpipe (accessed: 14.06.2020).9. UDPipe | UFAL [Electronic resource]. URL: http://ufal.mff.cuni.cz/udpipe (accessed: 06/14/2020).

10. Hunspell [Электронный ресурс]. URL: http://hunspell.github.io/ (accessed: 14.06.2020).10. Hunspell [Electronic resource]. URL: http://hunspell.github.io/ (accessed: 06/14/2020).

Claims (3)

1. Компьютерно-реализуемый способ извлечения информации из неструктурированных текстов, написанных на естественном языке, заключающийся в том, что определяют все источники текстовых данных, в которых содержится искомая информация, составляют множество текстов из всех определенных источников текстовых данных, токенизируют множество текстов на слова, удаляют слова, встречающиеся в текстах реже заданного числа раз, все слова приводят к начальной форме и исправляют в них опечатки, по словам в начальной форме отбирают все слова в исходной форме, которые могут быть использованы в описании искомой информации, и тем самым формируют избранное множество слов, токенизируют множество текстов на последовательности слов длины N, во всех последовательностях слов длины N, содержащих все слова из избранного множества слов, устанавливают наличие или отсутствие искомой информации, для всех документов, содержащих последовательности слов длины N, для которых установлено наличие или отсутствие искомой информации, устанавливают наличие или отсутствие искомой информации, отличающийся тем, что уменьшают число источников текстовых данных в соответствии с заданным значением минимального числа и состава источников данных, перед отбором слов в избранное множество слов удаляют слова, встречающиеся в текстах реже, чем заданное пороговое значение встречаемости слов, определяют части речи и отбирают слова, соответствующие заданному набору частей речи, для получения последовательностей слов длины N множество текстов сначала токенизируют на предложения, затем предложения токенизируют на последовательности слов длины N, отбирают последовательности слов длины N, в которых слова из избранного множества слов содержатся на центральных позициях, если с последовательности слов длины N предложение не начинается и этой последовательностью не заканчивается, на первых позициях, если с последовательности слов длины N предложение начинается, и на последних позициях, если последовательностью слов длины N предложение заканчивается, во всех предложениях, содержащих менее N слов и хотя бы одно слово из избранного множества слов, устанавливают наличие или отсутствие искомой информации, устанавливают наличие или отсутствие искомой информации в последовательности слов длины N и в предложении, содержащем менее N слов, с помощью значения из числового интервала от 0 включительно, если искомой информации нет, до 1, если искомая информация имеется, принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N и предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, при этом в заявленном способе также измеряют качество извлечения информации с помощью заданных метрик качества и программного обеспечения на выборке текстов из ранее определенных источников текстовых данных, а вышеуказанные значение минимального числа и состав источников текстовых данных, пороговое значение встречаемости слов и набор частей речи задают посредством осуществления совместного подбора этих данных в процессе тестового извлечения информации из неструктурированных текстов, написанных на естественном языке, из тестового набора текстовых данных, для которых известно наличие или отсутствие искомой информации, при котором обеспечиваются заданные или более высокие значения вышеупомянутых метрик качества.1. A computer-implemented method of extracting information from unstructured texts written in a natural language, which consists in the fact that all sources of text data that contain the required information are determined, constitute a set of texts from all defined sources of text data, tokenize a set of texts into words, they remove words that occur in texts less often than a given number of times, all words lead to the initial form and correct typos in them, according to words in the initial form, they select all words in their original form that can be used in the description of the required information, and thereby form a selected set words, tokenize a set of texts on a sequence of words of length N, in all sequences of words of length N, containing all words from a selected set of words, establish the presence or absence of the required information, for all documents containing sequences of words of length N, for which the presence or absence of the required inform mation, establish the presence or absence of the required information, characterized in that they reduce the number of text data sources in accordance with a given value of the minimum number and composition of data sources, before selecting words in a selected set of words, words are deleted that occur in texts less often than a given threshold value of occurrence words, define parts of speech and select words corresponding to a given set of parts of speech, to obtain sequences of words of length N, the set of texts is first tokenized into sentences, then sentences are tokenized on sequences of words of length N, sequences of words of length N are selected, in which words from the selected set of words are contained in central positions, if the sentence does not begin with a sequence of words of length N and does not end with this sequence, in the first positions, if a sentence begins with a sequence of words of length N, and in the last positions, if a sequence of words of length N is proposed it ends, in all sentences containing less than N words and at least one word from the selected set of words, the presence or absence of the required information is established, the presence or absence of the required information in a sequence of words of length N and in a sentence containing less than N words is established using values from a numerical interval from 0, inclusive, if the required information is not present, to 1, if the required information is available, a decision is made on the presence or absence of the required information in the original source of texts by the totality of sequences of words of length N and sentences containing less than N words in it, for of which the presence or absence of the required information is established, while the claimed method also measures the quality of information extraction using specified quality metrics and software on a sample of texts from previously defined text data sources, and the above value of the minimum number and composition of text data sources, the threshold value the frequencies of words and a set of parts of speech are set by performing a joint selection of these data in the process of test extraction of information from unstructured texts written in natural language from a test set of text data for which the presence or absence of the required information is known, at which specified or higher values are provided the above quality metrics. 2. Способ по п. 1, отличающийся тем, что принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N и предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, по факту наличия хотя бы одной последовательности слов длины N или предложения, содержащего менее N слов, которые оценили как 0 или 1.2. The method according to claim 1, characterized in that a decision is made on the presence or absence of the required information in the original source of texts by the totality of sequences of words of length N and sentences containing less than N words in it, for which the presence or absence of the required information is established, according to the fact of the presence of at least one sequence of words of length N or a sentence containing less than N words, which were evaluated as 0 or 1. 3. Способ по п. 1, отличающийся тем, что принимают решение о наличии или отсутствии искомой информации в исходном источнике текстов по совокупности в нем последовательностей слов длины N или предложений, содержащих менее N слов, для которых установлено наличие или отсутствие искомой информации, по сумме оценок и ее пороговому значению, полученному при оптимизации показателей качества изложенного способа извлечения информации на тестовой выборке.3. The method according to claim 1, characterized in that a decision is made on the presence or absence of the required information in the original source of texts by the totality of sequences of words of length N or sentences containing less than N words in it, for which the presence or absence of the required information is established, according to the sum of the estimates and its threshold value obtained by optimizing the quality indicators of the stated method for extracting information on the test sample.
RU2020129790A 2020-09-09 2020-09-09 Method for extracting information from unstructured texts written in natural language RU2751993C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020129790A RU2751993C1 (en) 2020-09-09 2020-09-09 Method for extracting information from unstructured texts written in natural language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020129790A RU2751993C1 (en) 2020-09-09 2020-09-09 Method for extracting information from unstructured texts written in natural language

Publications (1)

Publication Number Publication Date
RU2751993C1 true RU2751993C1 (en) 2021-07-21

Family

ID=76989367

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020129790A RU2751993C1 (en) 2020-09-09 2020-09-09 Method for extracting information from unstructured texts written in natural language

Country Status (1)

Country Link
RU (1) RU2751993C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2795870C1 (en) * 2022-02-15 2023-05-12 Глеб Валерьевич Данилов Way to define and classify a concept based on the context of its use

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003042859A2 (en) * 2001-11-15 2003-05-22 Forinnova As Method and apparatus for textual exploration and discovery
US7912705B2 (en) * 2003-11-19 2011-03-22 Lexisnexis, A Division Of Reed Elsevier Inc. System and method for extracting information from text using text annotation and fact extraction
RU2626555C2 (en) * 2015-12-02 2017-07-28 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of entities from texts in natural language
RU2637992C1 (en) * 2016-08-25 2017-12-08 Общество с ограниченной ответственностью "Аби Продакшн" Method of extracting facts from texts on natural language
RU2665239C2 (en) * 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Named entities from the text automatic extraction
RU2682002C2 (en) * 2016-09-20 2019-03-14 Общество С Ограниченной Ответственностью "Яндекс" Method and system for comparison of initial lexical element of first language with target lexical element of second language
US20190155944A1 (en) * 2017-11-23 2019-05-23 Infosys Limited Method and system for key phrase extraction and generation from text
US10387469B1 (en) * 2009-03-16 2019-08-20 Guangsheng Zhang System and methods for discovering, presenting, and accessing information in a collection of text contents

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003042859A2 (en) * 2001-11-15 2003-05-22 Forinnova As Method and apparatus for textual exploration and discovery
US7912705B2 (en) * 2003-11-19 2011-03-22 Lexisnexis, A Division Of Reed Elsevier Inc. System and method for extracting information from text using text annotation and fact extraction
US10387469B1 (en) * 2009-03-16 2019-08-20 Guangsheng Zhang System and methods for discovering, presenting, and accessing information in a collection of text contents
RU2665239C2 (en) * 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Named entities from the text automatic extraction
RU2626555C2 (en) * 2015-12-02 2017-07-28 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of entities from texts in natural language
RU2637992C1 (en) * 2016-08-25 2017-12-08 Общество с ограниченной ответственностью "Аби Продакшн" Method of extracting facts from texts on natural language
US20180060306A1 (en) * 2016-08-25 2018-03-01 Abbyy Infopoisk Llc Extracting facts from natural language texts
RU2682002C2 (en) * 2016-09-20 2019-03-14 Общество С Ограниченной Ответственностью "Яндекс" Method and system for comparison of initial lexical element of first language with target lexical element of second language
US20190155944A1 (en) * 2017-11-23 2019-05-23 Infosys Limited Method and system for key phrase extraction and generation from text

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2795870C1 (en) * 2022-02-15 2023-05-12 Глеб Валерьевич Данилов Way to define and classify a concept based on the context of its use

Similar Documents

Publication Publication Date Title
US4868750A (en) Collocational grammar system
CN105069124B (en) A kind of International Classification of Diseases coding method of automation and system
KR100453227B1 (en) Similar sentence retrieval method for translation aid
CN111737975A (en) Text connotation quality evaluation method, device, equipment and storage medium
US7937263B2 (en) System and method for tokenization of text using classifier models
CN106844351B (en) A multi-data source-oriented medical institution organization entity identification method and device
CA2853627C (en) Automatic creation of clinical study reports
CN105095665A (en) Natural language processing method and system for Chinese disease diagnosis information
CN105138829A (en) Natural language processing method and system for Chinese diagnosis and treatment information
EP3726401A1 (en) Encoding textual information for text analysis
US10120843B2 (en) Generation of parsable data for deep parsing
Marciniak et al. Terminology extraction from medical texts in Polish
Yan et al. Chemical name extraction based on automatic training data generation and rich feature set
RU2751993C1 (en) Method for extracting information from unstructured texts written in natural language
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
Schubiger German summarization with large language models
Maulud et al. A hybrid part-of-speech tagger with annotated Kurdish corpus: advancements in POS tagging
CN111368547A (en) Entity identification method, device, equipment and storage medium based on semantic analysis
US8977538B2 (en) Constructing and analyzing a word graph
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
JP5679400B2 (en) Category theme phrase extracting device, hierarchical tagging device and method, program, and computer-readable recording medium
CN112992303B (en) Human phenotype standard term extraction method
CN115688787A (en) Medical record analysis method and device and medical record analysis system
Osochkin et al. Comparative research of index frequency-Morphological methods of automatic text summarisation
JP4059501B2 (en) Natural language dictionary update device