RU2758358C2 - Method for generating signature for spam detection - Google Patents
Method for generating signature for spam detection Download PDFInfo
- Publication number
- RU2758358C2 RU2758358C2 RU2020108167A RU2020108167A RU2758358C2 RU 2758358 C2 RU2758358 C2 RU 2758358C2 RU 2020108167 A RU2020108167 A RU 2020108167A RU 2020108167 A RU2020108167 A RU 2020108167A RU 2758358 C2 RU2758358 C2 RU 2758358C2
- Authority
- RU
- Russia
- Prior art keywords
- spam
- messages
- electronic messages
- decision tree
- electronic
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
Область техникиTechnology area
Изобретение относится к области информационной безопасности, а более конкретно к системам и способам создания сигнатур для борьбы со спамом.The invention relates to the field of information security, and more specifically to systems and methods for creating signatures to combat spam.
Уровень техникиState of the art
Реклама в Интернете является одним из самых дешевых способов рекламы. Спам-сообщения, как основной и наиболее массовый вид рекламы в современном мире, занимает от 70% общего объема почтового трафика.Online advertising is one of the cheapest ways to advertise. Spam messages, as the main and most massive form of advertising in the modern world, account for 70% of the total volume of mail traffic.
Спам – массовая рассылка рекламы или иного вида информации лицам, не выражавшим желания их получать. К спаму относятся сообщения, передаваемые по электронной почте, протоколам мгновенных сообщений, в социальных сетях, блогах, сайтах знакомств, форумах, а также посредством SMS- и MMS-сообщений.Spam - mass mailing of advertisements or other types of information to persons who did not express a desire to receive them. Spam includes messages sent by email, instant messaging protocols, social networks, blogs, dating sites, forums, and SMS and MMS messages.
Ввиду постоянного роста объемов рассылки спама возникают проблемы технического, экономического и криминального характера. Нагрузка на аппаратуру и каналы передачи данных, затраты времени пользователей на обработку сообщений, изменение направленности сообщений в сторону мошенничества и воровства – эти и другие аспекты показывают острую необходимость непрерывной борьбы со спамом.Due to the constant growth in the volume of spam mailing, problems of a technical, economic and criminal nature arise. The load on equipment and data transmission channels, user time spent on processing messages, changing the direction of messages towards fraud and theft - these and other aspects show the urgent need for a continuous fight against spam.
Существует много способов противодействия рассылкам спама. Одним из эффективных способов является использование обученных моделей машинного обучения для выявления электронных сообщений, содержащих спам.There are many ways to counter spam. One effective way is to use trained machine learning models to identify spam emails.
Например, в публикации US 8180834 B2 описана система, в которой периодически осуществляют дополнительное обучение классификаторов, которые применяются для обнаружения спама. Дополнительное обучение может быть выполнено при обнаружении ошибок или по инициативе пользователя.For example, publication US 8180834 B2 describes a system in which additional training of classifiers is periodically carried out, which are used to detect spam. Additional training can be performed upon detection of errors or at the initiative of the user.
Указанное решение осуществляет классификацию электронных сообщений при помощи инструментов машинного обучения, но не позволяет эффективно решить задачу создания сигнатуры для обнаружения спама в наборах сообщений, отправленных по электронной почте.This solution classifies e-mails using machine learning tools, but does not effectively solve the problem of creating a signature to detect spam in sets of messages sent by e-mail.
Раскрытие изобретенияDisclosure of invention
Изобретение относится к системам и способам создания сигнатур для борьбы со спамом.The invention relates to systems and methods for generating anti-spam signatures.
Технический результат настоящего изобретения заключается в обеспечении информационной безопасности в условиях массовой рассылки электронных сообщений. Указанный технический результат достигается путем формирования сигнатуры для обнаружения спама на основании дерева решений и набора электронных сообщенийThe technical result of the present invention is to ensure information security in conditions of mass mailing of electronic messages. The specified technical result is achieved by generating a signature for detecting spam based on a decision tree and a set of electronic messages
В одном из вариантов реализации предоставляется способ формирования сигнатуры для обнаружения спама, содержащий этапы, на которых: формируют набор электронных сообщений; вычисляют по меньшей мере один признак для обнаружения спама на основании сформированного набора электронных сообщений; формируют дерево решений для обнаружения спама с использованием всех вычисленных признаков; формируют сигнатуру для обнаружения спама на основании сформированного дерева решений и сформированного набора электронных сообщений.In one embodiment, a method for generating a signature for detecting spam is provided, comprising the steps of: generating a set of electronic messages; calculating at least one feature for detecting spam based on the generated set of electronic messages; generating a decision tree for detecting spam using all the calculated features; generating a signature for spam detection based on the generated decision tree and the generated set of electronic messages.
В другом варианте реализации способа под признаком для обнаружения спама понимают признак, вычисляемый на основании значений атрибута электронного сообщения, характеризующие наличие спама.In another embodiment of the method, a feature for detecting spam is understood as a feature calculated based on the values of an attribute of an electronic message that characterize the presence of spam.
Еще в одном варианте реализации способа под сигнатурой для обнаружения спама понимают перечень признаков для обнаружения спама и их значений, характерные для электронного сообщения, содержащего спам.In yet another embodiment of the method, a signature for spam detection is understood as a list of features for detecting spam and their values characteristic of an electronic message containing spam.
В другом варианте реализации способа набор электронных сообщений состоит из набора электронных сообщений для формирования дерева решений, который содержит не менее двух электронных сообщений, и проверочного набора электронных сообщений, который содержит не менее двух электронных сообщений.In another embodiment of the method, the set of electronic messages consists of a set of electronic messages for forming a decision tree, which contains at least two electronic messages, and a test set of electronic messages, which contains at least two electronic messages.
В другом варианте реализации способа набор электронных сообщений для формирования дерева решений не содержит электронных сообщений из проверочного набора электронных сообщений.In another embodiment of the method, the set of email messages for generating the decision tree does not include email messages from the test set of email messages.
Еще в одном варианте реализации способа выявляют значения атрибутов каждого электронного сообщения из набора электронных сообщений для формирования дерева решений.In yet another embodiment of the method, the attribute values of each email from the set of email messages are identified to generate a decision tree.
В другом варианте реализации способа вычисляют признаки для обнаружения спама на основании выявленных значений атрибутов.In another embodiment of the method, features for spam detection are calculated based on the detected attribute values.
Еще в одном варианте реализации способа применяют сформированное дерево решений для обнаружения спама для анализа каждого электронного сообщения из проверочного набора сообщений.In another embodiment of the method, the generated spam detection decision tree is used to analyze each electronic message from the test set of messages.
В другом варианте реализации способа по результатам анализа выявляют перечень признаков для обнаружения спама, сработавших более одного раза.In another embodiment of the method, based on the analysis results, a list of features for detecting spam that has been triggered more than once is identified.
Еще в одном варианте реализации способа формируют сигнатуру для обнаружения спама на основании выявленного перечня признаков для обнаружения спама.In yet another embodiment of the method, a signature for detecting spam is generated based on the identified list of features for detecting spam.
В другом варианте реализации способа при отсутствии перечня признаков, сработавших более одного раза, выполняют переобучение сформированного дерева решений для обнаружения спама.In another embodiment of the method, in the absence of a list of features that have been triggered more than once, the generated decision tree is retrained to detect spam.
Краткое описание чертежейBrief Description of Drawings
Фиг. 1 отображает структуру дерева решений для обнаружения спама и сигнатуры для обнаружения спама.FIG. 1 depicts the structure of a decision tree for spam detection and signatures for spam detection.
Фиг. 2 иллюстрирует структурную схему системы формирования сигнатуры для обнаружения спама.FIG. 2 illustrates a block diagram of a signature generation system for spam detection.
Фиг. 3 иллюстрирует алгоритм работы системы формирования сигнатуры для обнаружения спама.FIG. 3 illustrates a flow chart of a signature generation system for spam detection.
Фиг. 4 представляет пример компьютерной системы общего назначения.FIG. 4 shows an example of a general purpose computer system.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.Although the invention may take various modifications and alternative forms, the characteristic features shown by way of example in the drawings will be described in detail. It should be understood, however, that the purpose of the description is not to limit the invention to a specific embodiment. On the contrary, the purpose of the description is to cover all changes, modifications falling within the scope of this invention, as defined by the appended claims.
Описание вариантов осуществления изобретенияDescription of embodiments of the invention
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведенная в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объеме приложенной формулы.The objects and features of the present invention, methods for achieving these objects and features will become apparent by reference to exemplary embodiments. However, the present invention is not limited to the exemplary embodiments disclosed below, but may be embodied in various forms. The essence recited in the description is nothing more than the specific details necessary to assist a person skilled in the art in a thorough understanding of the invention, and the present invention is defined within the scope of the appended claims.
Введем ряд определений и понятий, которые будут использованы при описании вариантов осуществления изобретения.Let's introduce a number of definitions and concepts that will be used in describing the embodiments of the invention.
Электронная почта (electronic mail, e-mail) – набор услуг компьютерной сети по пересылке сообщений между ее пользователями. Является средством быстрой доставки писем, текстов программ, документов и другой подобной корреспонденции. При передаче сообщения по электронной почте, передающий и принимающий компьютеры не обязательно взаимодействуют друг с другом непосредственно (Дорот В.Л., Новиков Ф.А. Толковый словарь современной компьютерной лексики. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2004. - 608 с.: ил.).Electronic mail (e-mail, e-mail) - a set of computer network services for sending messages between its users. It is a means of fast delivery of letters, program texts, documents and other similar correspondence. When transmitting a message by e-mail, the transmitting and receiving computers do not necessarily interact with each other directly (Dorot V.L., Novikov F.A. .: BHV-Petersburg, 2004 .-- 608 p.: Ill.).
Электронное письмо или сообщение – согласно RFC 5322 представляет собой последовательность символов. Сообщения, соответствующие данной спецификации, включают символы с десятичными кодами от 1 до 127, интерпретируемые в соответствии с кодировкой US-ASCII. Сообщение состоит из полей заголовков (совокупность этих полей называют разделом заголовков сообщения), за которыми может следовать основная часть сообщения. Раздел заголовков представляет собой последовательность символьных строк, синтаксис которых описан в данной спецификации. Тело сообщения представляет собой последовательность символов, которая следует после раздела заголовков и отделена от него пустой строкой (строкой, содержащей только CRLF). Далее и по тексту под электронным сообщением понимают электронное сообщение, переданное по электронной почте.Email or message - According to RFC 5322, it is a sequence of characters. Messages conforming to this specification include characters with
Атрибут электронного сообщения – необходимое, существенное, неотъемлемое свойство электронного сообщения.An electronic message attribute is a necessary, essential, inherent property of an electronic message.
Признак для обнаружения спама - признак, вычисляемый на основании значения атрибута электронного сообщения, характеризующий наличие спама и применяемый при использовании технологий машинного обучения.Spam detection attribute is a attribute calculated based on the value of an email message attribute that characterizes the presence of spam and is used when using machine learning technologies.
Поток сообщений – совокупность электронных сообщений, передаваемых по электронной почте, которые получает один или несколько пользователей. Набор электронных сообщений –- фиксированное количество сообщений, отобранных из потока сообщений для выполнения проверки наличия спама.Message flow is a collection of electronic messages transmitted by email that one or more users receive. Set of e-mail messages - a fixed number of messages selected from the message flow to perform a spam check.
Классическая вирусная сигнатура - это непрерывная последовательность байтов, характерная для того или иного вредоносного приложения. Сигнатура для обнаружения спама - перечень признаков для обнаружения спама и их конкретных значений, характерных для того или иного электронного сообщения, содержащего спам.The classic virus signature is a contiguous sequence of bytes typical of a particular malicious application. Signature for spam detection - a list of signs for detecting spam and their specific values, characteristic of a particular e-mail message containing spam.
Дерево решений – метод анализа данных для построения классификационных и регрессионных моделей, является как методом извлечения, так и одновременно методом представления данных. Дерево решений является способом представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.Decision tree is a data analysis method for building classification and regression models, it is both an extraction method and at the same time a data presentation method. A decision tree is a way of representing rules in a hierarchical, sequential structure, where each object has a single node that gives a solution.
Создатель массовой рассылки электронных сообщений, содержащих спам, обычно использует шаблон для генерации текста и содержимого упомянутых электронных сообщений. Для усложнения обнаружения спама, он также может использовать множество инструментов, например методы обфускации, анонимизации и т.д. Для выявления шаблонов и схожих алгоритмов создания сообщений, содержащих спам, может быть выполнено формирование деревьев решений. Фиг. 1 иллюстрирует структуру дерева решений для обнаружения спама и сигнатуры для обнаружения спама. Дерево решений 110 используют для классификации групп электронных сообщений. В качестве узлов дерева используют вычисляемые признаки. В качестве переходов между узлами могут быть использованы конкретные значения или диапазоны значений признаков. На основе нескольких узлов и переходов может быть сформирована сигнатура 120.The creator of bulk email messages containing spam typically uses a template to generate the text and content of the referenced email messages. To make spam detection more difficult, it can also use many tools, such as obfuscation, anonymization, etc. Decision trees can be generated to identify patterns and similar algorithms for generating spam messages. FIG. 1 illustrates the structure of a decision tree for spam detection and signatures for spam detection.
Формирование сигнатуры для обнаружения спама выполняют с помощью системы формирования сигнатуры для обнаружения спама. Фиг. 2 отображает структурную схему системы формирования сигнатуры для обнаружения спама, которая включает в себя набор электронных сообщений 210, средство распознавания 220, средство вычисления 230, средство формирования 240.Spam detection signature generation is performed by a spam detection signature generation system. FIG. 2 depicts a block diagram of a signature generation system for detecting spam, which includes a set of
Средство распознавания 220 предназначено для формирования набора электронных сообщений и передачи сформированного набора электронных сообщений средству вычисления 230. Набор электронных сообщений 210 состоит из набора электронных сообщений для формирования дерева решений и проверочного набора электронных сообщений. Набор электронных сообщений для формирования дерева решений содержит не менее двух электронных сообщений, упомянутый набор используют на этапе построения или изменения дерева решений. Проверочный набор электронных сообщений содержит не менее двух электронных сообщений, упомянутый набор используют на этапе построения сигнатур для обнаружения спама. При этом набор электронных сообщений для формирования дерева решений не содержит электронных сообщений из проверочного набора электронных сообщений.
В одном из вариантов реализации формирование набора электронных сообщений 210 выполняют путем добавления сообщений, полученных разными пользователями за заданный период времени. В другом варианте реализации формирование набора электронных сообщений 210 выполняют путем добавления сообщений, полученных одним пользователем за определенный период времени. Еще в одном варианте реализации формирование набора электронных сообщений 210 выполняют путем добавления фиксированного количества сообщений. Оптимальный размер набора электронных сообщений 210 зависит от частоты получения сообщений. Размер определяют эмпирически путем постепенного увеличения, например, интервала времени, за который формируется набор электронных сообщений 210.In one implementation, the formation of a set of
Средство вычисления 230 предназначено для вычисления признаков для обнаружения спама на основании сформированного набора электронных сообщений 210, формирования дерева решений для обнаружения спама с использованием вычисленных признаков, передачи данных о сформированном дереве решений для обнаружения спама средству формирования 240.The
В одном из вариантов реализации признаки для обнаружения спама вычисляют на основании атрибутов электронного сообщения. Определение атрибутов электронного сообщения выполняют путем анализа процесса передачи и получения сообщения. Примерами атрибутов электронного сообщения являются: IP-адрес отправителя, размер электронного сообщения, язык текста электронного сообщения, количество символов в заголовке электронного сообщения, размер электронного сообщения и т.д.In one implementation, the spam detection features are calculated based on the attributes of the email message. The determination of the attributes of an electronic message is performed by analyzing the process of sending and receiving the message. Examples of email attributes are: the sender's IP address, the size of the email, the language of the email text, the number of characters in the email header, the size of the email, and so on.
Примерами вычисленных признаков для обнаружения спама являются следующие признаки: наличие динамической PTR-записи для IP-адреса (от англ. pointer – указатель) связывает IP-адрес хоста с его каноническим именем); контрольная сумма от HTML-верстки без вариативных атрибутов; msgid - уникальный номер сообщения; msgid_type - эвристически определенный через внешний вид заголовка; msgid-агент, отправивший сообщение; контрольная сумма от последовательности MIME-заголовков; тип содержимого письма и т.д.Examples of computed features for detecting spam are the following features: the presence of a dynamic PTR record for an IP address (from the English pointer) connects the IP address of a host with its canonical name); checksum from HTML layout without variable attributes; msgid - unique message number; msgid_type - heuristically determined through the appearance of the header; msgid agent that sent the message; checksum from the sequence of MIME headers; type of email content, etc.
Каждому из вычисленных признаков эмпирически задают вес wi, который был рассчитан на основе заранее заданных статистических данных. Значение веса в той или иной степени характеризует наличие спама. После вычисления признаков выполняют формирование дерева решений для обнаружения спама. Например, началом дерева может быть признак mailer_name (приложение, с помощью которого было отправлено электронное сообщение), которое может принимать 3 значения. В случае если принято значение 1, то происходит переход к признаку max_url_length (максимальное значение длины URL в письме), если принято значение 2, то происходит переход к признаку msgid_type и т.д.Each of the calculated features is empirically given a weight w i that has been calculated based on predetermined statistics. The weight value, to one degree or another, characterizes the presence of spam. After calculating the features, a decision tree is generated for detecting spam. For example, the start of the tree can be mailer_name (the application with which the email was sent), which can take 3 values. If the
Средство формирования 240 предназначено для формирования сигнатуры для обнаружения спама на основании сформированного дерева решений и сформированного набора электронных сообщений.
Сформированное дерево решений используют для анализа электронных сообщений проверочного набора электронных сообщений из набора электронных сообщений 210. В ходе анализа определяют атрибуты сообщения, вычисляют признаки для обнаружения спама и применяют дерево решений для обнаружения спама. После применения дерева электронное сообщение попадает в группу, которая имеет суммарный вес, вычисляемый в соответствии с весами вычисленных признаков по формуле Wсум=Σwi. Эмпирическим способом определяют предельное значение суммарного веса групп. Группы электронных сообщений, у которых суммарный вес выше предельного значения, считают содержащими спам, а у которых ниже - не содержащими спам. Формирование сигнатуры для обнаружения спама выполняют путем выявления перечня признаков для обнаружения спама, сработавших более одного раза в группе электронных сообщений, содержащих спам.The generated decision tree is used to parse the email messages from the test set of email messages from the
В случае если не было выявлено перечня признаков для обнаружения спама, не сработавших более одного раза ни в одной из групп, запускают переобучение сформированного дерева решений для обнаружения спама. В ходе переобучения дерево решений модифицируют с использованием технологий машинного обучения, например градиентного бустинга (gradient boosting), где формируют альтернативные варианты дерева, их глубину и ширину, и вычисляют показатели эффективности, достоверности, ложных срабатываний.If the list of signs for detecting spam that did not work more than once in any of the groups was not identified, retraining of the generated decision tree for detecting spam is started. During retraining, the decision tree is modified using machine learning technologies, for example, gradient boosting, where alternative tree variants, their depth and width are formed, and indicators of efficiency, reliability, and false positives are calculated.
Использование сигнатур позволяет значительно быстрее обрабатывать большое количество электронных сообщений, чем выполнение анализа при помощи всего дерева решений. Сигнатуру включают в набор обновлений для спам-фильтра, с помощью которого впоследствии выполняют проверку наличия спама в целях обеспечения информационной безопасности процесса передачи электронных сообщений по электронной почте.Using signatures allows you to process a large number of emails much faster than performing analysis using the entire decision tree. The signature is included in a set of updates for the spam filter, which subsequently checks for spam in order to ensure information security of the e-mail transmission process.
Например, пользователь получил четыре сообщения по электронной почте. Первое и второе сообщения попадают в набор электронных сообщений для формирования дерева решений. Выявленные атрибуты первого сообщения:For example, a user received four emails. The first and second messages are sent to a set of emails to form a decision tree. Revealed attributes of the first message:
• текст сообщения: «ПОКУПАЙТЕ ЦВЕТЫ», вместо пробелов использованы случайные символы белого цвета;• text of the message: "BUY FLOWERS", instead of spaces, random symbols of white color are used;
• IP-адрес: 191.157.1.1;• IP address: 191.157.1.1;
• размер сообщения: 1 Кб;• message size: 1 Kb;
• приложен файл: 200 Кб, 32.jpg.• attached file: 200 Kb, 32.jpg.
Выявленные атрибуты второго сообщения:Revealed attributes of the second message:
• текст сообщения: «ПОКУПАЙТЕ ЦВЕТЫ», вместо пробелов использованы случайные символы белого цвета;• text of the message: "BUY FLOWERS", instead of spaces, random symbols of white color are used;
• IP-адрес: 181.147.2.2;• IP address: 181.147.2.2;
• размер сообщения: 1,5 Кб;• message size: 1.5 Kb;
• приложен файл: 300 Кб, 32.bmp.• attached file: 300 Kb, 32.bmp.
Вычисленные признаки от атрибутов первого сообщения:Computed features from the attributes of the first message:
- Признак 1 (неизвестный IP-адрес) - есть, вес 0,05;- Sign 1 (unknown IP address) - yes, weight 0.05;
- Признак 2 (размер сообщения <10 кБ) - есть, вес 0,1;- Sign 2 (message size <10 kB) - yes, weight 0.1;
- Признак 3 (скрытый текст) - есть, вес 0,3;- Sign 3 (hidden text) - yes, weight 0.3;
- Признак 4 (файл графического формата) - есть, вес 0,1.- Sign 4 (graphic format file) - yes, weight 0.1.
Вычисленные признаки от атрибутов второго сообщения:Computed features from the attributes of the second message:
- Признак 1 (неизвестный IP-адрес) - есть, вес 0,05;- Sign 1 (unknown IP address) - yes, weight 0.05;
- Признак 2 (размер сообщения <10 кБ) - есть, вес 0,1;- Sign 2 (message size <10 kB) - yes, weight 0.1;
- Признак 3 (скрытый текст) - есть, вес 0,3;- Sign 3 (hidden text) - yes, weight 0.3;
- Признак 4 (файл графического формата) - есть, вес 0,1.- Sign 4 (graphic format file) - yes, weight 0.1.
Одним из вариантов дерева решений для обнаружения спама, сформированного на основе набора электронных сообщений для формирования дерева решений, будет следующее дерево решений: признак 1 с ветвями «есть» или «нет», если признак 1 имеет значение «есть», то происходит переход к признаку 2 с ветвями «есть» или «нет», если признак 2 имеет значение «есть», то происходит переход к признаку 4 с ветвями «есть» или «нет», если признак 4 имеет значение «есть», то происходит переход к признаку 3 с ветвями «есть» или «нет», в случае если признак 3 имеет значение «есть», то электронное сообщение попадет в группу 1, если признак 3 имеет значение «нет», то электронное сообщение попадет в группу 2, и т.д. Суммарный вес группы 1 будет 0,55. Суммарный вес группы 2 будет 0,25.One of the variants of the decision tree for detecting spam, generated on the basis of a set of e-mail messages for forming a decision tree, will be the following decision tree: feature 1 with branches "yes" or "no", if
Для применения сформированного дерева решений используют проверочный набор электронных сообщений. Третье и четвертое электронное сообщения попадают в проверочный набор электронных сообщений. Выявленные атрибуты третьего сообщения:To apply the generated decision tree, a test set of e-mail messages is used. The third and fourth emails fall into the test set of emails. Revealed attributes of the third message:
• текст сообщения: «ПОКУПАЙТЕ ЦВЕТЫ», вместо пробелов использованы случайные символы белого цвета;• text of the message: "BUY FLOWERS", instead of spaces, random symbols of white color are used;
• IP-адрес: 193.153.1.1;• IP address: 193.153.1.1;
• размер сообщения: 1,7 Кб;• message size: 1.7 Kb;
• приложен файл: 250 Кб, 32.png.• attached file: 250 Kb, 32.png.
Выявленные атрибуты четвертого сообщения:Revealed attributes of the fourth message:
• текст сообщения: «С Днем Рождения!!!», нет символов белого цвета;• message text: "Happy Birthday !!!", no white characters;
• IP-адрес: 192.161.7.2;• IP address: 192.161.7.2;
• размер сообщения: 0,5 Кб;• message size: 0.5 Kb;
• приложен файл: 250 Кб, открытка.jpg.• attached file: 250 Kb, postcard.jpg.
Вычисленные признаки от атрибутов третьего сообщения:Computed features from the attributes of the third message:
- Признак 1 (неизвестный IP-адрес) - есть;- Sign 1 (unknown IP address) - yes;
- Признак 2 (размер сообщения <10 кБ) - есть;- Sign 2 (message size <10 kB) - yes;
- Признак 3 (скрытый текст) - есть;- Sign 3 (hidden text) - yes;
- Признак 4 (файл графического формата) - есть.- Sign 4 (graphic format file) - yes.
Вычисленные признаки от атрибутов четвертого сообщения:Calculated features from the attributes of the fourth message:
- Признак 1 (неизвестный IP-адрес) - есть;- Sign 1 (unknown IP address) - yes;
- Признак 2 (размер сообщения <10 кБ) - есть;- Sign 2 (message size <10 kB) - yes;
- Признак 3 (скрытый текст) - нет;- Sign 3 (hidden text) - no;
- Признак 4 (файл графического формата) - есть.- Sign 4 (graphic format file) - yes.
В результате применения сформированного дерева решений третье сообщение попадет в группу 1, четвертое сообщение - в группу 2. Задано предельное значение суммарного веса 0,5. Таким образом, третье сообщение является электронным сообщением, содержащим спам. Выявляют перечень признаков, сработавших более одного раза, весом больше 0.08. Формируют сигнатуру, где перечень признаков состоит из признака 2, связанного с признаком 4 через значение «есть», признака 4, связанного с признаком 3 значением «есть», и признака 3, который имеет значение «есть».As a result of applying the generated decision tree, the third message will fall into
Фиг. 3 иллюстрирует алгоритм формирования сигнатуры для обнаружения спама. На этапе 311 при помощи средства распознавания 220 осуществляют формирование набора электронных сообщений и передают сформированный набор электронных сообщений средству вычисления 230. На этапе 312 при помощи средства вычисления 230 осуществляют вычисление признаков для обнаружения спама на основании сформированного набора электронных сообщений. На этапе 313 при помощи средства вычисления 230 осуществляют формирование дерева решений для обнаружения спама с использованием вычисленных признаков и передают данные о сформированном дереве решений для обнаружения спама средству формирования 240. На этапе 314 при помощи средства формирования 240 выполняют формирование сигнатуры для обнаружения спама на основании сформированного дерева решений и сформированного набора электронных сообщений.FIG. 3 illustrates an algorithm for generating a signature for spam detection. In
Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24.FIG. 4 shows an example of a general-purpose computer system, a personal computer or
Персональный компьютер 20 в свою очередь содержит жесткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жесткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жесткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20.The
Настоящее описание раскрывает реализацию системы, которая использует жесткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш-карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.The present description discloses an implementation of a system that uses a
Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединен к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединен к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащен другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.
Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удаленными компьютерами 49. Удаленный компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 4. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы.The
Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключен к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключен к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.Network connections can form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks,
В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой.In conclusion, it should be noted that the information given in the description are examples, which do not limit the scope of the present invention defined by the claims.
Claims (19)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020108167A RU2758358C2 (en) | 2020-02-26 | 2020-02-26 | Method for generating signature for spam detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020108167A RU2758358C2 (en) | 2020-02-26 | 2020-02-26 | Method for generating signature for spam detection |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2020108167A3 RU2020108167A3 (en) | 2021-08-26 |
RU2020108167A RU2020108167A (en) | 2021-08-26 |
RU2758358C2 true RU2758358C2 (en) | 2021-10-28 |
Family
ID=77445611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020108167A RU2758358C2 (en) | 2020-02-26 | 2020-02-26 | Method for generating signature for spam detection |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2758358C2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038705A1 (en) * | 2005-07-29 | 2007-02-15 | Microsoft Corporation | Trees of classifiers for detecting email spam |
US20100095378A1 (en) * | 2003-09-08 | 2010-04-15 | Jonathan Oliver | Classifying a Message Based on Fraud Indicators |
US8566938B1 (en) * | 2012-11-05 | 2013-10-22 | Astra Identity, Inc. | System and method for electronic message analysis for phishing detection |
RU2541123C1 (en) * | 2013-06-06 | 2015-02-10 | Закрытое акционерное общество "Лаборатория Касперского" | System and method of rating electronic messages to control spam |
US20160344770A1 (en) * | 2013-08-30 | 2016-11-24 | Rakesh Verma | Automatic Phishing Email Detection Based on Natural Language Processing Techniques |
-
2020
- 2020-02-26 RU RU2020108167A patent/RU2758358C2/en active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100095378A1 (en) * | 2003-09-08 | 2010-04-15 | Jonathan Oliver | Classifying a Message Based on Fraud Indicators |
US20070038705A1 (en) * | 2005-07-29 | 2007-02-15 | Microsoft Corporation | Trees of classifiers for detecting email spam |
US8566938B1 (en) * | 2012-11-05 | 2013-10-22 | Astra Identity, Inc. | System and method for electronic message analysis for phishing detection |
RU2541123C1 (en) * | 2013-06-06 | 2015-02-10 | Закрытое акционерное общество "Лаборатория Касперского" | System and method of rating electronic messages to control spam |
US20160344770A1 (en) * | 2013-08-30 | 2016-11-24 | Rakesh Verma | Automatic Phishing Email Detection Based on Natural Language Processing Techniques |
Also Published As
Publication number | Publication date |
---|---|
RU2020108167A3 (en) | 2021-08-26 |
RU2020108167A (en) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Toolan et al. | Feature selection for spam and phishing detection | |
US8402102B2 (en) | Method and apparatus for filtering email spam using email noise reduction | |
US8489689B1 (en) | Apparatus and method for obfuscation detection within a spam filtering model | |
JP4335582B2 (en) | System and method for detecting junk e-mail | |
US10178115B2 (en) | Systems and methods for categorizing network traffic content | |
US8112484B1 (en) | Apparatus and method for auxiliary classification for generating features for a spam filtering model | |
RU2710739C1 (en) | System and method of generating heuristic rules for detecting messages containing spam | |
US20060149820A1 (en) | Detecting spam e-mail using similarity calculations | |
Woitaszek et al. | Identifying junk electronic mail in Microsoft outlook with a support vector machine | |
Taylor et al. | A model to detect spam email using support vector classifier and random forest classifier | |
CN111835622A (en) | Information interception method and device, computer equipment and storage medium | |
Das et al. | Analysis of an image spam in email based on content analysis | |
Iyengar et al. | Integrated spam detection for multilingual emails | |
RU2750643C2 (en) | Method for recognizing a message as spam through anti-spam quarantine | |
RU2758358C2 (en) | Method for generating signature for spam detection | |
CN110048936B (en) | Method for judging junk mail by semantic associated words | |
Ferreira et al. | The development of the open machine-learning-based anti-spam (Open-MaLBAS) | |
US20230328034A1 (en) | Algorithm to detect malicious emails impersonating brands | |
Morovati et al. | Detection of Phishing Emails with Email Forensic Analysis and Machine Learning Techniques. | |
Lan et al. | Spam filtering based on preference ranking | |
Chhabra | Fighting spam, phishing and email fraud | |
EP1721429A1 (en) | A method and apparatus to use a statistical model to classify electronic communications | |
Islam et al. | Machine learning approaches for modeling spammer behavior | |
Manek et al. | ReP-ETD: A Repetitive Preprocessing technique for Embedded Text Detection from images in spam emails | |
Salim | Using Decision Tree Algorithms in Detecting Spam Emails Written in Malay: A Comparison Study |