[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6478730B2 - Malignant URL candidate acquisition device, malignant URL candidate acquisition method, and program - Google Patents

Malignant URL candidate acquisition device, malignant URL candidate acquisition method, and program Download PDF

Info

Publication number
JP6478730B2
JP6478730B2 JP2015048653A JP2015048653A JP6478730B2 JP 6478730 B2 JP6478730 B2 JP 6478730B2 JP 2015048653 A JP2015048653 A JP 2015048653A JP 2015048653 A JP2015048653 A JP 2015048653A JP 6478730 B2 JP6478730 B2 JP 6478730B2
Authority
JP
Japan
Prior art keywords
search
malignant
character string
url
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015048653A
Other languages
Japanese (ja)
Other versions
JP2016170524A (en
Inventor
恭之 田中
恭之 田中
隼 有川
隼 有川
充弘 畑田
充弘 畑田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2015048653A priority Critical patent/JP6478730B2/en
Publication of JP2016170524A publication Critical patent/JP2016170524A/en
Application granted granted Critical
Publication of JP6478730B2 publication Critical patent/JP6478730B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ブラックリストを構成する悪性URLの候補を収集するための技術に関連するものである。   The present invention relates to a technique for collecting candidates for malignant URLs constituting a blacklist.

コンピュータの脆弱性を狙った不正プログラムによる攻撃や、コンピュータの情報を不正に取得するような動作を実行するマルウェアの配付による攻撃等が重要な問題となっている。   Important issues include attacks by malicious programs targeting computer vulnerabilities, and attacks by distribution of malware that performs an operation to illegally acquire information of the computer.

不正プログラム等がダウンロードされる可能性のあるアクセス先のURLを悪性URLと呼ぶ。悪性URLのリストをブラックリストとして保持し、フィルタリングに用いることでユーザを保護することができる。   The URL of an access destination to which an unauthorized program or the like may be downloaded is called a malignant URL. The list of malicious URLs can be maintained as a blacklist and used for filtering to protect the user.

特許第4739962号Patent No. 4739962 特開2012−118713号公報JP, 2012-118713, A

悪性URLからなるブラックリストを作成するには、悪性であることが疑わしい悪性URL候補について、例えば特許文献1に記載された技術を用いて、当該悪性URL候補のサイトが実際に攻撃を行うサイトであるかどうかを判定する。そして、判定の結果、攻撃を行うサイトであると判定された悪性URL候補を、悪性URLとしてブラックリストに含める。なお、特許文献1に記載された技術は、シードと呼ばれる悪性URL候補をハニークライアントに投入することにより悪性URL候補が悪性URLであるかどうかを判定する技術である。   In order to create a blacklist consisting of malignant URLs, for a malignant URL candidate suspected to be malignant, for example, using a technology described in Patent Document 1, the site of the malignant URL candidate actually attacks at the site Determine if there is. Then, as a result of the determination, a malignant URL candidate determined to be a site to attack is included in the blacklist as a malignant URL. The technique described in Patent Document 1 is a technique for determining whether a malignant URL candidate is a malignant URL by injecting a malignant URL candidate called a seed into a honey client.

しかしながら、現状、シード(悪性URL候補)の数が少なく、結果として、上記のような技術により得られる悪性URLの数が少ないという課題がある。   However, at present, there is a problem that the number of seeds (malignant URL candidates) is small, and as a result, the number of malignant URLs obtained by the above-described technique is small.

現状のシードは、SPAMメールや様々なセキュリティデバイスのログから抽出したURL、SOC(セキュリティ・オペレーション・センター)のオペレータが顧客対応中に見つけたURL等を収集することで得られる。しかし、当該手法では、既知の悪性URL候補しか発見できず、悪性URL候補を数多く取得することができない。   The current seed can be obtained by collecting SPAM mail, URLs extracted from logs of various security devices, URLs that an operator of the SOC (Security Operations Center) found during customer handling, and the like. However, with this method, only known malignant URL candidates can be found, and many malignant URL candidates can not be acquired.

上記の課題に鑑みて、特許文献2では、悪性URLの近傍に悪性URLが存在する可能性が高いという知見を用いて、未知の悪性URL候補を探す技術が提案されている。しかし、インターネット空間は非常に広く、近傍にない場所に存在する可能性のある多くの悪性URL候補を見つけることはできない。   In view of the above problems, Patent Document 2 proposes a technique for searching for an unknown malignant URL candidate using knowledge that there is a high possibility that a malignant URL exists in the vicinity of a malignant URL. However, the Internet space is so wide that it can not find many malicious URL candidates that may exist in places that are not nearby.

本発明は上記の点に鑑みてなされたものであり、インターネット上の未知の悪性URL候補を効率的に取得することを可能とする技術を提供することを目的とする。   The present invention has been made in view of the above, and it is an object of the present invention to provide a technology capable of efficiently acquiring unknown malignant URL candidates on the Internet.

本発明の実施の形態によれば、悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置であって、
既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、
前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段とを備え、
前記検索手段は、
前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行う
悪性URL候補取得装置が提供される。
According to an embodiment of the present invention, there is provided a malignant URL candidate acquiring device for acquiring a malignant URL candidate, which is a URL used to detect a malignant site,
Feature string storage means for storing a feature string that is a string used at a known malignant site;
Search means for executing a search for a search device on the Internet by using the characteristic character string as a keyword;
A determination unit configured to determine a malignant URL candidate based on the search result obtained by the search unit;
The search means is
When using a search device in which information on a malignant site is stored as the search device, a malignant URL candidate acquiring device is provided which acquires an IP address from the FQDN portion included in the characteristic character string and performs a search based on the IP address. Ru.

また、本発明の実施の形態によれば、悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置が実行する悪性URL候補取得方法であって、
前記悪性URL候補取得装置は、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段を備え、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対して検索を実行する検索ステップと、
前記検索ステップにより得られた検索結果に基づき、悪性URL候補を決定する決定ステップとを備え、
前記検索ステップにおいて、前記悪性URL候補取得装置は、
前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行う
悪性URL候補取得方法が提供される。
Further, according to the embodiment of the present invention, there is provided a method for acquiring a malignant URL candidate, which is performed by a malignant URL candidate acquiring device for acquiring a malignant URL candidate which is a URL used to detect a malignant site,
The malignant URL candidate acquisition device includes a characteristic character string storage unit that stores a characteristic character string that is a character string used at a known malignant site;
A search step of executing a search on a search device on the Internet by using the characteristic character string as a keyword;
Determining a malignant URL candidate based on the search result obtained by the search step;
In the search step, the malignant URL candidate acquisition device
When using a search device in which information on a malignant site is stored as the search device, a method for acquiring a malignant URL candidate is provided which acquires an IP address from the FQDN portion included in the characteristic character string and performs a search based on the IP address. Ru.

本発明の実施の形態によれば、インターネット上の未知の悪性URL候補を効率的に取得することが可能となる。   According to the embodiment of the present invention, it is possible to efficiently acquire unknown malignant URL candidates on the Internet.

本発明の実施の形態の概要を説明するための図である。It is a figure for demonstrating the outline | summary of embodiment of this invention. 本発明の実施の形態に係る悪性URL候補取得装置10の構成図である。It is a block diagram of malignant URL candidate acquisition device 10 concerning an embodiment of the invention. 本実施の形態における悪性URL候補取得装置10の動作を説明するためのフロー図である。It is a flowchart for demonstrating operation | movement of the malignant URL candidate acquisition apparatus 10 in this Embodiment. 特徴文字列の例を示す図である。It is a figure which shows the example of a characteristic character string.

以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. Note that the embodiments described below are merely examples, and the embodiments to which the present invention is applied are not limited to the following embodiments.

以下、悪性サイト/攻撃サイト等で使用される「サイト」の用語は、コンテンツとURLを含む意味で使用する。また、「コンテンツ」は、HTMLデータ等、サーバから端末に送られることになる情報を意味し、「URL」は、コンテンツのネットワーク上の場所を示す。   Hereinafter, the term "site" used in malignant sites / attack sites etc. is used to mean including content and URL. Also, "content" means information to be sent from the server to the terminal, such as HTML data, and "URL" indicates the location of the content on the network.

(実施の形態の概要)
まず、図1を参照して本発明の実施の形態における悪性URL候補取得技術の概要を説明する。図1に示すように、本実施の形態において、悪性URL候補取得装置10が備えられる。悪性URL候補取得装置10は、インターネット30に接続され、インターネット30上の検索装置20を用いて、インターネット30における情報の検索を行う機能を持つ。各検索装置は、検索エンジンが備えられた装置であり、1又は複数のサーバを含む。なお、悪性URL候補取得装置10が検索を行う先のネットワークは、インターネット30に限られず、インターネット30以外の通信ネットワークであってもよい。
(Overview of the embodiment)
First, an outline of a malignant URL candidate acquisition technique according to an embodiment of the present invention will be described with reference to FIG. As shown in FIG. 1, a malignant URL candidate acquisition device 10 is provided in the present embodiment. The malignant URL candidate acquisition device 10 is connected to the Internet 30, and has a function of searching information on the Internet 30 using the search device 20 on the Internet 30. Each search device is a device provided with a search engine, and includes one or more servers. The network to which the malignant URL candidate acquisition device 10 searches is not limited to the Internet 30, and may be a communication network other than the Internet 30.

ステップ1において、悪性URL候補取得装置10は、悪性サイトに存在する可能性が高い特徴文字列を取得する。特徴文字列に関し、悪性URL候補取得装置10自身が後述する観点により取得してもよいし、既に取得された特徴文字列を入力することとしてもよい。   In step 1, the malignant URL candidate acquisition device 10 acquires a feature character string that is likely to exist at a malignant site. With regard to the characteristic character string, the malignant URL candidate acquiring device 10 may acquire the characteristic character string according to a viewpoint described later, or may input a characteristic character string already acquired.

悪性URL候補取得装置10は、ステップ1で取得した特徴文字列をキーとして用いることにより、インターネット30上の検索装置20を用いて検索を行う(ステップ2)。詳しくは後述するが、検索装置20は、一般的なインターネット検索用の検索エンジンを備える装置、ソースコード検索エンジンを備える装置、悪性サイト蓄積サイトを提供する装置等である。   The malignant URL candidate acquisition device 10 performs a search using the search device 20 on the Internet 30 by using the characteristic character string acquired in step 1 as a key (step 2). Although the details will be described later, the search device 20 is a device provided with a search engine for general Internet search, a device provided with a source code search engine, a device providing a malignant site accumulation site, and the like.

悪性URL候補取得装置10は、ステップ2の検索で得られたURLそのもの、もしくは、所定の基準で選択されたURLを悪性URL候補として出力する。   The malignant URL candidate acquisition device 10 outputs the URL itself obtained in the search of step 2 or the URL selected according to a predetermined criterion as a malignant URL candidate.

出力された悪性URL候補は、例えば特許文献1に記載された技術における悪性URL候補のシードとして使用され、悪性URL候補が実際に悪性URLであるかどうかの判定が実行される。   The output malignant URL candidate is used as a seed of the malignant URL candidate in the technology described in, for example, Patent Document 1, and it is determined whether the malignant URL candidate is actually a malignant URL.

(悪性URL候補取得装置10の構成例)
図2に、本実施の形態に係る悪性URL候補取得装置10の構成図を示す。図2に示すように、本実施の形態に係る悪性URL候補取得装置10は、特徴文字列取得部11、特徴文字列格納部12、検索制御部13、検索実行部14、検索結果格納部15、URL候補決定部16を有する。なお、図2に示す悪性URL候補取得装置10の機能区分及び機能名称は一例に過ぎない。本実施の形態における処理を実行可能な悪性URL候補取得装置10の機能区分及び機能名称は、図2に示すものに限られない。各機能部の概要は以下のとおりである。
(Configuration Example of Malignant URL Candidate Acquisition Device 10)
FIG. 2 shows a configuration diagram of the malignant URL candidate acquisition device 10 according to the present embodiment. As shown in FIG. 2, the malignant URL candidate acquisition device 10 according to the present embodiment includes a characteristic character string acquisition unit 11, a characteristic character string storage unit 12, a search control unit 13, a search execution unit 14, and a search result storage unit 15. , And the URL candidate determination unit 16. The function classification and function name of the malignant URL candidate acquiring device 10 shown in FIG. 2 are merely an example. The function classification and function name of the malignant URL candidate acquiring device 10 capable of executing the process in the present embodiment are not limited to those shown in FIG. The outline of each functional unit is as follows.

特徴文字列取得部11は、外部から特徴文字列の入力を受けることで特徴文字列を取得する、もしくは、既知の悪性サイトのコンテンツ及び/又はURL等から特徴文字列を取得する。取得した特徴文字例は、特徴文字例格納部12に格納される。   The characteristic character string acquisition unit 11 acquires a characteristic character string by receiving an input of a characteristic character string from the outside, or acquires a characteristic character string from content and / or a URL of a known malignant site. The acquired example of characteristic characters is stored in the characteristic character example storage unit 12.

検索制御部13は、特徴文字列に格納された個々の特徴文字列の種類等に応じて、どの検索装置で検索を行うか、どのような手順で検索を行うか等の制御内容を決定する。検索実行部14は、検索制御部13により決定された制御内容に従って、特徴文字列を用いてインターネット30上の検索装置に対する検索を実行する。検索実行部14により実行された検索による検索結果(URL、当該コンテンツの一部等)は、検索結果格納部15に格納される。なお、検索制御部13と検索実行部14を検索部(検索手段)として一体で構成してもよい。   The search control unit 13 determines the control content such as which search device is used to perform the search and in what procedure the search is performed according to the type of each of the characteristic character strings stored in the characteristic character string. . The search execution unit 14 executes a search for a search device on the Internet 30 using the characteristic character string in accordance with the control content determined by the search control unit 13. The search results (URL, part of the content, etc.) by the search executed by the search execution unit 14 are stored in the search result storage unit 15. The search control unit 13 and the search execution unit 14 may be integrated as a search unit (search means).

URL候補決定部16は、検索結果格納部15に格納されている検索結果のURLから、悪性URL候補を決定し、決定した悪性URL候補を出力する。   The URL candidate determination unit 16 determines a malignant URL candidate from the URLs of the search results stored in the search result storage unit 15, and outputs the determined malignant URL candidate.

本実施の形態に係る悪性URL候補取得装置10は、例えば、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、悪性URL候補取得装置10が有する機能は、当該コンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、悪性URL候補取得装置10で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。   The malignant URL candidate acquisition device 10 according to the present embodiment can be realized, for example, by causing one or more computers to execute a program in which the processing content described in the present embodiment is described. That is, the function possessed by the malignant URL candidate acquiring apparatus 10 executes a program corresponding to the process performed by the malignant URL candidate acquiring apparatus 10 using hardware resources such as a CPU, a memory, a hard disk, etc. built in the computer. It is possible to realize by doing. The program can be recorded on a computer readable recording medium (portable memory or the like), and can be stored or distributed. Moreover, it is also possible to provide the above program through a network such as the Internet or e-mail.

(悪性URL候補取得装置10の詳細動作)
以下、悪性URL候補取得装置10の詳細動作を図3のフロー図に従って説明する。ここでの詳細動作の説明では、悪性サイトの例として攻撃サイトを挙げているが、これは例であり、本発明は、攻撃サイトに限定されない悪性サイトに対して適用可能である。攻撃サイトとは、例えば、ドライブバイダウンロードのように、ブラウザ等でアクセスすると何等かの攻撃が発動されるサイトである。
(Detailed Operation of Malignant URL Candidate Acquisition Device 10)
Hereinafter, the detailed operation of the malignant URL candidate acquisition device 10 will be described according to the flowchart of FIG. Although the attack site is mentioned as an example of a malignant site in the detailed operation explanation here, this is an example, and the present invention is applicable to a malignant site which is not limited to the attack site. The attack site is, for example, a site such as drive-by download where a certain attack is triggered when accessed by a browser or the like.

<ステップ101:特徴文字列抽出>
まず、ステップ101として、特徴文字列の抽出が行われる。この特徴文字列の抽出は、悪性URL候補取得装置10の外で、装置(コンピュータ)が自動的に行ってもよいし、コンピュータを用いて人手で行ってもよいし、悪性URL候補取得装置10の特徴文字列取得部11が自動的に行ってもよい。
<Step 101: Feature String Extraction>
First, as step 101, extraction of a characteristic character string is performed. The characteristic character string may be extracted automatically by a device (computer) outside the malignant URL candidate acquiring device 10 or manually by using a computer. The malignant URL candidate acquiring device 10 The characteristic character string acquisition unit 11 may automatically perform the process.

攻撃サイトは、アプリケーションの一種であるExploitKIT(以下、EKと呼ぶ)と呼ばれる攻撃ツールを用いて作成されることが多く、各EKで作成された攻撃サイトのコンテンツ等には特徴的な文字列が含まれることが多い。また、EKが使われない場合でも、攻撃に必須となる特徴的なコードが攻撃サイトのコンテンツ内に存在する傾向がある。   An attack site is often created using an attack tool called ExploitKIT (hereinafter referred to as EK), which is a type of application, and characteristic character strings are included in the content of the attack site created with each EK. Often included. Also, even if EK is not used, characteristic code that is essential to an attack tends to be present in the content of the attack site.

上記の知見に基づき、本実施の形態では、既知の攻撃サイトのコンテンツ内に含まれる特徴文字列、及び/又は、既知の攻撃サイトのURLである攻撃URL内に含まれる特徴文字列を抽出する。より具体的には、以下の観点で抽出を行う。以下では、コンテンツに含まれる特徴文字列と、URL内に含まれる特徴文字列に分けて説明する。図3においては、コンテンツに含まれる特徴文字列をHTML系として示し、URLに含まれる特徴文字列をURL系として示している。   Based on the above findings, in the present embodiment, a characteristic character string included in the content of a known attack site and / or a characteristic character string included in an attack URL that is a URL of a known attack site is extracted. . More specifically, extraction is performed in the following manner. In the following, the feature character string included in the content and the feature character string included in the URL will be described separately. In FIG. 3, the characteristic character string contained in the content is shown as an HTML system, and the characteristic character string contained in the URL is shown as a URL system.

<HTMLデータ等のコンテンツに含まれる特徴文字列>
観点(1):EKや難読化アプリケーションの仕様上に表れる特徴
(1−1)種々のEK(アプリケーション)において、各アプリケーション固有に表れる特徴文字列が存在する。このようなEKがサイトに組み込まれることで攻撃が行われることから、当該アプリケーション固有に表れる特徴文字列をEKもしくは既知の攻撃サイトのコンテンツから抽出し、当該特徴文字列を有するサイトを検索することで攻撃URL候補を得ることができる。
<Characteristic string included in content such as HTML data>
Viewpoint (1): Features that appear on the specifications of EK and obfuscation applications (1-1) In various EKs (applications), feature strings that appear unique to each application exist. Since such an EK is incorporated into a site to attack, a characteristic character string unique to the application is extracted from the content of the EK or a known attacking site, and a site having the characteristic character string is searched. The attack URL candidate can be obtained with.

一例として、Blackhole EKと呼ばれるEKに特徴的な文字列として、図4の(a)に示すように、「<?PHP//003ab if(!extension_loaded('ionCube Loader'))」がある。なお、例示における特徴文字列において「」は特徴文字列に含まれない。以下同様である。   As an example, as shown in (a) of FIG. 4, “<? PHP // 003ab if (! Extension_loaded ('ionCube Loader'))” is a character string that is characteristic of EK called Blackhole EK. Note that "" is not included in the feature character string in the feature character string in the example. The same applies to the following.

(1−2)攻撃サイトの作成者は、サイトのソースコードの解読を困難にするために、ソースコード難読化ツールを用いて、コンテンツのソースコードを難読化する場合が多い。特に、EKを用いた多くのサイトはソースコード難読化ツールを用いて難読化される。このような観点で、本実施の形態では、ソースコード難読化ツールを用いた場合に現れる特徴文字列を、ソースコード難読化ツール自体、あるいは、ソースコード難読化ツールを用いて作成された攻撃サイトのコンテンツから抽出する。   (1-2) The creator of an attack site often obfuscates the source code of the content using a source code obfuscation tool in order to make it difficult to decipher the source code of the site. In particular, many sites using EK are obfuscated using source code obfuscation tools. From this point of view, in the present embodiment, the characteristic character string appearing when using the source code obfuscation tool is an attack site created using the source code obfuscation tool itself or the source code obfuscation tool. Extract from the content of

このような特徴文字列の一例として、図4の(b)に示すように、Blackhole EKを用いて作成されたコンテンツ等から抽出される「/*km0ae9gr6m*/」がある。   As an example of such a characteristic character string, as shown in FIG. 4B, there is “/ * km0ae9gr6m * /” extracted from content etc. created using Blackhole EK.

(1−3)攻撃サイトのコンテンツをソースコード難読化ツールで難読化処理を行った場合でも、一部のソースコード難読化ツールでは難読化されない文字列が存在する。例えば、文字列特定の関数名等である。本実施の形態では、このような観点で、難読化されない文字列を、ソースコード難読化ツールを用いて作成された攻撃サイトのコンテンツ等から抽出する。   (1-3) Even when the content of the attack site is obfuscated by the source code obfuscation tool, there are character strings that are not obfuscated by some source code obfuscation tools. For example, a character string specific function name or the like. In this embodiment, from such a point of view, the character string that is not obfuscated is extracted from the content of the attack site and the like created using the source code obfuscation tool.

このような特徴文字列の一例として、図4の(c)に示すように、Fiesta EKを用いて作成される攻撃サイトのコンテンツにおける「function mulls(cqq, lg6) {var hx, ik, bhf, dr, jbf, fr; ik' ';hx='」がある。   As an example of such a feature string, as shown in (c) of FIG. 4, “function muls (cqq, lg6) {var hx, ik, bhf, in the content of the attack site created using Fiesta EK, There are dr, jbf, fr; ik ''; hx = ''.

観点(2):攻撃サイト自体の性質から現れる特徴
攻撃サイトから提供されるコンテンツは、攻撃先で攻撃コードを発動させるために、正規サイトのコンテンツにはない特徴文字列を入れ込むことが必要不可欠である。本実施の形態では、このような観点から、例えば既知の攻撃サイトのコンテンツから攻撃コードに関係する特徴文字列を抽出する。
Viewpoint (2): Features that emerge from the nature of the attack site itself Content provided from the attack site is essential to include a feature string that is not in the content of the regular site, in order to trigger the attack code at the attack destination It is. In this embodiment, from such a point of view, for example, the characteristic character string related to the attack code is extracted from the content of the known attack site.

このような特徴文字列の一例として、図4(d)に示すように、脆弱性(CVE-2006-0003(MS06-014))の場合におけるRDS.DataControlを示すクラスIDである「clsid:BD96C556-65A3-11D0-983A-00C04FC29E36」がある。   As an example of such a characteristic character string, as shown in FIG. 4D, “clsid: BD 96 C 556, which is a class ID indicating RDS.DataControl in the case of vulnerability (CVE-2006-0003 (MS 06-014)) -65A3-11D0-983A-00C04FC29E36 ".

観点(3):攻撃サイトのリンク関係の性質から現れる特徴
攻撃者は、改ざん入口サイトのように、iframeやリダイレクトでサイトの遷移を行わせることが多い。このような観点から、iframeやリダイレクトで遷移をさせるためのコードを含んだ文字列を特徴文字列として、例えば、改ざん入口サイトのコンテンツ等から抽出する。
Viewpoint (3): Characteristics that emerge from the nature of the link relationship of the attack site As the tampering entrance site, attackers often cause site transition with iframes and redirects. From such a point of view, a character string including a code for causing transition by iframe or redirect is extracted as a characteristic character string, for example, from the content of the tampered entrance site or the like.

このような特徴文字列の一例として、図4(e)に示すように、「<iframe src="/news/information - ups - 934387535.php ? iczbdqgs = 1f: 1h: 1l: 1f: 2w & wtxsk = o & qfgksyd = 1m: 1f: 1m: 31: 31: 1f: 1j: 31: 1l : 1l & ova = 1f: 1d: 1f: 1d: 1f: 1d: 1f"> </iframe>」がある。   As an example of such a feature string, as shown in FIG. 4 (e), “<iframe src =" / news / information-ups-934387535.php? Iczbdqgs = 1f: 1h: 1l: 1l: 1f: 2w & wtxsk = o & qfgksyd = 1 m: 1 f: 1 m: 31: 31: 1 f: 1 j: 31: 1 l: 1 l & 1 a: 1 f: 1 d: 1 d: 1 f: 1 d: 1 f: 1 d: 1 f "> </ iframe>

なお、HTMLデータ等のコンテンツに含まれる特徴文字列の例として、上記の3つの観点の特徴文字列を示したが、当該コンテンツに含まれる特徴文字列の抽出の観点は上記の例に限られるわけではない。また、上記各観点で抽出された特徴文字列は、そのまま単独で用いてもよいし、複数の特徴文字列を組み合わせて用いてもよいし、各観点で抽出された特徴文字列の一部(断片)を用いてもよいし、断片の組み合わせを用いてもよい。また、複数の観点のうちの全部を用いてもよいし、一部を用いてもよい。   In addition, although the characteristic character string of said three viewpoints was shown as an example of the characteristic character string contained in content, such as HTML data, the viewpoint of extraction of the characteristic character string contained in the said content is restricted to said example. Do not mean. In addition, the characteristic character string extracted in each of the above viewpoints may be used alone as it is, or a plurality of characteristic character strings may be used in combination, or a part of the characteristic character strings extracted in each perspective ( Fragments may be used, or a combination of fragments may be used. Moreover, all of a plurality of viewpoints may be used, or a part may be used.

上記のように、断片/組み合わせを特徴文字列とすることについては、抽出の段階で断片/組み合わせの特徴文字列を作成してもよいし、検索手順等の決定の段階あるいは検索実行の段階で断片/組み合わせの特徴文字列を作成してもよい。   As described above, with regard to making the fragment / combination into the characteristic character string, the characteristic character string of the fragment / combination may be created at the extraction stage, or at the stage of determination of search procedure etc. or the stage of search execution. Fragment / combination feature strings may be created.

<URL内に含まれる特徴文字列>
EKを用いて作成される攻撃サイトのURLには、EKに特有の特徴的な文字列が含まれている場合が多い。このような観点で、本実施の形態では、例えば、EKにより作成された攻撃サイトのURLから当該特徴文字列を抽出する。このような特徴文字列の一例として、図4の(f)に示すように、「.com/content/main.php?page= , /r57.php」がある。
<Feature string included in URL>
The URL of an attack site created using EK often contains a characteristic string unique to EK. From this point of view, in the present embodiment, for example, the characteristic character string is extracted from the URL of the attack site created by EK. As an example of such a feature string, there is “.com / content / main.php? Page =, /r57.php” as shown in FIG. 4 (f).

また、上記の観点で抽出されたURLの文字列におけるパス部を分解した文字列、分解した文字列の組み合わせを特徴文字列として取得してもよい。   In addition, a combination of a character string obtained by decomposing a path portion in a character string of a URL extracted from the above viewpoint, and a decomposed character string may be acquired as a feature character string.

図4の(g)に示すように、上記の具体例に対応するパス部分解文字列の例として「main.php」があり、組み合わせの例として「com, main.php」がある。   As shown in (g) of FIG. 4, there is "main.php" as an example of the path part decomposed character string corresponding to the above specific example, and there is "com, main.php" as an example of combination.

上記のように、分解/組み合わせを特徴文字列とすることについては、抽出の段階で分解/組み合わせの特徴文字列を作成してもよいし、検索手順等の決定の段階あるいは検索実行の段階で分解/組み合わせの特徴文字列を作成してもよい。   As described above, with regard to decomposing / combining into the characteristic character strings, decomposing / combining characteristic character strings may be created at the extraction stage, or at the stage of determination of a search procedure or the like or at the stage of search execution. It is also possible to create disassembly / combination feature strings.

以上、コンテンツ内に含まれる特徴文字列の抽出の例と、URL内に含まれる特徴文字列の抽出の例を説明したが、コンテンツ内に含まれる特徴文字列(全体、断片等)とURL内に含まれる特徴文字列(全体、一部等)との組み合わせを特徴文字列として使用してもよい。   Although the example of extraction of the characteristic character string included in the content and the example of extraction of the characteristic character string included in the URL have been described above, the characteristic character string (whole, fragment, etc.) included in the content and the URL A combination with the feature character string (whole, part, etc.) included in the symbol string may be used as the feature character string.

悪性URL候補取得装置10における特徴文字列取得部11は、上記のようにして抽出された特徴文字列の入力を受けて当該特徴文字列を特徴文字列格納部12に格納する。もしくは、悪性URL候補取得装置10における特徴文字列取得部11は、上記のような観点で自動的に既知の攻撃サイトのコンテンツ/URL等から特徴文字列を取得し、取得した特徴文字列を特徴文字列格納部12に格納する。   The characteristic character string acquiring unit 11 in the malignant URL candidate acquiring device 10 receives the input of the characteristic character string extracted as described above, and stores the characteristic character string in the characteristic character string storage unit 12. Alternatively, the characteristic character string acquisition unit 11 in the malignant URL candidate acquisition device 10 automatically acquires characteristic character strings from contents / URLs and the like of known attack sites from the viewpoint as described above, and the characteristic character strings acquired are characterized. It is stored in the character string storage unit 12.

<ステップ102:各装置用最適検索情報及び手順決定>
次に、悪性URL候補取得装置10における検索制御部13は、特徴文字列格納部12に格納されている特徴文字列を用いて、どの検索装置に対してどの特徴文字列を使用し、どのような手順で検索を行うかを決定する。例えば、検索制御部13は、予め定めたルールに従って各装置用の検索情報及び手順を決定する。
<Step 102: Determination of Optimal Search Information for Each Device and Procedure>
Next, using the feature character string stored in the feature character string storage unit 12, the search control unit 13 in the malignant URL candidate acquisition device 10 uses which feature character string for which search device, and how Decide whether to search according to For example, the search control unit 13 determines search information and procedures for each device according to a predetermined rule.

本実施の形態では、検索に利用する検索装置の例として、インターネット検索エンジンを備える装置、ソースコード検索エンジンを備える装置、悪性サイト蓄積サイト(悪性サイトの情報を蓄積した装置)の3種類を使用することとしている。ただし、本発明は特定の数/種類の検索装置に限定されない。例えば、1種類の検索装置を用いてもよい。また、1種類の検索装置を用いる場合でも、複数個の検索装置(検索サイト)を使用して検索を行うこととしてもよい。   In this embodiment, as an example of a search device used for a search, three types of a device provided with an Internet search engine, a device provided with a source code search engine, and a malignant site storage site (a device storing information on malignant sites) are used. It is supposed to be done. However, the present invention is not limited to a specific number / type of search devices. For example, one type of search device may be used. In addition, even when one type of search device is used, a search may be performed using a plurality of search devices (search sites).

以下、各検索装置の特徴を説明し、当該検索装置に適した検索情報、及び検索手順の例を説明する。当該検索情報及び検索手順の決定は検索制御部13が行う。以下で説明する検索の内容(検索制御部13が決定する内容)については、全てを実行してもよいし、一部のみを実行することとしてもよい。   Hereinafter, features of each search device will be described, and search information suitable for the search device and an example of a search procedure will be described. The search control unit 13 determines the search information and the search procedure. All of the contents of the search described below (contents determined by the search control unit 13) may be executed, or only a part may be executed.

(1)インターネット検索エンジン
インターネット検索エンジンは、一般的なインターネット検索サービスを提供する検索エンジンであり、例えばGoogle(登録商標)、bing(登録商標)等により提供される検索エンジンである。
(1) Internet Search Engine The Internet search engine is a search engine that provides a general Internet search service, and is a search engine provided by, for example, Google (registered trademark), bing (registered trademark) or the like.

インターネット検索エンジンは、一般に、一旦アクセスしたサイトの情報(コンテンツ、URL等)をキャッシュしており、当該キャッシュを用いることにより検索要求に係る検索を高速に行うことができる。なお、インターネット検索エンジンに限らず、後述するソースコード検索エンジン、悪性サイト蓄積サイトもこのようなキャッシュを用いている。   In general, the Internet search engine caches information (content, URL, etc.) of a site once accessed, and by using the cache, a search related to a search request can be performed at high speed. Note that not only the Internet search engine but also a source code search engine and a malignant site storage site described later use such a cache.

インターネット検索エンジンは、キャッシュの量が大きく、また、検索する際に様々な条件を指定して検索を行うことができるという利点がある。後者の特徴は、IF(インターフェース)の自由度が高いと言い換えてもよい。インターネット検索エンジンにはこのような利点がある反面、検索結果に目的としない結果が多く含まれる場合があるという欠点がある。後者は、「ゴミが多い」と言い換えることができる。   The Internet search engine has an advantage that it has a large amount of cache and can search by specifying various conditions when searching. The latter feature may be reworded as having a high degree of freedom in IF (interface). While Internet search engines have such advantages, they have the disadvantage that search results may contain many unintended results. The latter can be reworded as "there is a lot of trash".

このような特徴により、インターネット検索エンジンは、HTML系特徴文字列とURL系特徴文字列のどちらにでも適用することができるので、本実施の形態では、例えば、検索制御部13は、HTML系特徴文字列とURL系特徴文字列のそれぞれでインターネット検索エンジンを用いて検索を行うことを決定する。ここでの検索は、例えば、通常の検索窓を用いた検索もしくは、検索エンジン側のAPIを用いてプログラムが検索を行うこととしてよい。   With such a feature, the Internet search engine can be applied to either an HTML system characteristic character string or a URL system characteristic character string. Therefore, in the present embodiment, for example, the search control unit 13 is an HTML system characteristic. It decides to search using the Internet search engine for each of the character string and the URL system characteristic character string. The search here may be, for example, a search using a normal search window or a program search using an API on the search engine side.

上記のように、インターネット検索エンジンを用いた検索結果にはゴミが多いため、本実施の形態では、検索制御部13は、ホワイトリストを利用することで、インターネット検索エンジンを用いた検索結果から攻撃URLではない正規URLを除く処理を実行する手順を行うことを決定する。ここでのホワイトリストとは、例えば、インターネット上でのアクセス回数の多い順にURLを並べたリストであり、このようなホワイトリストとして、alexa、OpenDNS、DMOZ等により提供されるホワイトリストを利用できる。つまり、上記手順において、検索で得られた結果から、ホワイトリストに含まれるURLを除く処理を行う。   As described above, since the search results using the Internet search engine contain a lot of trash, in the present embodiment, the search control unit 13 uses the white list to attack the search results using the Internet search engine. Decide to perform the procedure to execute processing excluding regular URLs that are not URLs. Here, the whitelist is, for example, a list in which URLs are arranged in descending order of the number of times of access on the Internet, and as such a whitelist, a whitelist provided by alexa, OpenDNS, DMOZ or the like can be used. That is, in the above procedure, processing is performed to remove the URLs included in the white list from the results obtained by the search.

また、例えば、検索制御部13は、URL系特徴文字列については、URL内での検索を行うために、inurl検索を行うと決定してもよい。   In addition, for example, the search control unit 13 may determine to perform an inurl search in order to perform a search in the URL for the URL characteristic character string.

また、例えば、検索制御部13は、特定のFQDN(Fully Qualified Domain Name)を予め保持し、当該特定のFQDN内において、HTML系の特徴文字列を用いて検索を行うことを決定する。特定のFQDNが示すサイトは、例えば、攻撃サイト、改ざんサイト、操作シェル配置サイト等である。特定のサイト内の検索は、site検索を行うことで実現できる。また、link検索(被リンクに関する検索)を利用して、例えば、特定のFQDNのサイトにリンクするサイトのURLを見つけ、当該URLのサイトでHTML系の特徴文字列を用いて検索を行うことを決定してもよい。   Further, for example, the search control unit 13 holds a specific FQDN (Fully Qualified Domain Name) in advance, and determines to perform a search using an HTML-based characteristic character string in the specific FQDN. The site indicated by the specific FQDN is, for example, an attack site, a falsification site, an operation shell placement site, or the like. A search within a specific site can be realized by performing a site search. Also, for example, using the link search (search on the to-link), find the URL of the site linked to the site of the specific FQDN, and perform the search using the characteristic character string of the HTML system at the site of the URL. You may decide.

(2)ソースコード検索エンジン
ソースコード検索エンジンは、Webサイト内のCSS、HTML、Javascript(登録商標)等のソースコードを検索の対象とする検索エンジンである。ソースコード検索エンジンとして、例えば、nerdydata、meanpath等がある。ソースコード検索エンジンについては、キャッシュ量は中程度であるが、検索要求に係る文字列を含むソースコードを有するサイトを正確に特定できるという特徴を有する。
(2) Source Code Search Engine The source code search engine is a search engine that searches for source code such as CSS, HTML, Javascript (registered trademark) in a web site. As source code search engines, for example, nerdydata, meanpath, etc. are available. The source code search engine is characterized in that although the cache amount is medium, it is possible to accurately identify a site having source code including a character string related to a search request.

上記の特徴に鑑みて、検索制御部13は、HTML系特徴文字列を用いて、ソースコード検索エンジンによる検索を行うことを決定する。   In view of the above characteristics, the search control unit 13 determines that the search by the source code search engine is to be performed using the HTML characteristic character string.

(3)悪性サイト蓄積サイト
悪性サイト蓄積サイトとは、攻撃サイト等の悪性サイトの情報を蓄積し、検索を可能としているサイトであり、例えば、scumware.org、dfk.de等のサイトがある。悪性サイト蓄積サイトは、悪性サイトの情報が蓄積されているが、キャッシュ量は小さく、また、IFの自由度が小さい。
(3) Malignant site storage site A malignant site storage site is a site that stores information on malignant sites such as attack sites and enables search, for example, scumware. org, dfk. There is a site such as de. In the malignant site accumulation site, information on malignant sites is accumulated, but the amount of cache is small and the degree of freedom of IF is small.

悪性サイト蓄積サイトの検索方法(IF)は、IP検索、FQDN検索、パス部検索等に限られるため、検索制御部13は、例えば、特徴文字列(URL系でもよいし、HTML系でもよい)について、所定の検索手順を用いて悪性サイト蓄積サイトに対する検索を行うことを決定する。   Since the search method (IF) of the malignant site storage site is limited to IP search, FQDN search, path search and the like, the search control unit 13 may use, for example, a characteristic character string (a URL system or an HTML system). It is decided to perform a search for malignant site storage sites using a predetermined search procedure.

所定の検索手順は、例えば、FQDN部を有する特徴文字列から、当該FQDN部を取得し、whoisコマンドを用いて当該FQDN部に対応するIPアドレスを取得し、当該IPアドレスをキーとして悪性サイト蓄積サイトを検索することである。また、当該検索手順において、IP検索で得た検索結果から得られるFQDNを用いてFQDN検索あるいは「whoisによるIPアドレス取得−>IPアドレス検索」を行うこととしてもよい。   The predetermined search procedure, for example, acquires the FQDN part from the characteristic character string having the FQDN part, acquires the IP address corresponding to the FQDN part using the whois command, and stores the malignant site using the IP address as a key It is to search the site. In the search procedure, an FQDN search or "IP address acquisition by whois-> IP address search" may be performed using the FQDN obtained from the search result obtained by the IP search.

また、所定の検索手順として、FQDN部を有する特徴文字列から、当該FQDN部を取得し、先にFQDN検索を実施し、当該検索により得られたIPアドレスでIPアドレス検索を行う手順を用いてもよい。当該手順において、FQDN検索により得られた検索結果が、FQDNである場合、whoisでIPアドレスを得てからIPアドレス検索を行う。   Also, as a predetermined search procedure, the FQDN part is obtained from the characteristic character string having the FQDN part, the FQDN search is performed first, and the IP address search is performed using the IP address obtained by the search. It is also good. In the procedure, when the search result obtained by the FQDN search is the FQDN, the IP address is searched after obtaining the IP address by whois.

また、検索制御部13は、上記のFQDN検索を行う際に、部分FQDN検索(部分パス部検索)を行うことを決定してもよい。例えば、元のFQNDが「aaa.bbb.ccc.yahoo.co.jp」である場合に、部分FQDNとして「bbb.ccc.yahoo.co.jp」、「ccc.yahoo.co.jp」、「yahoo.co.jp」の全部又は一部を用いて検索を行うことを決定する。   Further, the search control unit 13 may decide to perform partial FQDN search (partial path search) when performing the above-mentioned FQDN search. For example, when the original FQND is “aaa.bbb.ccc.yahoo.co.jp”, “bbb.ccc.yahoo.co.jp”, “ccc.yahoo.co.jp”, “fcc. Decide to search using all or part of "yahoo.co.jp".

<ステップ103:検索実行>
検索制御部13は、各検索装置に対して決定した特徴文字列と検索手順を示す情報を検索実行部14に渡すことで検索実行部14に対して検索実行を指示する。検索手順としては、予め手順のパターンを定めておき、どのパターンの検索かを示す情報を検索実行部14に渡すこととしてもよいし、プログラムコードの形で検索手順を渡すこととしてもよい。
<Step 103: Search Execution>
The search control unit 13 instructs the search execution unit 14 to execute a search by passing the determined characteristic character string and information indicating the search procedure to each search device to the search execution unit 14. As a search procedure, a pattern of the procedure may be determined in advance, and information indicating which pattern is to be searched may be passed to the search execution unit 14 or a search procedure may be passed in the form of a program code.

また、特徴文字列/検索手順を検索実行部14に渡し、検索実行部14が検索手順を実行する制御に代えて、検索制御部13が検索手順の情報を持ち、検索制御部13が、検索手順に従って検索実行部14に特徴文字列と検索サイトを指示することで検索を実行させることとしてもよい。   Also, instead of giving control to the search execution unit 14 passing the characteristic character string / search procedure to the search execution unit 14, the search control unit 13 has information on the search procedure, and the search control unit 13 performs the search The search may be executed by specifying the characteristic character string and the search site to the search execution unit 14 according to the procedure.

ステップ103での検索実行により、例えば、検索装置毎(インターネット検索エンジン、ソースコード検索エンジン、悪性サイト蓄積サイト等)に、検索結果が検索結果格納部15に格納される。検索結果格納部15に格納される検索結果は、悪性URL候補として使用され得るURLのみであってもよいし、URLに加え、検索により得られるサイトの情報(要約、ソースコードの一部等)が含まれていてもよい。特徴文字列格納部12に複数の特徴文字列が格納されている場合、検索は、ステップ102で決定された制御内容に従って、それぞれの(全ての)特徴文字列について実行されることとしてもよいし、一部の特徴文字列について実行されることとしてもよい。   By the search execution in step 103, for example, the search result is stored in the search result storage unit 15 for each search device (Internet search engine, source code search engine, malignant site storage site, etc.). The search result stored in the search result storage unit 15 may be only a URL that can be used as a malignant URL candidate, or in addition to the URL, information of the site obtained by the search (abstract, part of source code, etc.) May be included. When a plurality of characteristic character strings are stored in the characteristic character string storage unit 12, the search may be executed for each (all) characteristic character strings according to the control content determined in step 102. , May be performed for some feature strings.

検索結果は、前述した手順に従った検索による結果であるので、例えば、インターネット検索エンジンによる検索結果については、ホワイトリストによるフィルタリング後の検索結果となっている。   Since the search result is the result of the search according to the above-described procedure, for example, the search result by the Internet search engine is the search result after filtering by the white list.

<ステップ104:悪性URL候補決定>
次に、URL候補決定部16が、検索結果格納部15に格納された検索結果の中から、悪性URL候補(シード)とするURLを決定する。ここでの決定については、例えば、得られたURLの数が所定の閾値以下であれば、全ての検索結果のURLを悪性URL候補として決定してよい。また、得られたURLの数に関わらず、全ての検索結果のURLを悪性URL候補として決定してもよい。
<Step 104: Malignant URL Candidate Determination>
Next, the URL candidate determination unit 16 determines a URL to be a malignant URL candidate (seed) from the search results stored in the search result storage unit 15. With regard to the determination here, for example, if the number of obtained URLs is equal to or less than a predetermined threshold value, URLs of all search results may be determined as malignant URL candidates. Further, regardless of the number of obtained URLs, URLs of all search results may be determined as malignant URL candidates.

また、得られたURLの数が所定の閾値よりも大きい場合、あるいは、得られたURLの数に関わらずに、URL候補決定部16は、複数の検索装置から得られたURLを悪性URL候補として決定することとしてよい。例えば、検索装置(検索エンジン、検索サイト等)として、検索装置A、検索装置B、検索装置Cの3つの検索装置がある場合において、ある特徴文字列に基づく検索を各検索装置で実施した結果、URL1は検索装置Aのみから得られ、URL2は、例えば検索装置Bと検索装置Cの2つから得られた場合において、URL1を悪性URL候補とせず、URL2を悪性URL候補とするように決定する。また、検索結果として得られたURL以外の情報も加味してスコアリングを行い、スコアを含めて出力することとしてもよい。もしくは、スコアに閾値を設けて、閾値以上のものを悪性URL候補として決定し、出力することとしてもよい。   In addition, if the number of obtained URLs is larger than a predetermined threshold, or regardless of the number of obtained URLs, the URL candidate determination unit 16 determines that URLs obtained from a plurality of search devices are malignant URL candidates. It may be determined as For example, when there are three search devices, search device A, search device B, and search device C as search devices (search engine, search site, etc.), a result of performing a search based on a certain characteristic character string by each search device , URL1 is obtained only from the search device A, and URL2 is determined not to set the URL1 as a malignant URL candidate but to set the URL2 as a malignant URL candidate, for example, when obtained from the search device B and the search device C. Do. In addition, scoring may be performed in consideration of information other than the URL obtained as the search result, and the score may be output. Alternatively, a score may be provided with a threshold, and one having a threshold or more may be determined as a malignant URL candidate and output.

(他検索条件抽出について)
図3のステップ201として示すように、前述したインターネット検索エンジン、ソースコード検索エンジン、悪性URL蓄積サイトのそれぞれに対する検索において、検索制御部13は、検索対象を、特定のIPアドレス、特定のFQDN、特定のVPS(仮想専用サーバのホスティングサービス)に絞ることを決定してもよい。特定のIPアドレス/特定のFQDN/特定のVPSに、悪性サイトの存在する可能性が高いことが発明者の過去の知見からわかっているため、この検索条件は効果的であると考えられる。
(About other search condition extraction)
As shown in step 201 of FIG. 3, in the search for each of the Internet search engine, the source code search engine, and the malignant URL storage site described above, the search control unit 13 selects a search target as a specific IP address, a specific FQDN, It may decide to focus on a specific VPS (hosting service of virtual dedicated server). This search condition is considered to be effective because it is known from the inventor's past findings that a malignant site is likely to exist for a specific IP address / specific FQDN / specific VPS.

また、上記特定のIPアドレス/特定のFQDN/特定のVPSについての検索を独立して実施することとしてもよい。   Also, the search for the specific IP address / specific FQDN / specific VPS may be performed independently.

例えば、特定のVPSに関し、特定のVPS事業者のセキュリティが弱く改ざんされる傾向があるため、特定のVPSのIPレンジから対応するFQDNをリストアップする。ここでは例えばrebtexを利用する。当該FQDN自体を攻撃URL候補(シード)として用いることができる。これは、多くの場合、トップサイトに攻撃サイトへの誘導改ざんコードが埋め込まれるためである。   For example, for a particular VPS, as the security of a particular VPS provider is weak and prone to tampering, list the corresponding FQDN from the IP range of the particular VPS. For example, rebtex is used here. The FQDN itself can be used as an attack URL candidate (seed). This is because the top site is often embedded with a falsification code for attacking sites.

(実施の形態の効果等)
以上、詳細に説明したように、本実施の形態では、図3のフロー図に示した「特徴文字列抽出」、「各装置用最適検索情報及び手順決定」、及び「URL候補決定」を組み合わせて実施することにより、悪性の確率が高い数多くのシードを得ることができる。また、「他検索条件抽出」を組み合わせることにより、さらに悪性確率の高いシードを得ることができる。本実施の形態の技術により、インターネット空間から、未知の悪性URLを効率的に発見できる。その結果、数多くの悪性URL候補を提供できる。
(Effects of the embodiment, etc.)
As described above in detail, in the present embodiment, the combination of “feature character string extraction”, “determination of optimum search information for each device and procedure”, and “determination of URL candidate” shown in the flow chart of FIG. By carrying out the process, it is possible to obtain many seeds with a high probability of malignancy. In addition, by combining “other search condition extraction”, it is possible to obtain a seed with a higher probability of malignancy. With the technology of the present embodiment, unknown malignant URLs can be efficiently discovered from the Internet space. As a result, many malignant URL candidates can be provided.

(実施の形態のまとめ)
本実施の形態により、悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置であって、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段とを備える悪性URL候補取得装置が提供される。
(Summary of the embodiment)
According to the present embodiment, a malignant URL candidate acquiring device for acquiring a malignant URL candidate that is a URL used to detect a malignant site, which is a character string used as a character string used in a known malignant site A characteristic character string storage unit that stores a string, a search unit that executes a search for a search device on the Internet by using the characteristic character string as a keyword, and a malignancy based on the search result obtained by the search unit There is provided a malignant URL candidate acquiring apparatus comprising: determining means for determining URL candidates.

前記検索手段は、前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、特定のサイト内で前記特徴文字列に基づく検索を行う、又は、URL内での前記特徴文字列に基づく検索を行うことができる。   The search means performs a search based on the characteristic character string in a specific site when using a search device provided with an internet search engine as the search device, or a search based on the characteristic character string in a URL It can be carried out.

前記検索手段は、前記検索装置としてソースコード検索エンジンを備える検索装置を用いる場合に、既知の悪性サイトのコンテンツに含まれる特徴文字列に基づく検索を行うこととしてもよい。   The search means may perform a search based on a characteristic character string included in the content of a known malignant site, when using a search device provided with a source code search engine as the search device.

前記検索手段は、前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行うこととしてもよい。   When the search unit uses a search device in which information on a malignant site is stored as the search device, the search unit acquires an IP address from the FQDN portion included in the characteristic character string and performs a search based on the IP address. Good.

前記検索手段は、前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、当該検索装置に対する検索で得られた結果からホワイトリストに含まれるURLを除去した結果を前記検索結果とすることとしてもよい。   When the search unit uses a search device including an Internet search engine as the search device, the search unit removes a URL included in a white list from the result obtained by the search for the search device as the search result. It is also good.

前記検索手段は、複数の検索装置を用いて前記特徴文字列に基づく検索を行い、前記決定手段は、前記複数の検索装置のうちの複数の検索装置から得られたURLを前記悪性URL候補として決定することとしてもよい。   The search means performs a search based on the characteristic character string using a plurality of search devices, and the determination means uses URLs obtained from a plurality of search devices of the plurality of search devices as the malignant URL candidate. It may be determined.

前記特徴文字列は、例えば、所定のアプリケーションを使用して作成された悪性サイトのコンテンツに含まれる文字列、当該悪性サイトのURLに含まれる文字列、攻撃先で攻撃コードを発動させるための文字列、又は、他サイトへの遷移を指示する文字列である。   The characteristic character string is, for example, a character string included in the content of the malignant site created using a predetermined application, a character string included in the URL of the malignant site, a character for activating the attack code at the attack destination It is a string or a string indicating transition to another site.

(第1項)
悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置であって、
既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、
前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段と
を備える悪性URL候補取得装置。
(第2項)
前記検索手段は、
前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、特定のサイト内で前記特徴文字列に基づく検索を行う、又は、URL内での前記特徴文字列に基づく検索を行う
第1項に記載の悪性URL候補取得装置。
(第3項)
前記検索手段は、
前記検索装置としてソースコード検索エンジンを備える検索装置を用いる場合に、既知の悪性サイトのコンテンツに含まれる特徴文字列に基づく検索を行う
第1項又は第2項に記載の悪性URL候補取得装置。
(第4項)
前記検索手段は、
前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行う
第1項ないし第3項のうちいずれか1項に記載の悪性URL候補取得装置。
(第5項)
前記検索手段は、
前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、当該検索装置に対する検索で得られた結果からホワイトリストに含まれるURLを除去した結果を前記検索結果とする
第1項ないし第4項のうちいずれか1項に記載の悪性URL候補取得装置。
(第6項)
前記検索手段は、複数の検索装置を用いて前記特徴文字列に基づく検索を行い、
前記決定手段は、前記複数の検索装置のうちの複数の検索装置から得られたURLを前記悪性URL候補として決定する
第1項ないし第5項のうちいずれか1項に記載の悪性URL候補取得装置。
(第7項)
前記特徴文字列は、所定のアプリケーションを使用して作成された悪性サイトのコンテンツに含まれる文字列、当該悪性サイトのURLに含まれる文字列、攻撃先で攻撃コードを発動させるための文字列、又は、他サイトへの遷移を指示する文字列である
第1項ないし第6項のうちいずれか1項に記載の悪性URL候補取得装置。
(第8項)
悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置が実行する悪性URL候補取得方法であって、
前記悪性URL候補取得装置は、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段を備え、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対して検索を実行する検索ステップと、
前記検索ステップにより得られた検索結果に基づき、悪性URL候補を決定する決定ステップと
を備える悪性URL候補取得方法。
(第9項)
コンピュータを、第1ないし7項のうちいずれか1項に記載の悪性URL候補取得装置における各手段として機能させるためのプログラム。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

(Section 1)
A malignant URL candidate acquisition device for acquiring a malignant URL candidate, which is a URL used to detect a malignant site,
Feature string storage means for storing a feature string that is a string used at a known malignant site;
Search means for executing a search for a search device on the Internet by using the characteristic character string as a keyword;
A determination unit that determines a malignant URL candidate based on a search result obtained by the search unit;
Malignant URL candidate acquisition device provided with
(Section 2)
The search means is
When using a search device provided with an internet search engine as the search device, a search based on the characteristic character string is performed in a specific site, or a search based on the characteristic character string in a URL is performed.
The malignant URL candidate acquisition device according to claim 1.
(Section 3)
The search means is
When using a search device provided with a source code search engine as the search device, the search is performed based on the characteristic character string included in the content of the known malignant site
The malignant URL candidate acquisition device according to the first or second aspect.
(Section 4)
The search means is
When using a search device in which information on a malignant site is stored as the search device, an IP address is acquired from the FQDN portion included in the characteristic character string, and a search is performed based on the IP address
The malignant URL candidate acquisition device according to any one of the items 1 to 3.
(Section 5)
The search means is
When using a search device provided with an internet search engine as the search device, the result obtained by removing the URL included in the white list from the result obtained by the search for the search device is used as the search result.
The malignant URL candidate acquiring apparatus according to any one of the items 1 to 4.
(Section 6)
The search means performs a search based on the characteristic character string using a plurality of search devices,
The determination means determines, as the malignant URL candidate, a URL obtained from a plurality of search devices among the plurality of search devices.
The malignant URL candidate acquiring apparatus according to any one of the items 1 to 5.
(Section 7)
The characteristic character string is a character string included in the content of a malignant site created using a predetermined application, a character string included in the URL of the malignant site, a character string for activating an attack code at an attack destination, Or, it is a character string that indicates the transition to another site
The malignant URL candidate acquiring apparatus according to any one of the items 1 to 6.
(Section 8)
A malignant URL candidate acquisition method executed by a malignant URL candidate acquisition device for acquiring a malignant URL candidate that is a URL used to detect a malignant site,
The malignant URL candidate acquisition device includes a characteristic character string storage unit that stores a characteristic character string that is a character string used at a known malignant site;
A search step of executing a search on a search device on the Internet by using the characteristic character string as a keyword;
A determination step of determining a malignant URL candidate based on the search result obtained by the search step;
Malignant URL candidate acquisition method comprising
(Section 9)
A program for causing a computer to function as each means in the malignant URL candidate acquisition device according to any one of items 1 to 7.
The present invention is not limited to the above embodiment, and various modifications and applications are possible within the scope of the claims.

10 悪性URL候補取得装置
20 検索装置
30 インターネット
11 特徴文字列取得部
12 特徴文字列格納部
13 検索制御部
14 検索実行部
15 検索結果格納部
16 URL候補決定部
10 Malignant URL Candidate Acquisition Device 20 Search Device 30 Internet 11 Characteristic Character String Acquisition Unit 12 Characteristic Character String Storage Unit 13 Search Control Unit 14 Search Execution Unit 15 Search Result Storage Unit 16 URL Candidate Determination Unit

Claims (8)

悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置であって、
既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、
前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段とを備え、
前記検索手段は、
前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行う
悪性URL候補取得装置。
A malignant URL candidate acquisition device for acquiring a malignant URL candidate, which is a URL used to detect a malignant site,
Feature string storage means for storing a feature string that is a string used at a known malignant site;
Search means for executing a search for a search device on the Internet by using the characteristic character string as a keyword;
A determination unit configured to determine a malignant URL candidate based on the search result obtained by the search unit;
The search means is
The malignant URL candidate acquisition device which acquires an IP address from the FQDN part included in the characteristic character string and performs a search based on the IP address when using a search device in which information on a malignant site is stored as the search device.
前記検索手段は、
前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、特定のサイト内で前記特徴文字列に基づく検索を行う、又は、URL内での前記特徴文字列に基づく検索を行う
請求項1に記載の悪性URL候補取得装置。
The search means is
When using a search device provided with an Internet search engine as the search device, a search based on the characteristic character string is performed in a specific site, or a search based on the characteristic character string in a URL is performed. Malignant URL candidate acquisition device described.
前記検索手段は、
前記検索装置としてソースコード検索エンジンを備える検索装置を用いる場合に、既知の悪性サイトのコンテンツに含まれる特徴文字列に基づく検索を行う
請求項1又は2に記載の悪性URL候補取得装置。
The search means is
The malignant URL candidate acquisition device according to claim 1 or 2, wherein when using a search device including a source code search engine as the search device, the search is performed based on a characteristic character string included in the content of a known malignant site.
前記検索手段は、
前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、当該検索装置に対する検索で得られた結果からホワイトリストに含まれるURLを除去した結果を前記検索結果とする
請求項1ないしのうちいずれか1項に記載の悪性URL候補取得装置。
The search means is
When using the search device comprising an Internet search engine as the retrieval device, of claims 1 and the search results the results obtained by removing the URL included in the whitelist from the results obtained in the search for the search device 3 The malignant URL candidate acquisition device according to any one of the above.
前記検索手段は、複数の検索装置を用いて前記特徴文字列に基づく検索を行い、
前記決定手段は、前記複数の検索装置のうちの複数の検索装置から得られたURLを前記悪性URL候補として決定する
請求項1ないしのうちいずれか1項に記載の悪性URL候補取得装置。
The search means performs a search based on the characteristic character string using a plurality of search devices,
The malignant URL candidate acquisition device according to any one of claims 1 to 4 , wherein the determination unit determines a URL obtained from a plurality of search devices among the plurality of search devices as the malignant URL candidate.
前記特徴文字列は、所定のアプリケーションを使用して作成された悪性サイトのコンテンツに含まれる文字列、当該悪性サイトのURLに含まれる文字列、攻撃先で攻撃コードを発動させるための文字列、又は、他サイトへの遷移を指示する文字列である
請求項1ないしのうちいずれか1項に記載の悪性URL候補取得装置。
The characteristic character string is a character string included in the content of a malignant site created using a predetermined application, a character string included in the URL of the malignant site, a character string for activating an attack code at an attack destination, The malignant URL candidate acquisition device according to any one of claims 1 to 5 , which is a character string instructing transition to another site.
悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置が実行する悪性URL候補取得方法であって、
前記悪性URL候補取得装置は、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段を備え、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対して検索を実行する検索ステップと、
前記検索ステップにより得られた検索結果に基づき、悪性URL候補を決定する決定ステップとを備え、
前記検索ステップにおいて、前記悪性URL候補取得装置は、
前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行う
悪性URL候補取得方法。
A malignant URL candidate acquisition method executed by a malignant URL candidate acquisition device for acquiring a malignant URL candidate that is a URL used to detect a malignant site,
The malignant URL candidate acquisition device includes a characteristic character string storage unit that stores a characteristic character string that is a character string used at a known malignant site;
A search step of executing a search on a search device on the Internet by using the characteristic character string as a keyword;
Determining a malignant URL candidate based on the search result obtained by the search step;
In the search step, the malignant URL candidate acquisition device
When using a search device in which information on a malignant site is stored as the search device, a method for acquiring a malignant URL candidate which acquires an IP address from an FQDN section included in the characteristic character string and performs a search based on the IP address .
コンピュータを、請求項1ないしのうちいずれか1項に記載の悪性URL候補取得装置における各手段として機能させるためのプログラム。 The program for functioning a computer as each means in the malignant URL candidate acquisition apparatus of any one of Claim 1 thru | or 6 .
JP2015048653A 2015-03-11 2015-03-11 Malignant URL candidate acquisition device, malignant URL candidate acquisition method, and program Active JP6478730B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015048653A JP6478730B2 (en) 2015-03-11 2015-03-11 Malignant URL candidate acquisition device, malignant URL candidate acquisition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015048653A JP6478730B2 (en) 2015-03-11 2015-03-11 Malignant URL candidate acquisition device, malignant URL candidate acquisition method, and program

Publications (2)

Publication Number Publication Date
JP2016170524A JP2016170524A (en) 2016-09-23
JP6478730B2 true JP6478730B2 (en) 2019-03-06

Family

ID=56983792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015048653A Active JP6478730B2 (en) 2015-03-11 2015-03-11 Malignant URL candidate acquisition device, malignant URL candidate acquisition method, and program

Country Status (1)

Country Link
JP (1) JP6478730B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11556819B2 (en) 2018-01-17 2023-01-17 Nippon Telegraph And Telephone Corporation Collection apparatus, collection method, and collection program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003023466A (en) * 2001-07-09 2003-01-24 Sanaru:Kk Internet service provider for preventing access to harmful site
JP2004046739A (en) * 2002-07-15 2004-02-12 Fujitsu Ltd Method and system for transmitting data, repeater, computer program and recording medium
JP2005208780A (en) * 2004-01-21 2005-08-04 Nec Corp Mail filtering system and url black list dynamic construction method to be used for the same
JP2006221294A (en) * 2005-02-09 2006-08-24 Nec Engineering Ltd Url search method and search device
US7945563B2 (en) * 2006-06-16 2011-05-17 Yahoo! Inc. Search early warning
KR20090047890A (en) * 2007-11-08 2009-05-13 한국전자통신연구원 The method, apparatus and system for managing malicious code spreading site using search engine
JP5651065B2 (en) * 2011-04-08 2015-01-07 Kddi株式会社 Application evaluation apparatus and program

Also Published As

Publication number Publication date
JP2016170524A (en) 2016-09-23

Similar Documents

Publication Publication Date Title
Hong et al. Phishing url detection with lexical features and blacklisted domains
US9043917B2 (en) Automatic signature generation for malicious PDF files
US9407658B1 (en) System and method for determining modified web pages
US9734332B2 (en) Behavior profiling for malware detection
Amrutkar et al. Detecting mobile malicious webpages in real time
Liu et al. A novel approach for detecting browser-based silent miner
US9300682B2 (en) Composite analysis of executable content across enterprise network
JP6557334B2 (en) Access classification device, access classification method, and access classification program
US20090064337A1 (en) Method and apparatus for preventing web page attacks
US10445501B2 (en) Detecting malicious scripts
WO2018076697A1 (en) Method and apparatus for detecting zombie feature
JP6687761B2 (en) Coupling device, coupling method and coupling program
JPWO2018066221A1 (en) Classification device, classification method, and classification program
Lamprakis et al. Unsupervised detection of APT C&C channels using web request graphs
Malviya et al. Development of web browser prototype with embedded classification capability for mitigating Cross-Site Scripting attacks
JP5752642B2 (en) Monitoring device and monitoring method
Le Jamtel Swimming in the Monero pools
CN103440454B (en) A kind of active honeypot detection method based on search engine keywords
JP6169497B2 (en) Connection destination information determination device, connection destination information determination method, and program
JP6823205B2 (en) Collection device, collection method and collection program
Nikolaev et al. Exploit kit website detection using http proxy logs
JP6478730B2 (en) Malignant URL candidate acquisition device, malignant URL candidate acquisition method, and program
Gonzalez et al. Measuring code reuse in Android apps
Le et al. Identification of potential malicious web pages
JPWO2018131200A1 (en) Analysis device, analysis method and analysis program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190205

R150 Certificate of patent or registration of utility model

Ref document number: 6478730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250