[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4591947B2 - Information filtering apparatus and method - Google Patents

Information filtering apparatus and method Download PDF

Info

Publication number
JP4591947B2
JP4591947B2 JP2004143250A JP2004143250A JP4591947B2 JP 4591947 B2 JP4591947 B2 JP 4591947B2 JP 2004143250 A JP2004143250 A JP 2004143250A JP 2004143250 A JP2004143250 A JP 2004143250A JP 4591947 B2 JP4591947 B2 JP 4591947B2
Authority
JP
Japan
Prior art keywords
search
word
search word
information filtering
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004143250A
Other languages
Japanese (ja)
Other versions
JP2005327006A (en
Inventor
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004143250A priority Critical patent/JP4591947B2/en
Publication of JP2005327006A publication Critical patent/JP2005327006A/en
Application granted granted Critical
Publication of JP4591947B2 publication Critical patent/JP4591947B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索を行う際に、例えばアダルト語など検索語として相応しくない単語での検索に対して、利用者に注意を促したり検索処理を中止するなどの処理を行う情報フィルタリング装置及び方法に関する。   The present invention relates to an information filtering apparatus and method for performing processing such as alerting a user or canceling search processing when searching for a word that is not suitable as a search term such as an adult word when performing information search. About.

従来より、未成年者にアダルト系Webサイトへのアクセスを禁止したり、業務に不適当なWebサイトへのアクセスを禁止するために、各利用者のコンピュータや、インターネットへの仲介装置において情報フィルタリングが行われている(非特許文献1参照)。   Conventionally, in order to prohibit minors from accessing adult websites or access websites that are inappropriate for business, information filtering is performed on each user's computer or Internet mediation device. (See Non-Patent Document 1).

このようなフィルタリング技術では、アクセスを禁止したいWebサイトのアドレス群をブラックリストとして蓄積しておき、利用者からブラックリストに記載されているアドレスにアクセスしようとすると、当該アクセスを禁止したり警告を発する。   In such a filtering technology, a group of website addresses to be prohibited from access is accumulated as a black list, and when a user tries to access an address on the black list, the access is prohibited or a warning is issued. To emit.

一方、インターネットにおけるWebサイトへのアクセスは、統計上、検索サイトを介して行われることが多いことが知られている。そこで、この検索サイトにおいて、アダルト語など検索語として相応しくない検索語が入力された場合、情報検索処理を中止する、あるいは処理の継続を行うか否かを利用者に確認する、あるいは入力された語が検索注意語である旨の注意を促すなどの情報フィルタリング処理が行われている。例えば、ポータルサイトとして知られているgoo(URL:http://www.goo.ne.jp/)では、アダルト語での検索を禁止するオプションを提供している。   On the other hand, it is known that access to a Web site on the Internet is often performed via a search site for statistical purposes. In this search site, if a search word that is not suitable as a search word is entered, such as an adult word, the user is asked whether or not to stop the information search process or continue the process. Information filtering processing, such as calling attention to the fact that a word is a search attention word, is performed. For example, goo (URL: http://www.goo.ne.jp/), which is known as a portal site, provides an option for prohibiting search by adult language.

このような情報フィルタリングでは、検索語として相応しくない単語を予め収集した辞書(検索注意語辞書)を用意しておき、入力された検索語がこの辞書に登録されている場合に情報フィルタリングを行っている。
安東一真,「Webフィルタリング・ソフト ネット・トラブルも防止,サイトのカテゴリ分けと管理しやすさの差に注意」,日経インターネットテクノロジー,日経BP社,2002年4月,第58号,p.48−58
In such information filtering, a dictionary (search attention word dictionary) in which words that are not suitable as search terms are collected in advance is prepared, and information filtering is performed when the input search terms are registered in this dictionary. Yes.
Kazuma Ando, “Prevent Web Filtering Software and Internet Troubles, Beware of Differences in Site Categorization and Manageability”, Nikkei Internet Technology, Nikkei Business Publications, April 2002, No. 58, p. 48-58

しかしながら、この従来の技術では以下のような問題点が生じていた。   However, this conventional technique has the following problems.

(1)検索語が分割して入力されると、検索注意語辞書に記載がないために情報フィルタリングが行われない。例えば、検索注意語辞書に「フィルタリング」という語が登録されていても、検索語として「フィ」「ルタリング」という2つの語に分割されて入力された場合、検索を制限することができない。   (1) When a search word is divided and input, information filtering is not performed because there is no description in the search attention word dictionary. For example, even if the word “filtering” is registered in the search attention word dictionary, the search cannot be restricted if the search word is divided into two words “Fi” and “Luttering”.

(2)情報フィルタリングすべき検索注意語が複合語であった場合、複合語の構成語を分割して入力されると、検索注意語辞書に記載がないために情報フィルタリングが行われない。例えば、検索注意語辞書に「情報フィルタリング」という語が登録されていても、検索語として「情報」「フィルタリング」という2つの語に分割されて入力された場合、検索を制限することができない。   (2) If the search attention word to be information-filtered is a compound word, when the constituent words of the compound word are divided and input, information filtering is not performed because there is no description in the search attention word dictionary. For example, even if the word “information filtering” is registered in the search attention word dictionary, if the search word is divided into two words “information” and “filtering”, the search cannot be restricted.

本発明の目的は、上記の問題点を解決した、検索語の分割入力にも対応可能な情報フィルタリング装置及び方法を提供することにある。   An object of the present invention is to provide an information filtering apparatus and method that can cope with divided input of search terms, which solves the above-described problems.

上記目的を達成するために、本発明は、入力された検索語が、フィルタリング対象の検索語を予め蓄積した検索注意語辞書に登録されているか否かを検索し、登録されている場合にはフィルタリング対象である旨の結果を出力する情報フィルタリング判定手段を備えた情報フィルタリング装置において、前記情報フィルタリング判定手段は、入力された検索語を記憶する検索語記憶手段と、入力されたn個の検索語からi個(i=2〜n)の検索語からなる検索語列を全ての順列組み合わせについて作成する検索語列作成手段と、検索語列作成手段で作成された各検索語列に含まれる検索語を順序を考慮して接続する検索語接続手段と、検索語接続手段で接続された検索語を前記検索語記憶手段に追加する検索語追加手段と、検索語記憶手段に記憶されている検索語が検索注意語辞書に登録されているか否かを検索する検索注意語検索手段とを備え、前記検索語接続手段は、検索語を単純に接続した結果を接続結果とするとともに、さらに第1の検索語の後ろに第2の検索語を接続する際に、第1の検索語の語尾k文字と第2の検索語の語頭k文字に重複がある場合には、当該重複を排除して第1の検索語と第2の検索語を接続した結果も接続結果とすることを最も主要な特徴とする。 In order to achieve the above object, the present invention searches whether or not an input search term is registered in a search attention word dictionary in which search terms to be filtered are stored in advance. In an information filtering apparatus provided with an information filtering determination unit that outputs a result indicating filtering target, the information filtering determination unit includes a search word storage unit that stores an input search word, and n input searches A search word string creating means for creating a search word string consisting of i search words (i = 2 to n) from all words for all permutation combinations, and each search word string created by the search word string creating means Search term connecting means for connecting the search terms in consideration of the order, search term adding means for adding the search terms connected by the search term connecting means to the search term storage means, and search term storage means And a search attention word search means search word stored searches whether or not it is registered in the search note dictionary, the search word connecting means, the connection result a result of simply connecting a search term In addition, when the second search word is connected after the first search word, if there is an overlap between the k character at the end of the first search word and the k character at the beginning of the second search word , The main feature is that the result of connecting the first search word and the second search word by eliminating duplication is also the connection result .

本発明によれば、入力された検索語の全ての順列組み合わせについて検索語が順序を考慮して接続され、この接続された語も検索注意語辞書を用いた検索の対象となるので、検索注意語辞書に登録されている検索注意語を分割した語が検索語として入力された場合であっても、より正確な情報フィルタリングを行うことが可能となる。   According to the present invention, the search terms are connected in consideration of the order for all permutation combinations of the input search terms, and the connected terms are also subjected to the search using the search attention word dictionary. Even when a word obtained by dividing the search attention word registered in the word dictionary is input as a search word, more accurate information filtering can be performed.

以上説明したように本発明によれば、以下の効果が得られる。   As described above, according to the present invention, the following effects can be obtained.

(1)検索語が分割して入力されても、分割入力された検索語を接続して新たな検索語とし、検索注意語辞書を調べるので、入力に検索注意語が含まれるとして正しく情報フィルタリングが行われる。   (1) Even if a search word is divided and input, the divided search words are connected to form a new search word, and the search attention word dictionary is examined. Therefore, information filtering is correctly performed on the assumption that the search attention word is included in the input. Is done.

(2)情報フィルタリングすべき検索注意語が複合語であり、複合語の構成語を分割して入力された場合でも、(1)と同様に正しく情報フィルタリングが行われる。   (2) Even when the search attention word to be information-filtered is a compound word, and the constituent words of the compound word are divided and input, information filtering is correctly performed as in (1).

本発明の一実施の形態に係る情報フィルタリング装置について図面を参照して説明する。図1は本実施の形態に係る情報フィルタリング装置の原理構成図である。   An information filtering apparatus according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a principle configuration diagram of an information filtering apparatus according to the present embodiment.

この情報フィルタリング装置1は、利用者から検索語が入力されると、この検索語がフィルタリングの対象であるか否かを判定結果として返却する装置であり、コンピュータにプログラムをインストールすることにより構成される。なお、利用者には人間だけでなく他の装置やプログラムも含まれるものとする。   The information filtering device 1 is a device that, when a search word is input from a user, returns as a determination result whether or not the search word is a filtering target, and is configured by installing a program in a computer. The The user includes not only humans but also other devices and programs.

図1に示すように、情報フィルタリング装置1は、利用者からの入力を受け付ける検索語入力部2と、入力された検索語が情報フィルタリング対象であるか否かを、情報フィルタリング対象の語句が予め登録された検索注意語辞書5を参照して判定する情報フィルタリング判定部3と、情報フィルタリングの判定結果を利用者に返却する情報フィルタリング結果返却部4とを備えている。   As shown in FIG. 1, the information filtering device 1 includes a search word input unit 2 that receives input from a user, and whether or not the input search word is an information filtering target. An information filtering determination unit 3 that determines with reference to the registered search attention word dictionary 5 and an information filtering result return unit 4 that returns a determination result of information filtering to the user are provided.

情報フィルタリング判定部3の詳細について図2を参照して説明する。図2は情報フィルタリング判定部の原理構成図である。   Details of the information filtering determination unit 3 will be described with reference to FIG. FIG. 2 is a principle configuration diagram of the information filtering determination unit.

図2に示すように、情報フィルタリング判定部3は、複数の検索語が入力された際にそれらを組み合わせた検索語列を作る検索語列作成部31と、検索語列作成部31で作られた検索語列に含まれる各検索語同士を接続する検索語接続部32と、検索語接続部32で接続された語を新たな検索語として検索語リスト36に追加する検索語追加部33と、検索語リスト36に登録された語をキーとして検索注意語辞書5を検索する検索注意語辞書検索部34と、検索語列の作成を統括する組み合わせ制御部35と、検索語を蓄積する記憶手段である検索語リスト36とを備えている。   As shown in FIG. 2, the information filtering determination unit 3 is created by a search word string creation unit 31 that creates a search word string that combines them when a plurality of search words are input, and a search word string creation unit 31. A search word connection unit 32 that connects search terms included in the search word string, and a search word addition unit 33 that adds the words connected by the search word connection unit 32 to the search word list 36 as new search terms, The search attention word dictionary search section 34 that searches the search attention word dictionary 5 using the words registered in the search word list 36 as a key, the combination control section 35 that controls the creation of the search word string, and the memory that stores the search words And a search word list 36 as means.

検索語接続部32の詳細について図3を参照して説明する。図3は検索語接続部の原理構成図である。   Details of the search word connection unit 32 will be described with reference to FIG. FIG. 3 is a principle configuration diagram of the search word connection unit.

図3に示すように、検索語接続部32は、2つの検索語を接続する際に、先行する検索語の語尾k文字と、後続する検索語の語頭k文字とを比較する文字列比較部321と、文字列比較部321での比較の結果、k文字が同じ文字列である場合、すなわち、先行する検索語の語尾と後続する検索語の語頭に重複がある場合、当該重複を排除して検索語を接続する検索文字列接続部322とを備えている。   As shown in FIG. 3, when connecting two search terms, the search term connecting unit 32 compares a character k suffix of the preceding search term with a prefix k character of the subsequent search term. If the k character is the same character string as a result of the comparison in 321 and the character string comparison unit 321, that is, if there is an overlap between the ending of the preceding search word and the beginning of the subsequent search word, the duplication is eliminated. And a search character string connection unit 322 for connecting search words.

次に、本発明に係る情報フィルタリング装置の動作について図4〜図6のフローチャートを参照して説明する。まず、情報フィルタリング装置の概略動作について図4を参照して説明する。   Next, the operation of the information filtering apparatus according to the present invention will be described with reference to the flowcharts of FIGS. First, the schematic operation of the information filtering apparatus will be described with reference to FIG.

情報フィルタリング装置1に検索語が入力されると、検索語入力部2は、当該検索語を受け取り、情報フィルタリング判定部3に送る(ステップS1)。情報フィルタリング判定部3は、情報フィルタリング判定処理(後に詳述する)を行い、その判定結果を情報フィルタリング結果返却部4に送る(ステップS2)。情報フィルタリング結果返却部4は、情報フィルタリング判定処理の結果を利用者に返却する(ステップS3)。ここで、利用者に返却される結果は、入力された検索語が「フィルタリング対象である」か又は「フィルタリング対象ではない(非対象である)」の何れか一方である。   When a search word is input to the information filtering device 1, the search word input unit 2 receives the search word and sends it to the information filtering determination unit 3 (step S1). The information filtering determination unit 3 performs an information filtering determination process (described in detail later), and sends the determination result to the information filtering result return unit 4 (step S2). The information filtering result return unit 4 returns the result of the information filtering determination process to the user (step S3). Here, the result returned to the user is either the input search term “filtering target” or “not filtering target (non-target)”.

次に、前記ステップS2の情報フィルタリング判定処理について図5のフローチャートを参照して説明する。   Next, the information filtering determination process in step S2 will be described with reference to the flowchart of FIG.

情報フィルタリング判定部3の組み合わせ制御部35は、入力された検索語を検索語リスト36に登録し、その語数を変数nとして設定する(ステップS2−1)。次いで、組み合わせ制御部35は、前記入力検索語数nが複数であるか(1よりも大きいか否か)で処理を分ける。入力検索語数nが複数の場合には、処理をステップS2−3に移し、入力検索語数nが単数の場合(変数nが1のとき)にはステップS2−9に移す(ステップS2−2)。   The combination control unit 35 of the information filtering determination unit 3 registers the input search word in the search word list 36, and sets the number of words as a variable n (step S2-1). Next, the combination control unit 35 divides the processing depending on whether the number of input search words n is plural (whether it is larger than 1). If the number of input search words n is plural, the process proceeds to step S2-3. If the number of input search words n is singular (when the variable n is 1), the process proceeds to step S2-9 (step S2-2). .

ステップS2−3において、組み合わせ制御部35は、変数iに2を設定し、入力検索語と共に、変数nの値、変数iの値を検索語列作成部31に送る(ステップS2−3)。次に、検索語列作成部31は、入力されたn個の検索語からi個を抜き出す順列(順番を考慮した組み合わせ)を全て作成し、検索語接続部32に送る(ステップS2−4)。例えば、検索入力語が{A,B,C}の3つであり、変数iが2の場合を考える。この場合、検索語列作成部31は、{{A,B},{B,A},{A,C},{C,A},{B,C},{C,B}}という6つの検索語列を作成する。   In step S2-3, the combination control unit 35 sets 2 to the variable i, and sends the value of the variable n and the value of the variable i together with the input search word to the search word string creation unit 31 (step S2-3). Next, the search word string creation unit 31 creates all permutations (combinations that take into account the order) that extract i from the input n search words, and sends them to the search word connection unit 32 (step S2-4). . For example, consider the case where there are three search input words {A, B, C} and the variable i is 2. In this case, the search word string creation unit 31 uses {{A, B}, {B, A}, {A, C}, {C, A}, {B, C}, {C, B}}. Create one search term string.

次に、検索語接続部32は、検索語列作成部31で作成された検索語列に含まれる各検索語を順番を考慮して接続し、結果を検索語追加部33に送る(ステップS2−5)。例えば、上述の例では、{{A,B},{B,A},{A,C},{C,A},{B,C},{C,B}}という6つの検索語列に含まれる検索語をそれぞれ接続し、{AB,BA,AC,CA,BC,CB}を検索語追加部33に送る。なお、検索語接続部32の動作の詳細については後述する。   Next, the search term connection unit 32 connects the search terms included in the search term sequence created by the search term sequence creation unit 31 in consideration of the order, and sends the result to the search term addition unit 33 (step S2). -5). For example, in the above-described example, six search terms {{A, B}, {B, A}, {A, C}, {C, A}, {B, C}, {C, B}}. Are connected to each other, and {AB, BA, AC, CA, BC, CB} is sent to the search word adding unit 33. Details of the operation of the search word connection unit 32 will be described later.

検索語追加部33では、検索語接続部32で新たに得られた語を検索語リスト36に追加し、組み合わせ制御部35に制御を移す(ステップS2−6)。   The search word adding unit 33 adds a word newly obtained by the search word connecting unit 32 to the search word list 36, and transfers control to the combination control unit 35 (step S2-6).

組み合わせ制御部35は、入力検索語の語数nに対して変数iを2〜nまで変化させて、上記の順列作成処理(ステップS2−4)・検索語接続処理(ステップS2−5)・検索語追加処理(ステップS2−6)を繰り返し実施する。すなわち、変数iが語数nと等しくなったかを判定し、語数n未満の場合には変数iを1だけ増加させて上記ステップS2−4〜S2−6を繰り返す(ステップS2−7,S2−8)。このような処理により、入力された検索語と、各入力検索語の全ての個数について全ての順列組み合わせで接続されたものが、検索語リスト36に記憶される。例えば、上述の例では、{A,B,C}という3つの検索入力語に対して、検索語リスト36は{A,B,C,AB,BA,AC,CA,BC,CB,ABC,ACB,BAC,BCA,CAB,CBA}となる。   The combination control unit 35 changes the variable i from 2 to n with respect to the number of words n of the input search word, and performs the permutation creation process (step S2-4), the search word connection process (step S2-5), and the search. The word addition process (step S2-6) is repeated. That is, it is determined whether the variable i is equal to the word number n. If the variable i is less than the word number n, the variable i is increased by 1 and the above steps S2-4 to S2-6 are repeated (steps S2-7, S2-8). ). As a result of such processing, the input search terms and those connected in all permutation combinations with respect to the total number of input search terms are stored in the search term list 36. For example, in the above example, for three search input words {A, B, C}, the search word list 36 is {A, B, C, AB, BA, AC, CA, BC, CB, ABC, ACB, BAC, BCA, CAB, CBA}.

次に、検索注意語辞書検索部34は、検索語リスト36の各語をキーとして検索注意語辞書5を検索し、検索結果を組み合わせ制御部35に送る(ステップS2−9)。   Next, the search attention word dictionary search unit 34 searches the search attention word dictionary 5 using each word in the search word list 36 as a key, and sends the search result to the combination control unit 35 (step S2-9).

組み合わせ制御部35は、検索注意語辞書5を検索した結果、検索語リスト36記載の語に一致する語が検索された場合には、情報フィルタリング判定結果を「フィルタリング対象」とし(ステップS2−10,S2−11)、検索語リスト36記載の語に一致する語が検索されなかった場合には「フィルタリング非対象」とする(ステップS2−10,S2−12)。   As a result of searching the search attention word dictionary 5 as a result of searching the search attention word dictionary 5, the combination control unit 35 sets the information filtering determination result as “filtering target” (step S2-10). , S2-11), if a word matching the word in the search word list 36 is not searched, it is set as “non-filtering target” (steps S2-10, S2-12).

次に、前記ステップS2−5の検索語接続処理について図6のフローチャートを参照して説明する。   Next, the search word connection process of step S2-5 will be described with reference to the flowchart of FIG.

検索語接続部32は、すべての検索語の順列について順番に処理を進め(ステップS2−5−1)、また個々の単語の順列に存在する2語間の接続について順番に処理を進める(ステップS2−5−2)。   The search word connection unit 32 advances the process in order for all search word permutations (step S2-5-1), and advances the process in order for connections between two words existing in the permutation of individual words (step S2-5-1). S2-5-2).

まず、検索語接続部32は、着目している2語を接続する(ステップS2−5−3)。ここで、2語を接続する方法は、両者を単純に接続する方法の他、先行する語の末尾g文字ともう1つの語の先頭g文字が同じ場合には、その重複を排除して接続する方法などが考えられるが、本願発明では接続方法については特に限定しない。また、複数の接続方法を併用することについても限定しない。本実施の形態では、前記2つの方法を併用するものとした。   First, the search word connection unit 32 connects two words of interest (step S2-5-3). Here, the method of connecting two words is not only the method of simply connecting them, but if the last g character of the preceding word is the same as the first g character of the other word, the duplication is eliminated and the connection is made. However, the connection method is not particularly limited in the present invention. Moreover, it does not limit about using together the several connection method. In the present embodiment, the two methods are used in combination.

検索語接続部32は、全ての2語間について上記接続処理を行い(ステップS2−5−4,S2−5−5)、且つ、全ての検索語列について上記接続処理を行う(ステップS2−5−6,S2−5−7)。   The search word connection unit 32 performs the connection process between all two words (steps S2-5-4, S2-5-5), and performs the connection process for all search word strings (step S2- 5-6, S2-5-7).

[具体例]
公序良俗に反する恐れがあるので、以下の例では通常はフィルタリングすることのない通常の語を用いて説明を行う。具体的には、「プロモーション」「研究所長」が検索注意語として検索注意語辞書5に記載されており、フィルタリングされる語であるとして説明する。
[Concrete example]
Since there is a risk of violating public order and morals, the following examples are described using ordinary words that are not normally filtered. Specifically, “promotion” and “laboratory director” are described in the search attention word dictionary 5 as search attention words and are described as words to be filtered.

従来は、検索語として「プロモーション」や「研究所長」が入力された場合には、各語は検索注意語辞書5に記載されていることから当該検索語をフィルタリングしていた。しかし、これらの語が分割して入力された場合(例えば「プロモ」と「モーション」や、「プロ」と「モーション」、あるいは「研究」と「所長」や、「研究所」と「所長」)、それぞれの語は検索注意語辞書5に記載がないことから、フィルタリングされることなく、検索処理が行われてしまう。   Conventionally, when “promotion” or “institutional director” is input as a search word, each word is described in the search attention word dictionary 5 and thus the search word is filtered. However, if these words are entered separately (for example, “Promo” and “Motion”, “Pro” and “Motion”, “Research” and “Director”, “Research” and “Director”) ) Since each word is not described in the search attention word dictionary 5, the search process is performed without filtering.

本発明では、以下に示すように分割して検索語が入力された場合でも入力された語を接続することにより、検索注意語辞書5に記載された語を復元してフィルタリングすることが可能となる。以下、前述した図4〜図6のフローチャートに沿って具体例を説明する。   In the present invention, it is possible to restore and filter the words described in the search attention word dictionary 5 by connecting the input words even when the search words are divided and input as shown below. Become. Hereinafter, specific examples will be described with reference to the flowcharts of FIGS.

まず、検索語入力部2に「プロモ」と「モーション」が検索語として入力されると、これらは情報フィルタリング判定部3に送られる(ステップS1)。組み合わせ制御部35は、入力された検索語「プロモ」と「モーション」を検索語リスト36に登録し、その検索語数2を変数nに設定する(ステップS2−1)。n=2であるので、ステップS2−3に進み、i=2とする(ステップ2−3)。検索語列作成部31は、入力された2個の検索語から2個を抜き出す順列(順番を考慮した組み合わせ)として「プロモ」「モーション」と「モーション」「プロモ」の2つを作成し、検索語接続部32に送る(ステップS2−4)。検索語接続部32では検索語接続処理を行い、結果を検索語追加部33に送る(ステップS2−5)。   First, when “promo” and “motion” are input as search terms to the search term input unit 2, these are sent to the information filtering determination unit 3 (step S1). The combination control unit 35 registers the input search words “promo” and “motion” in the search word list 36, and sets the number of search words 2 to a variable n (step S2-1). Since n = 2, the process proceeds to step S2-3 and i = 2 is set (step 2-3). The search word string creation unit 31 creates two pieces of “promo”, “motion”, and “motion” and “promo” as permutations (combination considering the order) that extract two from the two input search words, The search term connection unit 32 is sent (step S2-4). The search word connection unit 32 performs a search word connection process and sends the result to the search word addition unit 33 (step S2-5).

検索語接続処理において、まず「プロモ」「モーション」について接続を行う。単純な接続を行った結果として「プロモモーション」が得られる。また、両者の同一文字列の重複を排除する接続を行った結果として「プロモーション」(「プロモ」の最終文字「モ」と「モーション」の先頭文字「モ」が同一ゆえ重複を排除)が得られる(ステップS2−5−3)。同様にして、「モーション」「プロモ」についての接続を行う。単純な接続を行った結果として「モーションプロモ」が得られる。また、両者の同一文字列の重複を排除する接続を行った結果としても、ここでは重複がないので単純接続と同じ結果である「モーションプロモ」が得られる(ステップS2−5−3)。   In the search word connection process, first, “promo” and “motion” are connected. "Promo motion" is obtained as a result of simple connection. In addition, as a result of the connection that eliminates duplication of the same character string of both, “promotion” (the duplication is eliminated because the last character “mo” of “promo” and the first character “mo” of “motion” are the same) is obtained. (Step S2-5-3). Similarly, connection for “motion” and “promo” is performed. As a result of simple connection, “motion promo” is obtained. Also, as a result of performing the connection that eliminates the duplication of the same character strings of both, since there is no duplication here, “motion promo” that is the same result as the simple connection is obtained (step S2-5-3).

検索語追加部33は、検索語接続処理で新たに得られた語「プロモモーション」、「プロモーション」、「モーションプロモ」を検索語リスト36に追加する(ステップS2−6)。検索注意語辞書検索部34は、検索語リスト36の語「プロモ」,「モーション」(この2つは入力された検索語),「プロモモーション」,「プロモーション」,「モーションプロモ」(この3つは検索語接続処理で新たに得られた語)の合計5つの語それぞれをキーとして検索注意語辞書5を検索する(ステップS2−9)。検索注意語辞書5には「プロモーション」が登録されているので、検索結果としては「フィルタリング対象」とする(ステップS2−11)。情報フィルタリング結果返却部4では、検索語の組み合わせが検索注意語辞書5に記載されていたことから、情報フィルタリング判定処理の結果としてフィルタリング対象である旨を返却する(ステップS3)。   The search word adding unit 33 adds the words “promo motion”, “promotion”, and “motion promo” newly obtained by the search word connection process to the search word list 36 (step S2-6). The search attention word dictionary search unit 34 includes words “promo”, “motion” (the two are input search words), “promo motion”, “promotion”, “motion promo” (this 3) The search attention word dictionary 5 is searched by using each of the five words in total as a key (a word newly obtained by the search word connection process) (step S2-9). Since “promotion” is registered in the search attention word dictionary 5, the search result is “filtering target” (step S2-11). The information filtering result return unit 4 returns the fact that it is a filtering target as a result of the information filtering determination process because the combination of search words is described in the search attention word dictionary 5 (step S3).

以上詳述したように、本発明に係る情報フィルタリング装置によれば、入力された検索語の全ての順列組み合わせについて検索語が順序を考慮して接続され、この接続された語も検索注意語辞書5を用いた検索の対象となるので、検索注意語辞書5に登録されている検索注意語を分割した語が検索語として入力された場合であっても、より正確な情報フィルタリングを行うことが可能となる。   As described above in detail, according to the information filtering apparatus of the present invention, search terms are connected in consideration of the order for all permutation combinations of the input search terms, and the connected words are also searched attention word dictionary. Therefore, even when a word obtained by dividing a search attention word registered in the search attention word dictionary 5 is input as a search word, more accurate information filtering can be performed. It becomes possible.

以上、本発明の実施形態について詳述したが、上記実施の形態は例示的なものであり、本発明はこれに限定されるものではない。本発明の範囲は特許請求の範囲に示されており、この特許請求の範囲の意味に入る全ての変形例は本発明に含まれるものである。   As mentioned above, although embodiment of this invention was explained in full detail, the said embodiment is an illustration and this invention is not limited to this. The scope of the invention is set forth in the appended claims, and all modifications that come within the meaning of the claims are intended to be embraced by the invention.

例えば、上記実施の形態では、検索語接続部では単純な接続と重複を排除した接続の双方を行うようにしていたが、何れか一方のみであっても本発明を実施できる。   For example, in the above-described embodiment, the search word connection unit performs both simple connection and connection that eliminates duplication. However, the present invention can be implemented even with only one of them.

また、上記実施の形態では、図1に示すように、検索注意語辞書5を情報フィルタリング装置1とは別に設けたが情報フィルタリング装置1に内蔵するようにしてもよい。   In the above embodiment, as shown in FIG. 1, the search attention word dictionary 5 is provided separately from the information filtering device 1, but may be built in the information filtering device 1.

情報フィルタリング装置の構成図Configuration diagram of information filtering device 情報フィルタリング判定部の構成図Configuration diagram of information filtering judgment unit 検索語接続部の構成図Configuration diagram of search term connection part 情報フィルタリング装置の動作概略を説明するフローチャートFlowchart explaining operation outline of information filtering apparatus 情報フィルタリング判定処理を説明するフローチャートFlowchart explaining information filtering determination process 検索語接続処理を説明するフローチャートFlowchart explaining search word connection processing

符号の説明Explanation of symbols

1…情報フィルタリング装置、2…検索語入力部、3…情報フィルタリング判定部、31…検索語列作成部、32…検索語接続部、321…文字列比較部、322…検索文字列接続部、33…検索語追加部、34…検索注意語辞書検索部、35…組み合わせ制御部、36…検索語リスト、4…情報フィルタリング結果返却部、5…検索注意語辞書。   DESCRIPTION OF SYMBOLS 1 ... Information filtering apparatus, 2 ... Search term input part, 3 ... Information filtering determination part, 31 ... Search word sequence creation part, 32 ... Search word connection part, 321 ... Character string comparison part, 322 ... Search character string connection part, 33 ... Search word addition unit, 34 ... Search attention word dictionary search unit, 35 ... Combination control unit, 36 ... Search word list, 4 ... Information filtering result return unit, 5 ... Search attention word dictionary.

Claims (2)

入力された検索語が、フィルタリング対象の検索語を予め蓄積した検索注意語辞書に登録されているか否かを検索し、登録されている場合にはフィルタリング対象である旨の結果を出力する情報フィルタリング判定手段を備えた情報フィルタリング装置において、
前記情報フィルタリング判定手段は、
入力された検索語を記憶する検索語記憶手段と、
入力されたn個の検索語からi個(i=2〜n)の検索語からなる検索語列を全ての順列組み合わせについて作成する検索語列作成手段と、
検索語列作成手段で作成された各検索語列に含まれる検索語を順序を考慮して接続する検索語接続手段と、
検索語接続手段で接続された検索語を前記検索語記憶手段に追加する検索語追加手段と、
検索語記憶手段に記憶されている検索語が検索注意語辞書に登録されているか否かを検索する検索注意語検索手段とを備え、
前記検索語接続手段は、検索語を単純に接続した結果を接続結果とするとともに、さらに第1の検索語の後ろに第2の検索語を接続する際に、第1の検索語の語尾k文字と第2の検索語の語頭k文字に重複がある場合には、当該重複を排除して第1の検索語と第2の検索語を接続した結果も接続結果とする
ことを特徴とする情報フィルタリング装置。
Information filtering that searches whether or not the input search word is registered in the search attention word dictionary in which the search word to be filtered is stored in advance, and if it is registered, information filtering that outputs the result of filtering In the information filtering device provided with the determination means,
The information filtering determination means includes
Search word storage means for storing the input search word;
A search word string creating means for creating a search word string consisting of i (i = 2 to n) search words from all the n search words inputted for all permutation combinations;
Search term connection means for connecting the search terms included in each search term string created by the search term string creation means in consideration of the order;
Search term adding means for adding the search term connected by the search term connecting means to the search term storage means;
Search attention word search means for searching whether or not the search word stored in the search word storage means is registered in the search attention word dictionary,
The search word connecting means uses a result obtained by simply connecting the search words as a connection result, and further adds a ending k of the first search word when connecting the second search word behind the first search word. When there is an overlap between the character and the first k characters of the second search word, the result of connecting the first search word and the second search word by eliminating the overlap is also the connection result. Information filtering device.
入力された検索語が、フィルタリング対象の検索語を予め蓄積した検索注意語辞書に登録されているか否かを検索し、登録されている場合にはフィルタリング対象である旨の結果を出力する情報フィルタリング判定手段を備えた情報フィルタリング装置における情報フィルリング方法であって、
前記情報フィルタリング判定手段が、
入力された検索語記憶手段に検索語を記憶する検索語記憶ステップと、
入力されたn個の検索語からi個(i=2〜n)の検索語からなる検索語列を全ての順列組み合わせについて作成する検索語列作成ステップと、
作成した各検索語列に含まれる検索語を順序を考慮して接続する検索語接続ステップと、
接続した検索語を前記検索語記憶手段に追加する検索語追加ステップと、
検索語記憶手段に記憶されている検索語が検索注意語辞書に登録されているか否かを検索する検索ステップとを備え、
前記検索語接続ステップでは、検索語を単純に接続した結果を接続結果とするとともに、さらに第1の検索語の後ろに第2の検索語を接続する際に、第1の検索語の語尾k文字と第2の検索語の語頭k文字に重複がある場合には、当該重複を排除して第1の検索語と第2の検索語を接続した結果も接続結果とする
ことを特徴とする情報フィルタリング方法。
Information filtering that searches whether or not the input search word is registered in the search attention word dictionary in which the search word to be filtered is stored in advance, and if it is registered, information filtering that outputs the result of filtering An information filtering method in an information filtering device provided with a determination means,
The information filtering determination means is
A search word storage step for storing a search word in the input search word storage means;
A search word string creation step for creating a search word string consisting of i (i = 2 to n) search words from all n input search words for all permutation combinations;
A search term connection step for connecting the search terms included in each created search term string in consideration of the order,
A search term adding step of adding a connected search term to the search term storage means;
A search step for searching whether or not the search word stored in the search word storage means is registered in the search attention word dictionary,
In the search word connection step, the result of simply connecting the search words is used as a connection result, and when the second search word is connected after the first search word, the ending k of the first search word When there is an overlap between the character and the first k characters of the second search word, the result of connecting the first search word and the second search word by eliminating the overlap is also the connection result. Information filtering method.
JP2004143250A 2004-05-13 2004-05-13 Information filtering apparatus and method Expired - Fee Related JP4591947B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004143250A JP4591947B2 (en) 2004-05-13 2004-05-13 Information filtering apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004143250A JP4591947B2 (en) 2004-05-13 2004-05-13 Information filtering apparatus and method

Publications (2)

Publication Number Publication Date
JP2005327006A JP2005327006A (en) 2005-11-24
JP4591947B2 true JP4591947B2 (en) 2010-12-01

Family

ID=35473330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004143250A Expired - Fee Related JP4591947B2 (en) 2004-05-13 2004-05-13 Information filtering apparatus and method

Country Status (1)

Country Link
JP (1) JP4591947B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015589A (en) * 2007-07-04 2009-01-22 Nomura Research Institute Ltd Related document presentation system and program
JP5592679B2 (en) * 2010-03-17 2014-09-17 任天堂株式会社 INPUT PROGRAM, INPUT DEVICE, SYSTEM, AND INPUT METHOD

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057156A (en) * 1998-08-07 2000-02-25 Nippon Telegr & Teleph Corp <Ntt> Information retrieval system and recording medium recording information retrieving program
JP2001337973A (en) * 2000-05-25 2001-12-07 Fujitsu Ltd Search system maintenance method and search system
JP2002351908A (en) * 2001-05-15 2002-12-06 Internatl Business Mach Corp <Ibm> Device, system and method for retrieving database, program and storage medium
JP2002366477A (en) * 2001-06-08 2002-12-20 Pop Cube Kk System and method for electronic notice board
JP2003108559A (en) * 2001-09-27 2003-04-11 Sayaka Ando Age limiting device for calculating no present age
JP2003223441A (en) * 2002-01-28 2003-08-08 Fuji Xerox Co Ltd Character string shaping method, device, and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3576272B2 (en) * 1995-06-22 2004-10-13 シャープ株式会社 Speech recognition apparatus and method
JPH0934984A (en) * 1995-07-20 1997-02-07 Fujitsu Ltd Character recognition device
JP3520725B2 (en) * 1996-06-27 2004-04-19 富士通株式会社 Password determining device, password determining method, and computer-readable recording medium storing a program for causing a computer to control the password determining device
JP3924894B2 (en) * 1998-02-09 2007-06-06 富士ゼロックス株式会社 Document search apparatus, document search method, and recording medium
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000057156A (en) * 1998-08-07 2000-02-25 Nippon Telegr & Teleph Corp <Ntt> Information retrieval system and recording medium recording information retrieving program
JP2001337973A (en) * 2000-05-25 2001-12-07 Fujitsu Ltd Search system maintenance method and search system
JP2002351908A (en) * 2001-05-15 2002-12-06 Internatl Business Mach Corp <Ibm> Device, system and method for retrieving database, program and storage medium
JP2002366477A (en) * 2001-06-08 2002-12-20 Pop Cube Kk System and method for electronic notice board
JP2003108559A (en) * 2001-09-27 2003-04-11 Sayaka Ando Age limiting device for calculating no present age
JP2003223441A (en) * 2002-01-28 2003-08-08 Fuji Xerox Co Ltd Character string shaping method, device, and program

Also Published As

Publication number Publication date
JP2005327006A (en) 2005-11-24

Similar Documents

Publication Publication Date Title
US10289618B2 (en) Third party search applications for a search system
US10235471B2 (en) System and method for the dynamic provisioning of static content
AU2014237406B2 (en) Method and apparatus for substitution scheme for anonymizing personally identifiable information
KR20160018588A (en) Construction method and device for event repository
CN103514236B (en) Search condition error correcting prompt processing method based on phonetic in retrieval application
US8073832B2 (en) Estimating rank on graph streams
CN106126521A (en) The social account method for digging of destination object and server
US20180139222A1 (en) Method and device for detecting website attack
CN104102658A (en) Method and device for mining text contents
CN106844553A (en) Data snooping and extending method and device based on sample data
JP4591947B2 (en) Information filtering apparatus and method
CN106484746B (en) Website conversion event analysis method and device
KR20120090131A (en) Method, system and computer readable recording medium for providing search results
CN109101657A (en) Multiple level marketing referrer website identification method, device and equipment
KR100989320B1 (en) Non-tree index fast search method and non-tree-based indexing log processor for large web log mining and attack detection
KR101568800B1 (en) Real-time issue search word sorting method and system
CN109241483B (en) Website discovery method and system based on domain name recommendation
US20090248673A1 (en) Method of sorting web pages, search terminal and client terminal
CN105844176B (en) Security strategy generation method and equipment
KR20090071710A (en) Typo determination method and system
Horan et al. Overlap cycles for Steiner quadruple systems
Butler et al. Interface for querying and data mining for the IMDb dataset
CN116502009B (en) Web page filtering methods, devices, equipment and storage media
CN104394197A (en) SQL injection detection system and method based on cloud environment
CN104410567A (en) Instant communication method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090611

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091005

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100909

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100909

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees