DE10323444A1 - Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank - Google Patents
Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten DatenbankInfo
- Publication number
- DE10323444A1 DE10323444A1 DE10323444A DE10323444A DE10323444A1 DE 10323444 A1 DE10323444 A1 DE 10323444A1 DE 10323444 A DE10323444 A DE 10323444A DE 10323444 A DE10323444 A DE 10323444A DE 10323444 A1 DE10323444 A1 DE 10323444A1
- Authority
- DE
- Germany
- Prior art keywords
- pages
- commercial
- documents
- page
- categorizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Beschrieben sind Verfahren zum Erzeugen von kategorisierten Dokumenten, Kategorisieren von Dokumenten in einer verteilten Datenbank und Kategorisieren von Resulting-Pages. Ferner ist beschrieben eine Vorrichtung zum Durchsuchen einer verteilten Datenbank. Das Verfahren zum Erzeugen von kategorisierten Dokumenten umfasst generell: anfängliches Annehmen, dass sämtliche Dokumente vom Typ 1 sind; Herausfiltern sämtlicher Dokumente des Typs 2 und Platzieren dieser in einer ersten Kategorie; Herausfiltern sämtlicher Dokumente des Typs 3 und Platzieren dieser in einer zweiten Kategorie und Definieren sämtlicher übriger Dokumente als Dokumente des Typs 4 und Platzieren sämtlicher Dokumente des Typs 4 in einer dritten Kategorie. Die Vorrichtung zum Durchsuchen einer verteilten Datenbank umfasst generell mindestens eine Speichervorrichtung; eine Rechenvorrichtung, einen Indizierer; einen Transaktionsmarkierungsgenerator und einen Kategoriezuweiser, einen Suchserver und eine Benutzerschnittstelle in Kommunikation mit dem Suchserver.
Description
- Die Übertragung von Informationen über Computernetzwerke wurde zu einer immer wichtigeren Einrichtung, durch welche Institutionen, Firmen und einzelne Personen Geschäfte abwickeln. Computernetzwerke sind im Laufe der Jahre gewachsen von unabhängigen und isolierten Einheiten, eingerichtet zum Bedienen der Bedürfnisse einer einzelnen Gruppe, zu großen Zwischennetzen, welche verschiedenartige physische Netzwerke verbinden und diesen ermöglichen, als ein koordiniertes System zu arbeiten. Derzeit ist das größte existierende Computernetzwerk das Internet. Das Internet ist eine weltweite Verbindung von Computernetzwerken, welche kommunizieren unter Verwendung eines gemeinsamen Protokolls. Millionen von Computern, angefangen bei den Low-End-Personalcomputern bis hin zu den High-End-Personalcomputern, sind verbunden mit dem Internet.
- Das Internet ist aufgetaucht als eine große Gemeinschaft von elektronisch verbundenen Benutzern, welche sich in der ganzen Welt befinden und einfach und regelmäßig große Mengen von Informationen austauschen. Das Internet bedient weiterhin seine ursprünglichen Zwecke eines Lieferns von Zugriff auf Informationen und eines Austauschs dieser Informationen unter Regierungsstellen, Labors und Universitäten für die Forschung und Bildung. Außerdem hat sich das Internet entwickelt zum Bedienen einer Vielheit von Interessen und Foren, welche über die ursprünglichen Ziele hinaus reichen. Insbesondere vollführt das Internet eine rasche Umwandlung zu einem globalen elektronischen Marktplatz von Gütern und Diensten sowie von Ideen und Informationen.
- Diese Umwandlung des Internet zu einem globalen Marktplatz wurde zu einem großen Teil gefördert durch die Einführung eines gemeinsamen Protokolls, wie etwa HTTP (Hyper Text Transfer Protocol) und TCP/IP (Transmission Control Protocol/Internet Protocol) zum Ermöglichen des einfachen Veröffentlichens und Austauschs von Informationen. Das Internet ist somit eine einzigartige verteilte Datenbank, bestimmt zum Bieten eines breiten Zugriffs auf ein großes Universum von Dokumenten, welche von einer unbegrenzten Anzahl von Benutzern und Quellen veröffentlicht werden. Die Datenbanksätze des Internet befinden sich in der Form von Dokumenten, bekannt als "Pages" oder Sammlungen von Pages, bekannt als "Sites". Pages und Sites sind resident auf Servern und sind zugriffsfähig über die gemeinsamen Protokolle. Das Internet ist daher eine große Datenbank von Informationen, verteilt über scheinbar unzählige einzelne Computersysteme, welche sich konstant ändert und keine zentralisierte Organisation hat.
- Computer, welche mit dem Internet verbunden sind, können zugreifen auf Pages über ein als Browser bekanntes Programm, welches eine leistungsfähige, einfach zu erlernende Benutzerschnittstelle, typischerweise grafisch hat, und jedem Computer, welcher mit dem Internet verbunden ist, ermöglicht, sowohl ein Veröffentlicher als auch ein Benutzer von Informationen zu sein. Eine weitere leistungsfähige Technik, welche ermöglicht wird durch Browser, ist bekannt als Hyperlinking, welches Page-Autoren ermöglicht, Links zu anderen Pages zu erzeugen, welche Benutzer dann auffinden können unter Verwendung einfacher Befehle, beispielsweise durch Hindeuten und Klicken innerhalb des Browsers. So existiert jede Page innerhalb einer Verknüpfung von semantisch zusammenhängender Pages, da jede Page sowohl ein Ziel als auch eine Quelle für ein Hyperlinking sein kann, und diese Konnektivität kann erfasst werden in einem gewissen Maß durch Abbilden und Vergleichen, wie diese Hyperlinks zueinander in Beziehung stehen. Außerdem können die Pages aufgebaut sein in einer beliebigen aus einer Vielzahl von Syntaxformen, wie etwa Hyper Text Markup Language (HTML) oder eXstensible Markup Language (XML), und können Multimediainformationsinhalt umfassen, wie etwa Grafik, Audio sowie stehende und bewegte Bilder.
- Da jede Person mit einem Computer und einer Verbindung zum Internet ihre eigene Page auf dem Internet veröffentlichen kann sowie auf eine beliebige andere öffentlich zugängliche Page zugreifen kann, ermöglicht das Internet ein Viele-zu- Viele-Modell einer Informationsproduktion und Nutzung, welches in der Offlinewelt nicht möglich bzw. durchführbar ist. Effektive Suchdienste, einschließlich Suchmaschinen, sind ein wichtiger Teil des Viele-zu-Viele-Modells, welche es Informationsnutzern ermöglicht, schnell und zuverlässig relevante Pages zu identifizieren unter einer Masse von irrelevanter, jedoch ähnlicher Pages. Infolge des Viele-zu- Viele-Modells hat eine Präsenz im Internet die Fähigkeit zur Einführung einer weltweiten Basis von Nutzern von Geschäften, Einzelpersonen und Institutionen, welche ihre Produkte und Dienste Verbrauchern anbieten möchten, die potentielle Kunden sind. Ferner machen die immer größere Raffinesse bzw. Ausgereiftheit der Gestaltung von Pages, ermöglicht durch die exponentielle Zunahme von Datenübertragungsraten, Computerverarbeitungsgeschwindigkeiten und eine Browserfunktionalität, das Internet zu einem zunehmend attraktiven Medium zum Erleichtern und Durchführen kommerzieller Transaktionen sowie zum Bewerben und Ermöglichen derartiger Transaktionen. Da das Internet eine direkte Identifikation von Geschäften und abgezielter Verbraucher sowie eine Verbindung zwischen diesen ermöglicht, hat es das Potential, ein leistungsfähiges effektives Werbemedium zu sein.
- Die Verfügbarkeit von leistungsfähigen neuen Werkzeugen, welche die Entwicklung und Verteilung von Internetinhalten erleichtert (diese umfassen Informationen jeglicher Art in einer beliebigen Form bzw. einem beliebigen Format), hat geführt zu einer Verbreitung von Informationen, Produkten und Diensten, welche angeboten werden durch das Internet, und einem dramatischen Wachstum in der Anzahl und den Typen von das Internet benutzenden Verbrauchern. International Data Corporation, gewöhnlich bezeichnet als IDC, hat geschätzt, dass die Anzahl von Internetbenutzern wachsen wird auf etwa 320 Millionen weltweit Ende 2002. Außerdem ist der über das Internet durchgeführte Handel gewachsen, und es wird noch ein dramatisches Wachstum erwartet. IDC schätzt, dass der Prozentanteil von Internetbenutzern, welche Güter und Dienste im Internet kaufen, ansteigt auf etwa 40% in 2002, und dass der Gesamtwert von Gütern und Diensten, verkauft über das Internet, ansteigt auf etwa $ 425,7 Milliarden.
- So ist das Internet aufgetaucht als ein attraktives neues Medium für Werbende von Informationen, Produkten und Diensten ("Werbende") zum Erreichen nicht nur von Verbrauchern allgemein, sondern auch zum Ermöglichen einer erhöhten Fähigkeit, die spezifischen Zielgruppen von Verbrauchern zu identifizieren auf der Grundlage ihrer Referenzen, Charakteristiken bzw. Verhaltensweisen. Jedoch besteht das Internet aus einer unbegrenzten Anzahl von Sites, verteilt über Millionen von verschiedenen Computersystemen über die ganze Welt, so dass Werbende sich konfrontiert sehen mit der beängstigenden Aufgabe eines Lokalisierens und Erreichens der spezifischen Gruppen oder Untergruppen von Verbrauchern, welche potentiell interessiert sind an ihren Informationen, Produkten und/oder Diensten.
- Werbende verlassen sich auf Suchdienste zum Unterstützen von Verbrauchern bei der Lokalisierung der Sites von Werbenden. Derartige Dienste, einschließlich Kataloge und Suchmaschinen, haben sich entwickelt zum Indexieren und Suchen der im Internet verfügbaren Informationen und unterstützen dadurch Benutzer, einschließlich Verbraucher, bei der Lokalisierung von Informationen, Produkten und Diensten von Interesse. Diese Suchdienste ermöglichen es Benutzern, einschließlich Verbrauchern, das Internet zu durchsuchen nach einer Liste von Sites auf der Grundlage eines spezifischen Schlüsselbegriffs, Produkts oder Dienstes von Interesse, wie beschrieben durch die Benutzer in ihrer eigenen Sprache. Da Suchdienste das am häufigsten verwendete Werkzeug im Internet nach Email ist, bieten Sites, welche Suchdienste vorsehen, Werbenden eine bedeutende Reichweite in das Internetpublikum und erzeugen die Möglichkeit, auf Verbraucherinteressen zu zielen auf der Grundlage von Schlüsselwort- oder Themensuchanfragen.
- Suchdienste werden generell erzeugt durch Suchmaschinenanbieter, welche eine elektronische Durchsicht der Pages des Internet durchführen und einen Index und eine Datenbank auf der Grundlage dieser Durchsicht erzeugen. Die Suchmaschinenanbieter können die Suchdienste direkt den Verbrauchern anbieten oder können die Suchdienste einem Dritten anbieten, welcher dann die Suchdienste den Verbrauchern anbietet. Gewöhnlich werden die Datenbanken erzeugt entweder durch Crawling des Internet und Erstellen einer lokalen Kopie von jeder Page oder eines Aspekts davon in einer Speichervorrichtung, oder durch Sammeln von Submissions von den Anbietern der Pages ("Resulting Pages"). Dies kann umfassen statische und/oder dynamische Inhalte, ob Text, Bild, Audio, Video oder stehende Bilder. Alternativ können lediglich bestimmte Aspekte der Pages kopiert werden, wie etwa URL, Titel oder Text. Jede Resulting-Page wird indiziert für eine spätere Referenz. So durchsucht, wenn eine Durchsuchung des Internet angefordert wird durch einen Benutzer, die Suchmaschine nicht tatsächlich das Internet in Echtzeit, sondern durchsucht ihren eigenen Index und ihre eigene Datenbank für die relevanten Resulting-Pages ("Suchergebnisse" oder "Listen"). Die Suchergebnisse werden dann dem Benutzer dargestellt entweder als Kopien der tatsächlichen Pages oder als eine Liste von Pages, auf welche über einen Hyperlink zugegriffen werden kann.
- Viele bekannte Suchmaschinen verwenden eine automatisierte Suchtechnologie zum Katalogisieren von Suchergebnissen, welche sich generell verlassen auf eine nicht sichtbare Sitebeschreibung, bekannt als "meta tags", welche definiert werden durch die Site-Ersteller. Da Werbende ihre Sites nach ihrer Wahl frei mit Text versehen können, sind viele Pages mit ähnlichen meta tags versehen, was die Schwierigkeit eines Lieferns von relevanten Suchergebnissen erhöht. Außerdem verlassen sich die meisten bekannten Suchmaschinen auf ihre eigene Hierarchie von semantischen Kategorien, in welche indizierte Pages kategorisiert werden. Dies ist ein Top-Down- Kategorisierungsverfahren (top-down: von der höchsten zur niedrigsten hierarchischen Ebene), wo die Kategorien semantisch in Zusammenhang stehen, unabhängig von ihrer kommerziellen oder nichtkommerziellen Natur. Daher liefern bekannte Suchmaschinen keine an den Kunden anpassbare Bottom- Up-Kategorisierung (bottom-up: hierarchisch von oben nach unten) eines Suchergebnisses auf der Grundlage der kommerziellen Natur und Relevanz der Page bzw. Site.
- Außerdem fügen manche Werbende und andere Site-Ersteller beliebte Suchbegriffe in ihre meta tags der Site ein, welche nicht relevant sind für ihre Pages, so dass diese Pages zusätzliche Verbraucheraufmerksamkeit bei geringen oder gar keinen Grenzkosten anziehen können. Solche Pages erbringen viele unerwünschte Ergebnisse und werden bezeichnet als "Spam Pages". Generell werden Pages bezeichnet als Spam, wenn sie irgendeinen Mechanismus zum Zwecke der Täuschung von Suchmaschinen und/oder Relevanzordnungsalgorithmen umfassen und ferner Benutzer auf Sites umlenken können, welche nicht relevant sind für die ursprüngliche Suche des Benutzers. Viele solcher Mechanismen und Techniken existieren und umfassen meta tags, wobei keine Beschränkung auf das Umfassen von meta tags existiert, welche die wahre Natur der Page nicht reflektieren. Gewöhnlich sind Spam Pages von Natur aus kommerziell. Das heißt, sie versuchen, Benutzern etwas zu verkaufen.
- Viele bekannte Suchmaschinen sind einfach nicht ausgestattet zur Festlegung einer Priorität von Ergebnissen in Übereinstimmung mit den Präferenzen der Verbraucher. Bekannte Suchmaschinen sehen ferner nicht jeden Weg vor, um zu bestimmen, ob jede Page in einer Auflistung ihrer Natur nach kommerziell ist, und um die Auflistung zu kategorisieren auf der Grundlage der kommerziellen Natur jeder Page. Wenn dies erfolgt, können die Suchergebnisse verarbeitet werden, um eine nützlichere Organisation gemäß den Absichten des Verbrauchers (unabhängig davon, ob diese ist, eine kommerzielle Transaktion oder Suchaktion durchzuführen) bei einem Einleiten der Suche zu liefern. Beispielsweise kann es vorkommen, dass ein Verbraucher, welcher Informationen zu einem gegebenen Thema sucht, wünscht, Pages zu unterscheiden, welche primär informativer Natur sind, von Pages, welche primär kommerzieller Natur sind. Bei anderen Beispielen kann es vorkommen, dass ein Verbraucher wünscht, Pages zu unterscheiden, welche primär kommerzieller Natur sind und relevant für die Anfrage des Verbrauchers sind, von ungewünschten Pages bzw. Spam Pages.
- Ferner wird bei bekannten Suchmaschinen ein Verbraucher, welcher versucht, eine Site zum Verkaufen von Gütern oder Diensten zu lokalisieren, konfrontiert sein mit einer großen Anzahl von Sites, welche sich auf den Gegenstand beziehen könnten, jedoch nicht den Kauf des Gegenstands ermöglichen. Ebenso werden Verbraucher, welche lediglich an einer Lokalisierung von informativen Sites für einen Gegenstand interessiert sind, mit vielen kommerziellen Sites zum Verkauf des Gegenstands konfrontiert sein, welche möglicherweise die Informationen, nach welchen sie suchen, nicht liefern. Daher sind die gewünschten Ergebnis-Pages der Verbraucher versteckt unter einer großen Anzahl von Pages, welche dem eigentlichen Ziel des Verbrauchers nicht entsprechen, da bekannte Suchmaschinen weder in der Lage sind, die Absicht des Verbrauchers bei der Suche noch die kommerzielle oder nichtkommerzielle Natur der Suchergebnisse zu unterscheiden.
- Daher liefern die bekannten Suchmaschinen keine geeignete Einrichtung für Benutzer zum Kategorisieren des Typs von Suchergebnissen, nach welchen sie suchen, informativ oder kommerziell, oder für Werbende, welche wünschen, ihre Darbietung zu steuern und ihre Verteilung von Informationen zu interessierten Verbrauchern zu lenken. Derzeitige Paradigmen zum Darstellen von Suchergebnissen machen keine Page-für-Page- Unterscheidung zwischen informativen und kommerziellen Quellen von Informationen und mischen stattdessen beide Typen von Ergebnissen in Abhängigkeit lediglich von der Relevanz, welche diesen zugewiesen wird als Reaktion auf die ursprüngliche Suchanfrage des Benutzers.
- Bekannte Verfahren, verwendet von Werbenden zum Steuern ihrer Darbietung und Ziellenken ihrer Verteilung, wie etwa Bannerwerbung, folgen traditionellen Werbeparadigmen und scheitern bei der Benutzung der einzigartigen Attribute des Viele-zu-Viele-Veröffentlichungsmodells des Internet. Ferner versagen sie, soweit die Bannerwerbungen in den Suchergebnissen gefunden werden, häufig im Hinblick auf die Anziehung eines Verbraucherinteresses, da der Verbraucher in einer gerichteten Weise nach Suchergebnissen auf dieser Page, und nicht nach einem Banner, sucht.
- Daher versagen die traditionellen Paradigmen betreffend die Internetwerbung und Suchmaschinen im Hinblick auf eine effektive Kategorisierung und eine Lieferung von relevanten Informationen für interessierte Parteien in einer Zeit- und kosteneffektiven Weise. Daher müssen Verbraucher manuell sämtliche Suchergebnisse sortieren, um schließlich den Typ von Ergebnissen (kommerziell oder nicht kommerziell) zu lokalisieren, an welchem sie interessiert sind. Da Internetwerbung jedoch ein Niveau von Zielrichtbarkeit, Interaktivität und Messbarkeit bieten kann, welches in anderen Medien generell nicht verfügbar ist, erhöht die Fähigkeit zur Kategorisierung und klaren Darstellung von identifizierten Sätzen von kommerziellen und nicht kommerziellen Ergebnissen die Verbraucherzufriedenheit und ermöglicht eine erhöhte ökonomische Effizienz durch Verringern der erforderlichen manuellen Sortierung durch die Benutzer.
- Idealerweise sollten Werbende in der Lage sein, ihre Sichtbarkeit in einer Internetsuchergebnisliste zu verbessern, so dass ihre Pages nicht nur hervorgehoben in der Auflistung erscheinen, sondern ferner nicht durch eine Vielzahl von anderen nicht kommerziellen Pages maskiert bzw. verdeckt sind (siehe US-Patent Nr. 6 269 361, hierin enthalten durch Verweis). Ebenso sollten Verbraucher in der Lage sein, über eine zuverlässige Kategorisierung und deutliche Darstellung entweder als informativ oder kommerziell ihrer Suchergebnisse zu verfügen. Ohne eine zuverlässige Einrichtung zum Unterscheiden zwischen kommerziellen und nichtkommerziellen Pages können bekannte Suchmaschinen das wahre Potential der zielgerichteten Marktannäherung, welche ermöglicht wird durch das Internet, nicht voll nutzen.
- Daher muss die Suchmaschinenfunktionalität des Internet fokussiert werden in eine neue Richtung zum Ermöglichen eines Online-Marktplatzes, welcher Verbrauchern schnelle, relevante und kundenangepasste Suchergebnisse bietet, während gleichzeitig Werbenden ein zuverlässiger, verifizierbarer und kosteneffektiver Weg zur Adressierung von Verbrauchern und Positionierung der Produkte und Dienste der Werbenden innerhalb einer Liste bietet. Ein Verbraucher, welcher eine Suchmaschine nutzt, die diesen Online-Marktplatz ermöglicht, wird Firmen und Geschäfte finden, welche die Produkte oder Dienste anbieten, die der Verbraucher sucht, ohne die Ablenkung von nichtkommerziellen Pages. Außerdem wird, während der Benutzer streng informative Ressourcen sucht, der Benutzer nicht belästigt werden durch Spam Pages oder irrelevante kommerzielle Pages.
- Es ist daher eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zum Prüfen und Kategorisieren von Sätzen in einer verteilten Datenbank als kommerzielle oder nichtkommerzielle Sätze und anschließenden Darstellen dieser Sätze in Reaktion auf eine Datenbankabfrage, definiert durch einen Benutzer oder netzwerkdefinierte Einstellungen, zu schaffen.
- Es ist ferner eine Aufgabe der vorliegenden Erfindung, Benutzer zu versehen mit einer kundenanpassbaren Suchmaschine, welche Benutzern ermöglicht, Suchergebnislisten zu organisieren auf der Grundlage der kommerziellen Natur des Suchergebnisses, und Benutzern ermöglicht, Darstellungsregeln zu spezifizieren auf der Grundlage von Kategorien und Benutzerpräferenzen.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, Suchmaschinendienstkunden zu versehen mit einer kundenanpassbaren Suchmaschine, welche jedem Suchmaschinendienstkunden eine Organisation von Suchergebnislisten auf der Grundlage der kommerziellen Natur des Suchergebnisses ermöglicht und dem Suchmaschinendienstkunden ermöglicht, Darstellungsregeln für die Suchergebnisse auf der Grundlage von Kategorien und Präferenzen des Kunden des Suchmaschinendienstes zu spezifizieren.
- Es ist ferner eine weitere Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen, welches Anbietern eines Suchmaschinendienstes oder Benutzern ermöglicht, die Wichtigkeit von verschiedenen Transaktionskriterien und Schwellenwerte dynamisch zu spezifizieren, um einen flexiblen scale of value zu erzeugen auf der Grundlage der kommerziellen Natur eines Satzes, um ein Transaktionsrating zuzuweisen und somit eine kommerzielle oder nichtkommerzielle Bestimmung jedes Satzes durchzuführen.
- Es ist ferner eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen zur Kategorisierung und Darstellung von Suchergebnissen durch Kombinieren eines Transaktionsrating mit einer Qualitätsmarkierung und einer Spam-Markierung, um eine kommerzielle Markierung zuzuweisen und dann ein Ranking bzw. eine Klassifizierung derartiger Ergebnisse gemäß einer derartigen Markierung durchzuführen.
- Es ist ferner eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren zu schaffen zum Kategorisieren von Dokumenten in einer verteilten Datenbank zum Erzeugen von kategorisierten Dokumenten durch ein anfängliches Annehmen, dass sämtliche Dokumente nicht kommerziell sind, Herausfiltern sämtlicher kommerzieller Dokumente und Platzieren dieser in einer ersten Kategorie und Verwenden der ersten Kategorie als eine Sammlung von Werberprospekten für eine Zahlung für eine Leistungssuchmaschine.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein kosteneffektives System und Verfahren zum Verwalten des Betriebs einer nach Leistung zahlbaren Suchmaschine zu schaffen durch automatisches Generieren von Werber Sales-Leads durch anfängliches Kategorisieren von Pages als kommerziell oder nichtkommerziell und anschließend ferner Kategorisieren von kommerziellen Pages als existierende Kunden oder Sales- Leads.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und Verfahren zu schaffen zum Kategorisieren von Sätzen in einer verteilten Datenbank zum Identifizieren von kommerziellen Sätzen und Vergleichen dieser Sätze gegen eine Zahlung für Auflistungen einer Leistungssuchmaschine, um kommerzielle Sätze weiter zu kategorisieren entweder als teilnehmende Werbende oder nicht teilnehmende Werbende.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren einer Sales-Lead-Generierung zu schaffen für eine Zahlung für Leistungssuchmaschinen-Werbende durch Organisieren und Darstellen von nicht teilnehmenden kommerziellen Sätzen zu einer Zahlung für eine Leistungssuchmaschinen-Sales-Staff gemäß dynamisch spezifizierten Kriterien.
- Es erfolgt eine Beschreibung der Verfahren zum Erzeugen kategorisierter Dokumente, Kategorisieren von Dokumenten in einer verteilten Datenbank und Kategorisieren von Resulting- Pages. Ferner wird hier eine Vorrichtung zum Suchen einer verteilten Datenbank beschrieben.
- Ein Verfahren zum Erzeugen von kategorisierten Dokumenten umfasst generell:
Anfängliches Annehmen, dass sämtliche Dokumente vom Typ 1 sind; Herausfiltern sämtlicher Dokumente des Typs 2 und Platzieren dieser in einer ersten Kategorie; Herausfiltern sämtlicher Dokumente des Typs 3 und Platzieren dieser in einer zweiten Kategorie; und Definieren sämtlicher übriger Dokumente als Dokumente des Typs 4 und Platzieren dieser Dokumente des Typs 4 in einer dritten Kategorie. - Das Verfahren zum Kategorisieren von Dokumenten in einer gewünschten Datenbank umfasst generell: Annehmen, dass sämtliche Dokumente in der verteilten Datenbank von nichtkommerzieller Natur sind; Herausfiltern sämtlicher Dokumente, welche von kommerzieller Natur sind, aus den Dokumenten, wobei die Dokumente, welche von kommerzieller Natur sind, kommerzielle Dokumente sind; und Erzeugen von Sales-Leads aus den kommerziellen Dokumenten. Bei einem Ausführungsbeispiel des vorliegenden Verfahrens sind die Dokumente Pages, und die verteilte Datenbank ist das Internet.
- Ein Verfahren zum Kategorisieren von Resulting-Pages in Kategorien umfasst generell: Festlegen einer ersten Kategorie als kommerzielle Pages und einer zweiten Kategorie als informative Pages; Bestimmen einer Qualitätsmarkierung q(wi) für jede Resulting-Page; Bestimmen eines Transaktionsrating für jede Resulting-Page τ(wi); Ableiten einer Propagationsmatrix; P Bestimmen einer kommerziellen Markierung K für jede Resulting-Page; Herausfiltern sämtlicher Resulting- Pages, welche mit einem kommerziellen Markierungsschwellenwert übereinstimmen bzw. diesen überschreiten; wobei die Resulting- Pages, welche mit dem kommerziellen Page-Schwellenwert übereinstimmen oder diesen überschreiten, platziert werden in der ersten Kategorie und sämtliche übrigen Resulting-Pages platziert werden in der zweiten Kategorie.
- Ein weiteres Verfahren zum Kategorisieren einer Vielzahl von Resulting-Pages in Kategorien umfasst generell: Bestimmen, ob jede der Vielzahl von Resulting-Pages eine Spam-Page ist; Bestimmen einer Qualitätsmarkierung q(wi) für jede der Vielzahl von Resulting-Pages; Bestimmen eines Transaktionsrating τ(wi) für jede der Vielzahl von Resulting-Pages; Ableiten einer Propagationsmatrix P; Bestimmen einer kommerziellen Markierung K für jede der Vielzahl von Resulting-Pages; Herausfiltern sämtlicher Spam-inclusiven kommerziellen Pages aus der Vielzahl von Resulting-Pages; Herausfiltern sämtlicher Spam- Pages aus den Spam-inclusiven kommerziellen Pages; Platzieren sämtlicher kommerzieller Pages in einer kommerziellen Kategorie; und Platzieren sämtlicher übriger Resulting-Pages in einer Informationskategorie.
- Ein Verfahren zum Suchen einer verteilten Datenbank umfasst generell: (a) Eingeben von Suchbegriffen oder Sätzen in ein System; (b) Generieren von Dokumenten, welche Schlüsselwörter enthalten, die mit den Suchbegriffen oder Sätzen übereinstimmen; (c) Kategorisieren von Suchergebnissen in Kategorien gemäß Kategorisierungskriterien zum Erzeugen von kategorisierten Dokumenten; und (d) Darstellen der kategorisierten Dokumente.
- Ferner ist beschrieben eine Suchmaschine und eine Datenbank für eine verteilte Datenbank, generell umfassend mindestens eine Speichervorrichtung, umfassend mindestens einen Internet- Cache (bzw. Internet-Cache-Speicher) und einen Internet-Index; eine Rechenvorrichtung, umfassend einen Crawler in Kommunikation mit dem Internet-Cache und dem Internet; einen Indizierer in Kommunikation mit dem Internet-Index und dem Internet-Cache; einen Transaktionsmarkierungsgenerator in Kommunikation mit dem Internet-Cache; und einen Kategoriezuweiser in Kommunikation mit dem Internet-Cache; einen Suchserver in Kommunikation mit dem Internet-Cache, dem Internet-Index; und eine Benutzerschnittstelle in Kommunikation mit dem Suchserver.
- Das System sieht zahlreiche Ausführungsbeispiele vor, welche von Fachleuten auf diesem Gebiet auf der Grundlage der vorliegenden Offenbarung verstanden werden. Manche davon sind unten beschrieben und in der Zeichnung mittels mehrerer Figuren dargestellt.
- Fig. 1A ist ein Blockdiagramm einer Page-Kategorisierung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 1B ist ein Blockdiagramm einer Page-Kategorisierung gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 2 ist ein Flussdiagramm eines Systems zum Bestimmen, ob eine Page eine kommerzielle Page ist, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 3 ist ein Flussdiagramm eines Systems zum Bestimmen eines Transaktionsrating für eine Page gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 4 ist ein Flussdiagramm eines Systems zum Erzeugen einer Propagationsmatrix gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 5 ist ein Flussdiagramm eines Systems zum Liefern einer kundenangepassten Kategorisierung von Suchergebnissen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 6 ist ein Flussdiagramm eines Systems zum Liefern von kundenangepassten Suchergebnissen und der Darstellung der kundenangepassten Suchergebnisse gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
- Fig. 7 ist ein Flussdiagramm eines Systems zum Automatisieren der Sammlung von Sales-Leads für eine Zahlung für eine Leistungssuchmaschinen-Sales-Staff gemäß einem Ausführungsbeispiel der vorliegenden Erfindung; und
- Fig. 8 ist ein Diagramm einer Vorrichtung zum Kategorisieren und Anzeigen von Suchergebnissen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
- Nachfolgend beschrieben wird ein Verfahren und eine Vorrichtung zum Identifizieren von Dokumenten in einer verteilten Datenbank. Ein Ausführungsbeispiel umfasst eine Heuristik zum Identifizieren von Pages, die von kommerzieller Natur sind und Liefern eines Systems und eines Verfahrens für die dynamische Kategorisierung und Darstellung sowohl von kommerziellen Pages als auch von informativen Pages in Echtzeit zu einem Werbenden, einem Suchmaschinenanbieter oder einem User. Dieses System kann verwendet werden in einem beliebigen Kontext, wo es nützlich ist, Suchergebnisse zu kategorisieren auf der Grundlage der kommerziellen Natur dieser Pages, und kann verwendet werden in einer Vielzahl von Formen, von einem Browser-Plug-In zu einer selbstständigen Anwendung zu einer ausgangsseitigen bzw. nachgeschalteten Suchmaschine oder einem Suchmaschinenwerkzeug. Außerdem kann das System verwendet werden zum Liefern von einzigartigen Betriebsvorteilen zu einer Zahlung für einen Leistungssuchmaschinenanbieter durch Automatisieren eines Abschnitts des Sales-Zyklus und Ermöglichen einer zusammenwirkenden Kontenverwaltungsumgebung zwischen Werbenden und der Zahlung für einen Leistungssuchmaschinenanbieter.
- Verschiedene Sätze von Suchergebnissen für kommerzielle Pages und informative Pages, welche zurückkommen in Reaktion auf eine benutzerdefinierte Anfrage, werden geliefert zu Werbenden, Suchmaschinendienstanbietern und Benutzern. Das System unterscheidet Pages gemäß der kommerziellen Natur jeder Page und liefert dadurch relevantere Ergebnisse durch Liefern von relevanten Suchergebnissen zu diesen Benutzern, welche Informationen suchen oder wünschen, eine kommerzielle Transaktion einzugeben, ohne Durcheinanderbringen der beiden Kategorien von Suchergebnissen. Das System ermöglicht ferner eine vollständige Kundenanpassung im Hinblick auf den Satz von Kriterien, welche verwendet werden zum Kategorisieren von Suchergebnissen, die Wichtigkeit von jedem solchen Kriterium bei der Bestimmung einer derartigen Kategorisierung und die letztendliche Kategorisierung und Darstellung derartiger Suchergebnisse zum Benutzer.
- Verfahren und Vorrichtungen zum statischen und dynamischen Kategorisieren und Darstellen der Sätze einer verteilten Datenbank sind offenbart. Beschreibungen von spezifischen Ausführungsbeispielen sind vorgesehen lediglich als Beispiele, und verschiedene Modifikationen sind für Fachleute auf diesem Gebiet offensichtlich und sollen nicht durch die beschriebenen Ausführungsbeispiele begrenzt sein. Identische Merkmale sind gekennzeichnet durch identische Bezugszeichen in der beiliegenden Zeichnung.
- Beschrieben ist ein kundenanpassbares System zum Identifizieren und Kategorisieren der Sätze in einer Suche der Sätze oder den Ergebnissen einer Suche der Sätze in einer verteilten Datenbank und zum Kategorisieren und Darstellen der Sätze oder Suchergebnisse gemäß der kommerziellen Natur des Satzes in einer organisierteren, leichter verständlichen und daher nützlicheren Weise. Die folgenden Beschreibungen beschreiben detailliert, wie die Pages einer Suche des Internet oder die Ergebnisse einer Suche des Internet identifiziert und kategorisiert werden können als kommerziell und nichtkommerziell (informativ), jedoch ist es einfach zu verstehen, dass die Sätze einer verteilten Datenbank, einschließlich des Internet, kategorisiert werden können in eine unbegrenzte Vielfalt von Kategorien, einschließlich Unterkategorien der kommerziellen und nichtkommerziellen Kategorie. Andere Kategorien können Online-Shopping und Werbungen von traditionellen Geschäften und Diensten beinhalten. Alternativ oder zusätzlich können die Sätze in den Sätzen in einer verteilten Datenbank oder in den Suchergebnissen der Sätze in einer verteilten Datenbank kategorisiert und grafisch dargestellt werden über einen Preisbereich und durch viele andere Kriterien entsprechend einer Vielzahl von benutzerspezifizierten Variablen. Außerdem können die hier offenbarten Verfahren verwendet werden über eine beliebige verteilte Datenbank, welche in beliebiger Weise gekoppelt ist mit einer beliebigen Art von Netzwerk, einschließlich Local Area Networks (LAN) und Wide Area Networks (WAN) und nicht nur mit dem Internet.
- Bezugnehmend auf die Zeichnung, zeigen Fig. 1A und 1B, wie die Suchergebnisse einer Suche des Internet kategorisiert werden kann. Eine Suche des Internet ist tatsächlich eine Suche einer Datenbank der Inhalte des Internet, welche generiert werden kann durch die Verwendung eines Crawler. Der Crawler führt ein Crawling des Internet durch und speichert in eine lokale Datenbank entweder ein Duplikat jeder gefundenen Page oder ein Duplikat eines Abschnitts davon (der Abschnitt kann ein beliebiges der folgenden Merkmale von jeder gefundenen Internetpage beinhalten: die URL, Titel, Inhalt, Kurzbeschreibung des Inhalts, Hyperlinks oder eine beliebige Kombination daraus). Die lokalen Kopien der Pages oder Abschnitte davon können dann gesucht werden unter Verwendung einer Suchmaschine. Die lokalen Kopien der Pages, Abschnitte davon oder beliebige Pages oder Abschnitte davon, welche das Ergebnis einer Suche des Vorhergehenden sind, werden allesamt betrachtet als "Resulting-Pages".
- Wie dargestellt in Fig. 1A und 1B, können die Resulting-Pages 50 generell kategorisiert werden als kommerziell und nicht kommerziell. Resulting-Pages in der kommerziellen Kategorie ("kommerzielle Pages") 52, 62 umfassen generell jene Resulting-Pages, welche das Kaufen und/oder Verkaufen von Gütern und/oder Diensten ermöglichen oder eine Absicht bekunden, eine kommerzielle Aktivität durch den Veröffentlicher dieser Page durchzuführen (diese sind von kommerzieller Natur). Beispielsweise umfassen kommerzielle Pages 52, 62 Pages, welche Güter und/oder Dienste über Verkauf, Miete, Tausch oder eine derartige Transaktion anbieten, oder welche Kontaktinformationen für derartige Transaktionen anbieten, welche durchgeführt werden durch eine andere Einrichtung, wie etwa Fax, Telefon oder persönlich. Resulting-Pages in der nichtkommerziellen Kategorie ("nichtkommerzielle Pages") 54, 64 umfassen generell jene, welche von informativer Natur sind und den Kauf und/oder Verkauf von Gütern und/oder Diensten nicht ermöglichen und somit nicht von kommerzieller Natur sind. Nichtkommerzielle Pages können alternativ bezeichnet werden als "informative Pages".
- Resulting-Pages, welche Spam ("Spam-Pages") sind, werden generell betrachtet als Untermenge der kommerziellen Pages 52, 62, da Spam-Pages 56 generell von kommerzieller Natur sind. Jedoch ist es auch möglich, dass Spam-Pages primär von informativer Natur sind, da Spam-Pages Informationen betreffend Güter und/oder Dienste liefern, jedoch nicht selbst den Kauf von Gütern und/oder Diensten ermöglichen. Da Spam- Pages gestaltet sind zum Täuschen bzw. Verschlechtern von Suchmaschinen, einschließlich Relevanzordnungsheuristiken, sind sie generell unerwünscht und können aus den Suchergebnissen entfernt bzw. ausgeschlossen werden. Gewöhnlich werden Spam-Pages als von kommerzieller Natur betrachtet, da sie einen direkten Link zu anderen Pages bieten, welche von kommerzieller Natur sind. Spam-Pages können kategorisiert werden als Commercial-Pages, wie dargestellt in Fig. 1A und 1B oder alternativ ausgeschlossen werden aus der kommerziellen Kategorie.
- In einem Ausführungsbeispiel der Erfindung können Resulting- Pages ferner kategorisiert werden in die "PCC-Pages" (PCC: premium-content containing category). PCC-Pages sind Pages, für welche eine Zahlung einer Prämie erforderlich ist, um Zugang zum Inhalt zu erlangen. In manchen Fällen wird eine Zahlung der Prämie festgelegt durch eine Vereinbarung bzw. einen Vertrag. Es existieren viele Beispiele von PCC-Pages, wie etwa jene, welche gefunden werden bei den folgenden URLs: www.law.com und www.northernlight.com. PCC-Pages können betrachtet werden entweder als Teilmenge von kommerziellen Pages und platziert werden in die kommerzielle Kategorie oder eine Teilmenge von nichtkommerziellen Pages und platziert werden in die nichtkommerzielle Kategorie in Abhängigkeit von den Präferenzen des Benutzers oder des Suchmaschinendienstkunden. Beispielsweise erfordern PCC-Pages 58 eine Zahlung einer Prämie, um Zugang zu erhalten. Infolge der Zahlungsanforderung sind sie von kommerzieller Natur und können betrachtet werden als eine Teilmenge der kommerziellen Pages, wie dargestellt in Fig. 1A. Hingegen liefern PCC-Pages generell Informationen und ermöglichen nicht das Kaufen und/oder Verkaufen von Gütern und/oder Diensten, welche verschieden sind von den in den PCC-Pages selbst enthaltenen Informationen. Daher sind sie auch von informativer Natur und können betrachtet werden als eine Teilmenge der nichtkommerziellen Pages, wie dargestellt in Fig. 1B.
- Ein weiteres Ausführungsbeispiel zum Herausfiltern der kommerziellen Pages und Platzieren dieser in der kommerziellen Kategorie umfasst generell die in Fig. 2 dargestellten Schritte, angezeigt durch ein Bezugszeichen 10. Diese Schritte umfassen: Bestimmen, ob jede Page eine Spam-Page 12 ist; Bestimmen einer Qualitätsmarkierung für jede Page 14; Bestimmen eines Transaktionrating für jede Page 16; Ableiten einer Propagationsmatrix 18; Bestimmen einer kommerziellen Markierung für jede Page 20; Herausfiltern sämtlicher Pages mit einer kommerziellen Markierung, welche mit einem Schwellenwert übereinstimmt bzw. diesen überschreitet ("Spam- inclusive kommerzielle Pages") 22; Herausfiltern der Spam- Pages aus den Spam-inclusiven kommerziellen Pages 24; und Platzieren der kommerziellen Pages in die kommerzielle Kategorie 26.
- Bei einem Ausführungsbeispiel wird beim Bestimmen, ob eine Page eine Spam-Page ist, eine Spam-Markierung σ(wj) für jede Page berechnet und bestimmt, ob die Spam-Markierung mit dem Schwellenwert übereinstimmt oder diesen überschreitet, welcher der Spam-Markierung zugewiesen ist. Die Pages, welche mit dem Spam-Markierungsschwellenwert übereinstimmen oder diesen überschreiten, sind Spam-Pages. Ein Bestimmen der Spam- Markierung kann durchgeführt werden unter Verwendung bekannter Techniken, wie etwa einer Zuweisung einer Markierung durch eine Person, und die automatisierten Techniken, dargestellt in den folgenden Papieren, welche hierin unter Verweis enthalten sind; ein White Paper von ebrandmanagement.com mit dem Titel "The Classification of Search Engine Spam" und eine Schrift von Danny Sullivan mit dem Titel "Search Engine Spamming". Beide Dokumente erscheinen in Proceedings of Search Engine Strategies, 4. bis 5. März 2002, Boston, MA, organisiert von Danny Sullivan. Die vorhergehenden und andere bekannte Verfahren umfassen sowohl manuelle als auch automatische Bewertungsverfahren. Diese Verfahren und ähnliche maschinenlernfähige Techniken könnten ferner angewandt werden auf ein Berechnen von τ, den Anfangsvektor in Gleichung (12), unten beschrieben.
- Die Qualitätsmarkierung q(wi) ist ein skalarer Wert, welcher ein Maß der Qualität einer Page ist. Bei einem Ausführungsbeispiel umfasst ein Bestimmen der Qualitätsmarkierung der Pages ein Bewerten eines Untersatzes von Pages gegen eine Auswahlgruppe von Kriterien. Kriterien, gegen welche die Qualität der Page beurteilt werden kann, umfassen die Qualität des Inhalts, Reputation des Autors bzw. Quelle der Informationen, die Benutzerfreundlichkeit einer Page und viele andere derartige Kriterien. Die Qualitätsmarkierung kann durch eine Person zugewiesen werden oder automatisch bestimmt werden, oder es kann ein Standardwert Pages zugewiesen werden, welche nicht explizit bewertet sind.
- Ein Transaktionsrating ist ein skalarer Wert, welcher darstellt, ob oder wie stark eine Page Transaktionen ermöglicht, wie etwa Verkauf, Leasen, Mieten oder Auktion. Bei einem Ausführungsbeispiel sind die Schritte zur Bestimmung eines Transaktionsrating für jede Page generell dargestellt in Fig. 3 und angezeigt durch ein Bezugszeichen 16. Transaktionsratings werden bestimmt anhand einer Transaktionsmarkierung. Eine Transaktionsmarkierung ist ein Vektor, welcher darstellt, ob und wie stark jede Page einen bestimmten Satz von Kriterien erfüllt.
- Daher bestimmt der erste Schritt, ob eine Page und/oder die URL der Page ausgewählte Kriterien 32 erfüllt. Es gibt sehr viele Charakteristiken einer Page, welche geprüft werden können, um schließlich zu bestimmen, ob die Page von Transaktions-Natur ist. Diese Kriterien umfassen ein Bestimmen, ob die Page folgendes umfasst: ein Feld zum Eingeben einer Kreditkarteninformation; ein Feld für einen Benutzernamen und/oder ein Passwort für ein Online- Zahlungssystem, wie etwa PayPal™ oder BidPay™, eine Telefonnummer, identifiziert für ein "Verkaufsbüro", einen "Verkaufsrepräsentanten", "für weitere Information rufen Sie" oder eine beliebige andere Transaktions-orientierte Phrase; ein Link bzw. eine Schaltfläche mit einem Text wie etwa "Klicken Sie hier, um zu kaufen", "Ein-Klick™-Verkauf" oder ähnliche Phrasen, Text wie etwa "Ihre Shoppingkarte enthält" oder "wurde auf Ihre Karte addiert" und/oder ein tag wie etwa ein Ein-Pixel-GIF, verwendet zur Konversionsverfolgung. Ein beliebiger Textabgleich kann erfolgen entweder auf Textketten, wie etwa Abfolgen von Zeichen in den Unicode- oder ASCII- Zeichensätzen, oder auf Text, abgeleitet aus optischer Zeichenerkennung von Text in Bildern, oder Spracherkennung auf einer Tonaufzeichnung, dargestellt in Reaktion auf eine HTTP- Anforderung (HTTP: Hyper Text Transfer Protocol). Die Kriterien können verwendet werden in einer beliebigen Kombination, und beliebige individuelle Kriterien können verwendet werden oder nicht. Außerdem sind diese Kriterien lediglich Beispiele und stellen keine erschöpfende Liste dargestellt.
- Für jede Page muss dann bestimmt werden, wie stark die Page die ausgewählten Kriterien erfüllt, Block 34. Verschiedene Techniken existieren zur Bestimmung, ob Pages bestimmte Kriterien erfüllen, 32, und wie stark diese die Kriterien 34 erfüllen. Beispielsweise kann jede Page geprüft werden durch einen menschlichen Editor und bewertet werden im Hinblick auf die Kriterien, und es kann ihr entweder ein Boolscher Wert oder ein gewichteter Wert zugewiesen werden. Dies ist jedoch ein sehr langsamer und subjektiver Prozess. Viel schnellere automatisierte Techniken umfassen ein automatisches Prüfen oder Zählen von Zeichenkettenübereinstimmungen, Bildübereinstimmungen oder Übereinstimmungen von Zeichenkettenlängen und/oder Übereinstimmungen von Dateneingabefeldtypen (wie etwa numerisch oder alphanumerisch) und Zuweisen von Log-Wahrscheinlichkeitsmarkierung unter Verwendung von Sprachmodellen. Sprachmodelle umfassen beispielsweise n-Gram-Wortübergangsmodelle wie beschrieben in Statistical Methods for Speech Recognition, Jenek 1999. Diese Verfahren können eine Boolsche Zahl oder einen gewichteten Wert zuweisen.
- Unter Verwendung der Ergebnisse, erhalten durch Bestimmen, ob jede Page und/oder ihre URL ausgewählte Kriterien erfüllen, 32, und Bestimmen, wie stark die Page und/oder ihre URL ausgewählte Kriterien erfüllen, 34, wird eine Transaktionsmarkierung bestimmt, 35. Ein Bestimmen der Transaktionsmarkierung 35 für jede Page umfasst ein Erzeugen eines Vektors αk(wj) oder eines Vektors βk(wj) aus den Ergebnissen von Blöcken 32 bzw. 34. Einer dieser Vektoren wird erzeugt für jede Page "wi", wobei der Index "i" eine bestimmte Page und der Index "k" ein bestimmtes Kriterium darstellt, gegen welches die Page bewertet wurde. Die Anzahl von Elementen im Vektor "n" (1 ≤ j ≤ n) wird bestimmt durch die Anzahl von verwendeten Kriterien, und die Anzahl von Vektoren wird bestimmt durch die Anzahl von Pages "m". Die Transaktionsmarkierung αn(wj) ist ein Vektor von Boolschen Werten, wobei eine "0" für gegebene Kriterien anzeigt, dass diese Kriterien nicht erfüllt sind (falsch), und eine beliebige gewählte Integerzahl "p" für gegebene Kriterien zeigt an, dass diese Kriterien erfüllt sind (wahr). Der Transaktionsmarkierungsvektor βn(wj) hat dieselbe Anzahl von Elementen wie α(wj). Jedoch können die Elemente in βn(wj) einen Bereich von reellen Zahlen umfassen, wobei jede Zahl anzeigt, wie stark eine Page die Kriterien erfüllt. Beispielsweise kann βn(wj) die reellen Zahlen zwischen "0" und "1" umfassen (obwohl es einen beliebigen Bereich von reellen Zahlen umfassen kann), wobei "0" darstellt, dass ein Kriterium überhaupt nicht erfüllt ist, und "1" stellt dar, dass ein Kriterien vollständig erfüllt ist. Die reellen Zahlen zwischen "0" und "1" stellen die verschiedenen Grade dar, zu welchem ein Kriterium erfüllt ist.
- Transaktionsmarkierungen αknβn(wj) und βknβn(wj) werden verwendet zum Bestimmen wechselnder Werte für das Transaktionsrating τ(wj) für jede Page, wobei:
- Das Transaktionsrating τ(wi) ist ein skalarer Wert, welcher die p-Norm entweder des Vektors αn(wi) und βn(wi) ist. "n" ist die Zahl von Kriterien, welche verwendet werden beim Bewerten jeder Site wi. Generell gilt p = 2, so dass kein einzelnes gewichtetes Kriterium das andere dominiert. Jedoch kann p geändert werden, um den dominantesten Kriterium mehr Gewicht zu geben, falls erwünscht. Jede Formel (1) oder (2) kann abwechselnd verwendet werden zum Bestimmen des Transaktionsrating. Formel (2) reflektiert den Grad, zu welchem individuelle Kriterien erfüllt sind.
- Die Schritte zum Ableiten der Propagationsmatrix sind generell dargestellt in Fig. 4 als Bezugszeichen 18. Die Schritte umfassen ein Erzeugen einer Hyperlink-Konnektivitätsmatrix 42, ein Berechnen von Übergangszählungen und Page-Views, 44, und ein Erzeugen einer Propagationsmatrix 46. Eine Hyperlink- Konnektivitätsmatrix ist eine Weise zum Darstellen der Linkstruktur des Internet, World Wide Web oder eines beliebigen Satzes von Hyperdokumenten und der relativen Wichtigkeit oder Relevanz jeder Page. Bei diesem Ausführungsbeispiel wird die relative Wichtigkeit jeder Page bestimmt durch Prüfen der Anzahl von Links von jeder Page wi zu jeder Page wj, und von jeder wj zu jeder Page wi. Diese Links sind dargestellt in der Hyperlink-Konnektivitätsmatrix. Die Hyperlink-Konnektivitätsmatrix "C" hat "m" Zeilen und "m" Spalten. Die Anzahl von Zeilen und Spalten "m" ist gleich der Anzahl von Pages, wobei eine spezifische Zeile angezeigt wird durch einen Index "i" und eine spezifische Spalte angezeigt wird durch eine Spalte "j". Jedes Element in dieser Matrix Cij enthält einen Wert von "1", wenn und nur wenn eine Page wi ein Link zu einer anderen Page wj aufweist, andernfalls enthält sie eine "0".
- Die Hyperlink-Konnektivitätsmatrix wird dann verwendet zum Berechnen von zwei skalaren Werten, die Authority-Markierung ai und die Hub-Markierung hi für jede Page wi. Generell ist eine Hub eine Page mit vielen ausgehenden Links, und eine Authority ist eine Page mit vielen eingehenden Links. Die Hub- und Authority-Markierungen reflektieren, in welchem Maß eine Page als Referenz dient bzw. auf diese selbst verwiesen wird. Die Werte für die Hub- und Authority-Markierungen werden bestimmt wie folgt:
(3) hi = ΣjCi,j
(4) ai = ΣjCj,i
- Der nächste Schritt beim Bestimmen der Propagationsmatrix ist ein Bestimmen von Übergangszählungen und Page-Views, Block 44. Bei einem Ausführungsbeispiel repräsentiert jede Übergangszählung Ti,j ein tatsächliches Benutzerverhalten im Internet im Hinblick darauf, wie häufig ein Benutzer eine Page wi betrachtet und dann direkt andere Pages wj betrachtet (ohne irgendwelche Zwischen-Pages zu betrachten). Sämtliche Übergangszählungen werden dargestellt in Matrixform, wobei Ti,j jede individuelle Übergangszählung darstellt. Page-Views repräsentieren die Anzahl einer Betrachtung einer Page und stehen in Zusammenhang mit den Übergangszählungen.
(5) νi = ΣjTi,j
- Dann werden die Hyperlink-Konnektivitätsmatrix, Hub- Markierung, Authority-Markierung, Übergangszählungen und Page- Views alle verwendet zum Erzeugen der Propagationsmatrix, Block 46. Die Propagationsmatrix P wird erzeugt unter Verwendung der folgenden Formel:
- Die Funktionen F(hi), G(ai) und H(vi) liefern Gewichtungen für die Hub-Markierungen, Authority-Markierungen und Page-Views. Diese Funktion F(hi), G(ai) und H(vi) sind monoton steigende Skalarfunktionen von nicht-negativen Integerzahlen Hi, ai bzw. vi. Jede dieser Funktion entspricht einer Gewichtungsfunktion, wie eine Stufenfunktion. Beispielsweise:
wobei F' > F". Dies gibt einer Hub-Markierung eine niedrigere Wertigkeit, wenn sie unterhalb eines Schwellenwerts "x" liegt, welcher anzeigt, dass ungenügende Daten akkumuliert wurden. G(ai) und H(vi) werden in einer ähnlichen Weise bestimmt. - Jedoch wird der Schwellenwert von G(ai) ein Wert "in der Y- Achsenrichtung" von ai sein, und der Schwellenwert für H(vi) wird ein Wert "z" von vi sein.
- Die Funktionen f(Ci,jhi), g(Ci,jai) und h(Ti,j,vi) repräsentieren die Beiträge der Links und Übergänge. Jede Funktion ist ein gewichteter Quotient der Argumente davon, außer, wenn der Nenner davon gleich Null ist. Beispielsweise ƒ(Ci,j):
- Die Funktionen g(Ci,j,ai) und h(Ti,j,vi) werden bestimmt in einer ähnlichen Weise.
- Wie dargestellt in Fig. 1, bestimmt der nächste Schritt beim Bestimmen, ob jede Page kommerziell ist, eine kommerzielle Markierung für jede Page 20. Diese Bestimmung beinhaltet nicht nur die Propagationsmatrix P und die Transaktionsrating τ(wi), sondern auch die Spam-Markierung σ(wi), und die Qualitätsmarkierung q(wi). Das Transaktionsrating τ(wi)und die Spam-Markierung σ(wi) bestimmen das Gewicht der verschiedenen Komponenten. Die kommerzielle Markierung wird rekursiv für jede Page wi bestimmt wie folgt:
wobei k'(0) der gewichtete Mittelwert des Transaktionsrating τ(wi), der Spam-Markierung σ(wi) und der Qualitätsmarkierung q(wi) ist und A und B Gewichtungsfaktoren sind, welche das Gewicht bestimmen, das τ(wi) bzw. q(wi) gegeben wird. A und B können ausgewählt werden durch den Suchmaschinenanbieter bzw. Erzeuger. Der Vektor k'(t) hat ein Element k'i(t) für jede geprüfte Page wi. η ist das Propagationsmatrixgewicht und kann ebenfalls festgelegt werden durch den Suchmaschinenanbieter oder Erzeuger. η bestimmt den Grad, zu welchem die Propagationsmatrix sich auswirkt auf die kommerzielle Markierung in den Anfangsiterationen. Das Symbol "t" zeigt eine zunehmende Integerzahl an, welche bei eins beginnt und für jede Iteration um eins zunimmt. Jede Iteration hat das Potential, sämtliche wi zu beeinflussen. Die Iterationen fahren fort für eine vorbestimmte Anzahl von Iterationen "t'" oder bis eine geringe Änderung im Wert der kommerziellen Markierung existiert:
(15) ||k'(t') - k'(t' - 1)|| P ≤ ▵
- p ist der Normwert und ▵ ein Änderungswert der kommerziellen Markierung. Sobald die Differenz von Werten, erhalten aus zwei aufeinanderfolgenden Iterationen, gleich oder kleiner als der Änderungswert der kommerziellen Markierung ist, stoppt die Iteration und die kommerzielle Markierung wird erhalten, 22.
- Sämtliche Pages mit einer kommerziellen Markierung oberhalb oder gleich eines Schwellenwerts der kommerziellen Markierung werden herausgefiltert und umfassen die Spam-inclusiven kommerziellen Pages 22. Obwohl sie häufig betrachtet werden können als ein Teilsatz der kommerziellen Pages, werden die Spam-Pages herausgefiltert aus den Spam-inclusiven Pages 24, um die kommerziellen Pages auszubringen, da Spam-Pages generell unerwünscht sind. Die kommerziellen Pages werden dann platziert in die kommerzielle Kategorie 26. Sobald die kommerziellen Pages und die Spam-Pages aus den Pages herausgefiltert sind, werden die übrigen Pages platziert in die nichtkommerzielle Kategorie. Die nichtkommerzielle Kategorie kann auch die PCC-Pages umfassen.
- Bei einem weiteren Ausführungsbeispiel werden Pages kategorisiert in kommerzielle und nichtkommerzielle Kategorien wie oben beschrieben, jedoch werden Spam-Pages nicht getrennt in eine verschiedene Kategorie. Stattdessen werden die Spam- Pages kategorisiert entweder als kommerzielle oder als nichtkommerzielle Pages in Abhängigkeit von der unterliegenden kommerziellen Markierung, zugewiesen zu dieser Page, und den Schwellenmarkierungen für jede spezifizierte Kategorie. Da Spam-Pages theoretisch entweder kommerziell oder nichtkommerziell sein können und da die Einschließung von Spam-Pages nützlich sein kann für manche Benutzer und/oder in manchen Anwendungen, umfasst dieses Ausführungsbeispiel einen Schritt für die Identifikation und das Herausfiltern von Spam- Pages nicht. Durch Entfernen der Identifikation und des Herausfilterns von Spam-Pages, weist dieses Ausführungsbeispiel eine größere modulare Kompatibilität mit bestehenden Suchmaschinen auf, da viele bestehende Suchmaschinen ausgestattet sind mit ihren eigenen Systemen zur Identifikation und Beseitigung von Spam-Pages. Bei einem anderen Ausführungsbeispiel werden Spam-Pages nicht entfernt aus der kommerziellen Kategorie, da Spam-Pages einen potentiellen Wert haben, beispielsweise als Sales-Leads für eine Zahlung für eine Leistungssuchmaschine.
- Bei einem anderen Ausführungsbeispiel kann eine Kategorisierung von Resulting-Pages kundenangepasst werden durch oder für den Benutzer (einschließlich Verbraucher, Site- Anbieter und Werbende). In der ersten Stufe des Prozesses definiert der Benutzer seine Kategorisierungspräferenzen durch Eingeben dieser Präferenzen über die Benutzerschnittstelle des Systems und anschließendes Verfeinern der Auswahl, bis die gewünschte Kategorisierung erreicht ist. Sowohl die Kategorien selbst als auch die Art, wie die Resulting-Pages kategorisiert werden, können kundenangepasst werden. Das System kann kundenangepasst werden zum Kategorisieren von Resulting-Pages in Kategorien, spezifiziert durch den Benutzer, unter Verwendung der oben beschriebenen Verfahren. In welche Kategorie eine gegebene Resulting-Page kategorisiert wird, kann durchgeführt werden durch Auswählen eines beliebigen der nachfolgenden Einzelverfahren oder in Kombination dieser Verfahren: wie PCC-Pages kategorisiert werden, die Schwellenniveaus, das pro-Normniveau, Parameter A und B in Gleichung (12), die Anzahl von Iterationen t' zum Berechnen der kommerziellen Markierung, des Abweichungswerts ▵ der kommerziellen Markierung, die Kriterien, verwendet zum Bestimmen, welche Resulting-Pages kommerzielle oder PCC-Pages sind, und wie viel Gewicht jedem Kriterium zu verleihen ist, die Kriterien, verwendet zum Bestimmen der Transaktionsmarkierung, und Transaktionsmarkierungsformel, verwendet zum Bestimmen des Transaktionsratings (die "Kategorisierungskriterien").
- Die Kategorisierungskriterien können alle so gewählt werden, dass Resulting-Pages kategorisiert und dargestellt werden in einer Vielzahl von Weisen, um die Präferenzen des Benutzers zu befriedigen. Generell können die Kategorisierungskriterien empirisch gewählt werden durch manuelles Versehen des Systems 200 mit vorgewählten Pages und Prüfen der Kategorien, in welche die vorausgewählten Pages kategorisiert werden, und anschließendes Einstellen der Kategorisierungskriterien, um das System abzustimmen, bis die gewünschten Kategorisierungen erreicht werden. Beispielsweise versieht der Benutzer, wie dargestellt in Fig. 5A, das System 200 mit vorausgewählten Pages, für welche der Benutzer die Kategorien kennt, in welche die Pages platziert werden sollten, 210. Der Benutzer gibt dann die Benutzerpräferenzen im Hinblick auf die Kategorien ein, in welche die Pages zu kategorisieren sind, und das Format, in welchem die kategorisierten Ergebnisse angezeigt werden sollten, 212. Der Benutzer legt dann die Kategorisierungskriterien fest, 214. Das System kategorisiert und stellt dann die kategorisierten Ergebnisse dem Benutzer dar, 216. Der Benutzer bestimmt dann, ob das System die vorgewählten Pages in die gewünschten Kategorien kategorisiert hat, 218. Wenn die vorgewählten Pages nicht kategorisiert sind in die gewünschten Kategorien, kann jede beliebige oder eine Kombination der Kategorisierungskriterien geändert und im System festgelegt werden, 214. Die Schritte 214, 216 und 218 können wiederholt werden, bis die gewünschte Kategorisierung erreicht ist.
- In Schritt 212 kann der Benutzer Präferenzen für die Weise festlegen, in welcher die kategorisierten Ergebnisse angezeigt werden. Die Ergebnisse, erhalten aus einem Kategorisieren der Resulting-Pages, können angezeigt werden in einer Vielzahl von Weisen. Beispielsweise kann der Benutzer spezifizieren, dass nur Resulting-Pages, welche übereinstimmen mit einer Schlüsselwortsuche, zu kategorisieren sind und darzustellen sind, oder dass ein spezifischer Typ bzw. eine spezifische Kategorie von Pages immer ausgeschlossen werden, beispielsweise pornographische Werbung oder Schuldenentlastungs- bzw. Kreditwerbungen. Außerdem oder alternativ kann der Benutzer die kategorisierten Pages betrachten, welche enthalten sind in bestimmten Kategorien, in einer Vielzahl von Weisen, einschließlich eines Anzeigens durch eine Kategorie oder nur eines Anzeigens bestimmter Kategorien, während andere nicht angezeigt werden. Außerdem oder zusätzlich kann der Benutzer die Reihenfolge spezifizieren, in welcher die kategorisierten Pages anzuzeigen sind. Beispielsweise können die kategorisierten Pages angezeigt werden durch eine Kategorie, wobei eine bevorzugte Kategorie zuerst erscheint. Außerdem oder alternativ können auch Zwischenwerte, wie etwa die Transaktionsmarkierung, das Transaktionsrating, die Hyperlink-Konnektivitätsmatrix, die Propagationsmatrix, die Transaktions-Authority und Hub- Markierungen, die kommerziellen Markierungen, Spam- und Qualitätsmarkierungen, angezeigt werden. Zusätzlich oder alternativ können Benutzer auch anfordern, dass der Ankertext der Links geprüft wird. Wenn der Ankertext die Schlüsselwörter enthält, werden die Pages, welche eine beliebige Anzahl der Schlüsselwörter enthalten, mit einer höheren Gewichtung versehen als die Links, welche keine der Schlüsselwörter enthalten. Alternativ können Links, welche eine größere Anzahl von Schlüsselwörtern enthalten, mit einer höheren Gewichtung versehen werden als jene mit einer niedrigeren Anzahl. Eine Kundenanpassung der Anzeige von kategorisierten Pages kann durchgeführt werden unter Verwendung bekannter Anzeige- und Darstellungstechniken.
- Sobald der Benutzer die Kategorien, die Kategorisierungskriterien und die Anzeigepräferenzen spezifiziert hat, kann eine Suche 250 durchgeführt werden. Wie dargestellt in Fig. 6, beginnt eine Suche 250, wenn ein Benutzer einen Suchbegriff oder eine Suchphrase in das System unter Verwendung einer Benutzerschnittstelle 260 eingibt. Das System erzeugt dann die Resulting-Pages gemäß einem beliebigen von einer Vielzahl bekannter Relevanzverfahren, einschließlich einer Rückgabe von Resulting-Pages, welche ein Schlüsselwort oder die Schlüsselwörter enthalten, die mit dem Suchbegriff bzw. der Suchphrase übereinstimmen (die Suchergebnisse) 262. Das System kategorisiert dann die Suchergebnisse in Kategorien, welche spezifiziert wurden durch den Benutzer, so dass die Kategorisierungskriterien, spezifiziert durch den Benutzer, erfüllt sind, 264. Das System stellt dann die kategorisierten Pages gemäß den Darstellungspräferenzen des Benutzers dargestellt, 266.
- Bei einem weiteren Ausführungsbeispiel können die kommerziellen Pages verwendet werden zum Erzeugen von Sales- Leads. Unter Verwendung der URLs der Commercial Pages können Kontaktinformationen für die Firmen, welche die Commercial Pages hosten, erhalten werden aus einem Domänennameneintrag. Die Liste von Firmen und ihrer Kontaktinformationen können dann kompiliert werden, um eine Liste von Sales-Leads zu erzeugen. Wie dargestellt in Fig. 7, umfasst ein System 270 zum Kategorisieren der Resulting-Pages generell die zwei folgenden Schritte: (a) Annehmen, dass jede Resulting-Page von nichtkommerzieller Natur ist, 272; (b) Identifizieren und Herausfiltern der Pages, welche von kommerzieller Natur sind, in eine erste Kategorie, 274; (c) Identifizieren und Herausfiltern existierender Werber-Kunden-Pages von den Pages in der ersten Kategorie, 276; (d) Sammeln von Kontaktinformationen für die übrigen Pages ("Lead-Pages"), 278; und (e) Liefern der Lead-Pages und ihrer dazugehörigen Kontaktinformationen als Sales-Leads, 280, beispielsweise zu einem Anbieter einer nach Leistung zahlbaren Suchmaschine oder einer beliebigen anderen interessierten Partei.
- Bei einem anderen Ausführungsbeispiel wird Werbenden die Gelegenheit geboten zu zahlen, um ihre Listen in bestimmte Kategorien aufzunehmen oder aus diesen auszuschließen, unter Verwendung der in US-Patent Nr. 6 269 361 beschriebenen Techniken, welche durch Verweis hierin enthalten ist. Die Gebühr, gezahlt durch die Werbenden, kann eine Funktion von der Hervorhebung sein, welche ihren Listen in einer ausgewählten Kategorie gegeben wird. In einem weiteren Ausführungsbeispiel werden nur Pages, für welche eine Gebühr bezahlt wurde, erscheinen in der kommerziellen Kategorie (oder einer anderen bezeichneten Kategorie). Bei einem Ausführungsbeispiel kann ein kundenanpassbares System zum Kategorisieren und Darstellen der Sätze oder der Ergebnisse einer Suche der Sätze in einer verteilten Datenbank konfiguriert werden als ein Kontenverwaltungsserver oder ein Suchmaschinenserver, verknüpft mit einer Datenbanksuchvorrichtung, wie etwa der im US-Patent Nr. 6 269 361 beschriebene Typ. Die hier beschriebenen Funktionen, welche dargestellt sind in Fig. 1 bis 8, können in einer beliebigen geeigneten Weise realisiert werden.
- Eine Realisierung ist eine computerlesbare Quelle oder ein Objektcode, welcher einen Prozessor eines Servers oder eine andere Rechenvorrichtung steuert, um die beschriebenen Funktionen durchzuführen. Der computerlesbare Code kann realisiert sein als ein Artikel mit einem computerlesbaren Signal-tragenden Medium. In einem Ausführungsbeispiel ist das Medium ein beschreibbares Datenspeichermedium, wie etwa eine Floppydisk oder eine Festplatte eines Computers bzw. ein nichtflüchtiger Typ eines Halbleiterspeichers. Bei einem anderen Ausführungsbeispiel ist das Medium ein moduliertes Trägersignal, wie etwa Daten, gelesen über ein Netzwerk, wie etwa das Internet. Das Medium umfasst eine Einrichtung im Medium zum Bestimmen, ob eine Page von Transaktionsnatur ist, eine Einrichtung im Medium zum Ableiten einer Propagationsmatrix für die Page und eine Einrichtung im Medium zum Definieren einer kommerziellen Markierung als eine Funktion der Propagationsmatrix für die Page. Die verschiedenen Einrichtungen können realisiert sein als ein Computerquellcode, ein computerlesbarer Objektcode oder eine beliebige andere geeignete Vorrichtung zum Steuern einer Verarbeitungsvorrichtung, um die beschriebene Funktion durchzuführen.
- Ein anderes Ausführungsbeispiel der vorliegenden Erfindung bildet eine Vorrichtung zum Kategorisieren und Darstellen der Sätze oder der Ergebnisse einer Suche der Sätze in einer verteilten Datenbank über eine in Fig. 8 dargestellte verteilte Client-Server-Architektur. Diese Suchmaschine und Datenbank 100, dargestellt in Fig. 8, umfasst generell eine Rechenvorrichtung 110, 114, 118, 120, Speichervorrichtungen 112 und 116, einen Server 124 und eine Schnittstelle 122. Die Rechenvorrichtungen 110, 114, 118, 120 können beliebige Prozessoren umfassen, welche Rechenoperationen ausführen können. Der Crawler 110 ist eine Rechenvorrichtung, welche verbunden ist mit dem Internet über ein Netzwerk, und zu jeder Page geht und eine Kopie der Page erstellt (die "Resulting- Page"), einschließlich des statischen und/oder dynamischen Inhalts, ob Text, Bild, Audio, Video oder stehende Bilder, und die Kopie im Internet-Cache 112 speichert. Alternativ wird lediglich eine diskrete Anzahl von Abschnitten von jeder Resulting-Page, wie etwa die URL und/oder Titel kopiert und gespeichert im Internet-Cache 112. Dann vollführt der Indizierer 114 eine Zuweisung jeder Resulting-Page-Kopie bzw. eines Abschnitts davon, einer Adresse im Internet-Cache 112 durch (die "Internet-Cache-Adresse"). Der Indizierer generiert ferner Suchbegriffe für jede Resulting-Page und speichert diese Suchbegriffe mit der dazugehörigen Internet-Cache- Adresse im Internet-Index 116. Der Internet-Cache und der Internet-Index würden etwa 30 terabyte bzw. 5 terabyte verwenden, die derzeitige Größe des Internet vorausgesetzt.
- Der Transaktionsmarkierungsgenerator 118 verwendet die Information, enthalten in den Kopien jeder Resulting-Page (bzw. Abschnitten davon), gespeichert im Internet-Cache 112, um die Transaktionsmarkierungen zu generieren. Diese Transaktionsmarkierungen werden dann gespeichert im Internet- Cache 112 mit ihren dazugehörigen Resulting-Internet-Pages. Der Kategoriezuweiser 120 verwendet die Transaktionsmarkierungen und andere Informationen, gespeichert im Internet-Cache 112, zum Generieren der Propagationsmatrix und Durchführen einer Zuweisung einer Kategorie zu jeder Resulting-Page. Die Transaktionsmarkierungen, kommerzielle Markierungen, Qualitätsmarkierungen, Spam-Markierungen und Kategorien für jede Page werden gespeichert im Internet-Cache 112 mit ihren dazugehörigen Pages. Die kundenanpassbaren Schwellenwerte p, der Normparameter p, die kommerziellen Markierungsänderungswerte Δ etc. können gespeichert werden auf der Client- oder Serverseite des Systems wie Fachleuten auf diesem Gebiet bekannt. Ein Suchserver 124 ist verbunden mit dem Internet-Index 116 und dem Internet-Cache 112 und ermöglicht der Vorrichtung eine Verbindung mit den Benutzern über die Benutzerschnittstelle 122 des Systems. Die Benutzerschnittstelle 122 des Systems kann ein Browser sein, oder sie kann eine Agent- oder Applikationssoftware sein.
- Ein Benutzer, welcher das Internet durchsuchen will, kann die Benutzerschnittstelle 122 des Systems verwenden für eine Verbindung mit dem Suchserver 124 über das Internet. Wenn die Benutzerschnittstelle 122 des Systems jedoch ein Browser ist, sendet sie die Suchanfrage des Benutzers zu dem Suchserver 124 über das Internet. Alternativ sendet, wenn die Benutzerschnittstelle 122 eine Agentsoftware ist, der Agent eine automatische Suchanfrage über das Internet. Außerdem kann die Benutzerschnittstelle 122 sowohl einen Browser als auch eine Agentsoftware umfassen und eine automatische Suchanfrage zum Suchserver 124 über das Internet senden. Der Suchserver 124 verwendet dann den Internet-Index 116 zum Bestimmen, welche Resulting-Pages verknüpft sind mit den Suchbegriffen des Benutzers. Diese Resulting-Pages werden dann aufgefunden aus dem Internet-Cache 112 und dem Benutzer dargestellt über die Benutzerschnittstelle 122 in der durch den Benutzer spezifizierten Weise.
- Aus dem Vorhergehenden ist ersichtlich, dass die vorliegend offenbarten Ausführungsbeispiele ein Verfahren und eine Vorrichtung zum Kategorisieren und Darstellen ausgewählter Elemente einer gewünschten Datenbank liefert. Weitere Vorteile umfassen ein Versorgen von Werbern, Suchdienstanbietern und Benutzern mit einer Suchmaschine und einer Datenbank, welche die kundenangepasste Kategorisierung von Suchergebnissen ermöglicht, und ein Liefern eines Verfahrens und einer Vorrichtung zum Filtern von Suchergebnissen, so dass nur eine gewünschte Kategorie oder gewünschte Kategorien von Suchergebnissen zurückgegeben bzw. angezeigt werden.
- Weitere Vorteile der vorliegend offenbarten Ausführungsbeispiele umfassen ein Liefern für Benutzer, Werbende, Such-Site-Anbieter und Suchmaschinenanbieter ein Verfahren zur Kundenanpassung von Suchen, um Suchergebnisse zu suchen und/oder anzuzeigen gemäß einer Kategorie oder gemäß Kriterien, und ein Versorgen von Werbenden mit einem Verfahren zum Steuern mit andere Links, wobei eine Kategorisierung und eine Anzeige von Produkten und/oder Diensten von Werbenden erfolgt. Ferner offenbaren die vorliegenden Ausführungsbeispiele ein Liefern eines Verfahrens zum Identifizieren der Natur einer Site und Liefern einer Suchmaschine, welche fähig ist zur Kategorisierung von Suchergebnissen, sowie ein Liefern einer Suchmaschine, welche kundenanpassbar durch Benutzer und Werbende ist.
- Obwohl die Erfindung beschrieben wurde im Hinblick auf spezifische Ausführungsbeispiele und Anwendungen, können Fachleute auf diesem Gebiet im Lichte dieser Offenbarung zusätzliche Ausführungsbeispiele ohne Überschreiten des Umfangs bzw. Abweichen von dem Wesen der beanspruchten Erfindung erzeugen. Beispielsweise können das System und die Verfahren, welche hier dargelegt sind, nicht nur auf Datenbanken angewandt werden, auf welche über das Internet zugegriffen wird, sondern auch auf eine beliebige verteilte Datenbank. Ferner existiert eine große Vielzahl von Kategorien, in welche die Pages oder Dokumente platziert werden können, sowie in den Kriterien, welche verwendet werden, um diese dort zu platzieren. Dementsprechend ist es selbstverständlich, dass die Zeichnungen und die Beschreibungen in dieser Offenbarung lediglich dazu dienen, das Verständnis für die Erfindung zu erleichtern, und nicht als den Umfang der Erfindung einschränkend betrachten werden sollten. Bezugszeichenliste
Claims (39)
1. Suchmaschine und Datenbank für eine verteilte Datenbank,
umfassend:
mindestens eine Speichervorrichtung, umfassend
mindestens ein Internet-Cache; und
einen Internet-Index;
eine Rechenvorrichtung, umfassend:
einen Crawler in Kommunikation mit dem Internet- Cache und einem Internet;
einen Indizierer in Kommunikation mit dem Internet- Index und dem mindestens einen Internet-Cache;
einen Transaktionsmarkierungsgenerator in Kommunikation mit dem Internet-Cache; und
einen Kategoriezuweiser in Kommunikation mit dem Internet-Cache;
einen Suchserver in Kommunikation mit dem Internet- Cache, der Internet-Index; und
eine Benutzerschnittstelle in Kommunikation mit dem Suchserver.
mindestens eine Speichervorrichtung, umfassend
mindestens ein Internet-Cache; und
einen Internet-Index;
eine Rechenvorrichtung, umfassend:
einen Crawler in Kommunikation mit dem Internet- Cache und einem Internet;
einen Indizierer in Kommunikation mit dem Internet- Index und dem mindestens einen Internet-Cache;
einen Transaktionsmarkierungsgenerator in Kommunikation mit dem Internet-Cache; und
einen Kategoriezuweiser in Kommunikation mit dem Internet-Cache;
einen Suchserver in Kommunikation mit dem Internet- Cache, der Internet-Index; und
eine Benutzerschnittstelle in Kommunikation mit dem Suchserver.
2. Suchmaschine und Datenbank für eine verteilte Datenbank
nach Anspruch 1, wobei der Internet-Cache mindestens etwa
30 terabyte hat.
3. Suchmaschine und Datenbank für eine verteilte Datenbank
nach Anspruch 1, wobei der Internet-Index mindestens etwa
5 terabyte hat.
4. Verfahren zum Durchsuchen einer verteilten Datenbank,
umfassend:
a) Eingeben von Suchbegriffen oder Phrasen in ein
System;
b) Generieren von Dokumenten mit Schlüsselwörtern,
welche mit den Suchbegriffen bzw. Phrasen übereinstimmen;
c) Kategorisieren von Suchergebnissen in Kategorien
gemäß Kategorisierungskriterien zum Erzeugen von
kategorisierten Dokumenten; und
d) Darstellen der kategorisierten Dokumente.
5. Verfahren zum Durchsuchen einer verteilten Datenbank nach
Anspruch 4, wobei Kategorisierungskriterien ausgewählt
werden durch einen Benutzer.
6. Verfahren zum Durchsuchen einer verteilten Datenbank nach
Anspruch 5, wobei die Kategorien ausgewählt werden durch
einen Benutzer.
7. Verfahren zum Durchsuchen einer verteilten Datenbank nach
Anspruch 6, wobei Kategorisierungskriterien ausgewählt
werden unter Verwendung von Schritten, umfassend:
manuelles Versehen des Systems mit vorausgewählten Dokumenten; und
Wiederholen der Schritte von Anspruch 4, während die Kategorisierungskriterien von Schritt (b) während jeder Iteration geändert werden, bis die kategorisierten Dokumente kategorisiert sind in die Kategorien, wie annähernd beschrieben.
manuelles Versehen des Systems mit vorausgewählten Dokumenten; und
Wiederholen der Schritte von Anspruch 4, während die Kategorisierungskriterien von Schritt (b) während jeder Iteration geändert werden, bis die kategorisierten Dokumente kategorisiert sind in die Kategorien, wie annähernd beschrieben.
8. Verfahren zum Durchsuchen einer verteilten Datenbank nach
Anspruch 4, ferner umfassend ein Auswählen von
Anzeigepräferenzen, wobei die Anzeigepräferenzen
durchführen, wie die kategorisierten Dokumente
dargestellt werden in Schritt (d).
9. Verfahren zum Erzeugen von Dokumenten in einer verteilten
Datenbank, um kategorisierte Dokumente zu erzeugen, wobei
das Verfahren umfasst:
Anfängliches Annehmen, dass sämtliche Dokumente vom Typ 1 sind;
Herausfiltern sämtlicher Dokumente des Typs 2 und Platzieren dieser in einer ersten Kategorie;
Herausfiltern sämtlicher Dokumente des Typs 3 und Platzieren dieser in einer zweiten Kategorie; und
Definieren sämtlicher übriger Dokumente als Dokumente des Typs 4 und Platzieren sämtlicher Dokumente des Typs 4 in einer dritten Kategorie.
Anfängliches Annehmen, dass sämtliche Dokumente vom Typ 1 sind;
Herausfiltern sämtlicher Dokumente des Typs 2 und Platzieren dieser in einer ersten Kategorie;
Herausfiltern sämtlicher Dokumente des Typs 3 und Platzieren dieser in einer zweiten Kategorie; und
Definieren sämtlicher übriger Dokumente als Dokumente des Typs 4 und Platzieren sämtlicher Dokumente des Typs 4 in einer dritten Kategorie.
10. Verfahren zum Erzeugen von Dokumenten in einer verteilten
Datenbank nach Anspruch 9, wobei die Dokumente Pages sind
und die verteilte Datenbank das Internet ist.
11. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien, umfassend:
Bezeichnen einer ersten Kategorie als kommerzielle Pages und einer zweiten Kategorie als informative Pages;
Bestimmen einer Qualitätsmarkierung q(wi) für jede Resulting-Page;
Bestimmen eines Transaktionsrating für jede Resulting- Page τ(wi);
Ableiten einer Propagationsmatrix P;
Bestimmen einer kommerziellen Markierung k für jede Resulting-Page;
Herausfiltern sämtlicher Resulting-Pages, welche mit einem Schwellenwert der kommerziellen Markierung übereinstimmen bzw. diesen überschreiten;
wobei die Resulting-Pages, welche mit dem Schwellenwert der kommerziellen Page übereinstimmen bzw. diesen überschreiten, platziert werden in der ersten Kategorie und alle übrigen Resulting-Pages platziert werden in der zweiten Kategorie.
Bezeichnen einer ersten Kategorie als kommerzielle Pages und einer zweiten Kategorie als informative Pages;
Bestimmen einer Qualitätsmarkierung q(wi) für jede Resulting-Page;
Bestimmen eines Transaktionsrating für jede Resulting- Page τ(wi);
Ableiten einer Propagationsmatrix P;
Bestimmen einer kommerziellen Markierung k für jede Resulting-Page;
Herausfiltern sämtlicher Resulting-Pages, welche mit einem Schwellenwert der kommerziellen Markierung übereinstimmen bzw. diesen überschreiten;
wobei die Resulting-Pages, welche mit dem Schwellenwert der kommerziellen Page übereinstimmen bzw. diesen überschreiten, platziert werden in der ersten Kategorie und alle übrigen Resulting-Pages platziert werden in der zweiten Kategorie.
12. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 11, wobei ein Bestimmen der
Qualitätsmarkierung für jede Resulting-Page ein Bewerten
einer Teilmenge von Resulting-Pages gegen eine
ausgewählte Gruppe von Kriterien umfasst.
13. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 12, wobei die Auswahlkriterien
eine Kombination aus dem Folgenden umfassen können:
Qualität des Inhalts, Reputation eines Autors bzw. einer
Quelle und Benutzerfreundlichkeit.
14. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 12, wobei ein Standardwert
Resulting-Pages zugewiesen wird, welche nicht enthalten
sind in der Teilmenge von Resulting-Pages.
15. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 11, wobei ein Bestimmen des
Transaktionsrating τ(wi) umfasst:
Bestimmen, ob jede Resulting-Page Auswahlkriterien erfüllt;
Bestimmen, wie stark jede Resulting-Page die Auswahlkriterien erfüllt;
Bestimmen einer Transaktionsmarkierung für jede Page; und
Bestimmen des Transaktionsrating für jede Page von der Transaktionsmarkierung.
Bestimmen, ob jede Resulting-Page Auswahlkriterien erfüllt;
Bestimmen, wie stark jede Resulting-Page die Auswahlkriterien erfüllt;
Bestimmen einer Transaktionsmarkierung für jede Page; und
Bestimmen des Transaktionsrating für jede Page von der Transaktionsmarkierung.
16. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 15, wobei ein Bestimmen, wie
stark jede Resulting-Page die Auswahlkriterien erfüllt,
ein Bewerten jeder Resulting-Page im Hinblick auf die
Auswahlkriterien und ein Zuweisen jeder Resulting-Page
entweder eines Boolschen oder eines gewichteten Werts,
welcher reflektiert, wie stark jede der Resulting-Pages
jede der Auswahlkriterien erfüllt, erfolgt.
17. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 15, wobei ein Bestimmen einer
Transaktionsmarkierung für jede Page ein Erzeugen eines
Vektors für jede Resulting-Page ak(wi) umfasst, wobei
jeder Vektor eine Vielzahl von Elementen akn(wi) enthält,
wobei jedes der Vielzahl von Elementen akn(wi) ein
Boolscher Wert ist, welcher reflektiert, wie stark jede
der Resulting-Pages jedes der Auswahlkriterien erfüllt.
18. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 15, wobei ein Bestimmen einer
Transaktionsmarkierung für jede Page ein Erzeugen eines
Vektors für jede Resulting-Page βk(wi) umfasst, wobei
jeder Vektor eine Vielzahl von Elementen βkn(wi) enthält,
wobei jedes der Vielzahl von Elementen βkn(wi) ein
gewichteter Wert ist, welcher reflektiert, wie stark jede
der Resulting-Pages jedes der Auswahlkriterien erfüllt.
19. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 15, wobei ein Bestimmen eines
Transaktionsrating τ(wi) für jede Page von der
Transaktionsmarkierung ein Bewerten einer Beziehung
zwischen dem Transaktionsrating τ(wi) und einer p-Norm
eines Vektors für jede Resulting-Page ak(wi) umfasst,
wobei die Beziehung definiert ist durch
20. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 19, wobei p = 2 ist.
21. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 15, wobei ein Bestimmen des
Transaktionsrating τ(wi) für jede Page von der
Transaktionsmarkierung ein Bewerten einer Beziehung
zwischen dem Transaktionsrating τ(wi) und einer p-Norm
eines Vektors für jede Resulting-Page βk(wi) umfasst,
wobei die Beziehung definiert ist durch
22. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 21, wobei p = 2 ist.
23. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 11, wobei ein Ableiten einer
Propagationsmatrix umfasst;
Erzeugen einer Hyperlink-Konnektivitätsmatrix C mit Elementen Ci,j,
Berechnen einer Vielzahl von Authority-Markierungen ai und einer Vielzahl von Hub-Markierungen hi;
Berechnen einer Vielzahl von Überganszählungen Ti,j und einer Vielzahl von Page-Views vi für jede Resulting-Page; und
Erzeugen der Propagationsmatrix P mit Propagationsmatrixelementen Pi,j.
Erzeugen einer Hyperlink-Konnektivitätsmatrix C mit Elementen Ci,j,
Berechnen einer Vielzahl von Authority-Markierungen ai und einer Vielzahl von Hub-Markierungen hi;
Berechnen einer Vielzahl von Überganszählungen Ti,j und einer Vielzahl von Page-Views vi für jede Resulting-Page; und
Erzeugen der Propagationsmatrix P mit Propagationsmatrixelementen Pi,j.
24. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 23, wobei ein Erzeugen einer
Hyperlink-Konnektivitätsmatrix C umfasst: Darstellen
einer Link-Struktur des Internet in einer Matrix.
25. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 24, wobei die Link-Struktur im
Falle des Internet dargestellt wird durch Prüfen einer
Anzahl von Links von jeder Resulting-Page zu jeder
Resulting-Page.
26. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 23, wobei die Vielzahl von Hub-
Markierungen hi und die Vielzahl von Authority-
Markierungen in Zusammenhang stehen mit der Hyperlink-
Konnektivitätsmatrix C, und wobei die Vielzahl von
Authority-Markierungen ai definiert ist als: ai = ΣjCj,i,
und wobei die Vielzahl von Hub-Markierungen definiert ist
als: hi = ΣjCi,j.
27. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 23, wobei die Vielzahl von Page-
Views vi in Zusammenhang steht mit der Vielzahl von
Übergangszählungen ti,j und definiert ist durch: vi =
ΣjTj,i.
28. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 27, wobei die Propagationsmatrix
eine Funktion der Hyperlink-Konnektivitätsmatrix, der
Vielzahl von Hub-Markierungen, der Vielzahl von
Authority-Markierungen, der Vielzahl von
Übergangszählungen und der Vielzahl von Page-Views ist.
29. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 27, wobei ein Berechnen der
Propagationsmatrix ferner ein Gewichten der Vielzahl von
Hub-Markierungen, der Vielzahl von Authority-Markierungen
und der Vielzahl von Page-Views umfasst.
30. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 27, wobei die Propagationsmatrix
P ferner eine Funktion von Gewichtungsfunktionen F(hi),
G(ai) und H(vi) ist, und wobei die Propagationsmatrix P
definiert ist als:
31. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 30, wobei jede der
Gewichtungsfunktionen eine Stufenfunktion umfasst.
32. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 31, wobei die kommerzielle
Markierung k für jede Resulting-Page wi rekursiv bestimmt
wird.
33. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 32, wobei die kommerzielle
Markierung k rekursiv bestimmt wird über t-Iterationen
von einer Transversalen der Propagationsmatrix PT, eines
Propagationsmatrixgewichts η und eines Anfangswerts k'
(0) der kommerziellen Markierung, wobei k'(0) gewichtet
wird durch Auswahlmengen A und B und definiert ist als:
und eine frühere Iteration der kommerziellen Markierung k'(t), wobei k'(t) definiert ist als: k'(t) = hPTk'(t - 1) + (1 - η)k'(0), und wobei k = k'(t') ist.
und eine frühere Iteration der kommerziellen Markierung k'(t), wobei k'(t) definiert ist als: k'(t) = hPTk'(t - 1) + (1 - η)k'(0), und wobei k = k'(t') ist.
34. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien nach Anspruch 11,
ferner umfassend ein Bezeichnen einer dritten Kategorie als Spam-Pages;
und Bestimmen einer Spam-Markierung σ(wi) für jede Resulting-Page;
wobei ein Bestimmen der kommerziellen Markierung k für jede Resulting-Page rekursiv bestimmt wird über t- Iterationen von einer Transversalen der Propagationsmatrix PT, eines Propagationsmatrixgewichts η und eines Anfangswerts k'(0) der kommerziellen Markierung, wobei k'(0) gewichtet wird durch Auswahlmengen A und B und definiert ist als:
und eine frühere Iteration der kommerziellen Markierung k'(t), wobei k'(t) definiert ist als:
k'(t) = ηPTk'(t - 1) + (1 - η)k'(0), und wobei k = k'(t').
ferner umfassend ein Bezeichnen einer dritten Kategorie als Spam-Pages;
und Bestimmen einer Spam-Markierung σ(wi) für jede Resulting-Page;
wobei ein Bestimmen der kommerziellen Markierung k für jede Resulting-Page rekursiv bestimmt wird über t- Iterationen von einer Transversalen der Propagationsmatrix PT, eines Propagationsmatrixgewichts η und eines Anfangswerts k'(0) der kommerziellen Markierung, wobei k'(0) gewichtet wird durch Auswahlmengen A und B und definiert ist als:
und eine frühere Iteration der kommerziellen Markierung k'(t), wobei k'(t) definiert ist als:
k'(t) = ηPTk'(t - 1) + (1 - η)k'(0), und wobei k = k'(t').
35. Verfahren zum Kategorisieren von Resulting-Pages in
Kategorien, umfassend:
Bestimmen, ob jede der Vielzahl von Resulting-Pages eine Spam-Page ist;
Bestimmen einer Qualitätsmarkierung q(wi) für jede der Vielzahl von Resulting-Pages;
Bestimmen eines Transaktionsrating τ(wi) für jede der Vielzahl von Resulting-Pages;
Ableiten einer Propagationsmatrix P;
Bestimmen einer kommerziellen Markierung k für jede der Vielzahl von Resulting-Pages;
Herausfiltern sämtlicher Spam-inclusiver kommerzieller Pages aus der Vielzahl von Resulting-Pages;
Herausfiltern von Spam-Pages aus den Spam-inclusiven kommerziellen Pages;
Platzieren sämtlicher kommerzieller Pages in einer kommerziellen Kategorie; und
Platzieren sämtlicher übriger Resulting-Pages in eine informative Kategorie.
Bestimmen, ob jede der Vielzahl von Resulting-Pages eine Spam-Page ist;
Bestimmen einer Qualitätsmarkierung q(wi) für jede der Vielzahl von Resulting-Pages;
Bestimmen eines Transaktionsrating τ(wi) für jede der Vielzahl von Resulting-Pages;
Ableiten einer Propagationsmatrix P;
Bestimmen einer kommerziellen Markierung k für jede der Vielzahl von Resulting-Pages;
Herausfiltern sämtlicher Spam-inclusiver kommerzieller Pages aus der Vielzahl von Resulting-Pages;
Herausfiltern von Spam-Pages aus den Spam-inclusiven kommerziellen Pages;
Platzieren sämtlicher kommerzieller Pages in einer kommerziellen Kategorie; und
Platzieren sämtlicher übriger Resulting-Pages in eine informative Kategorie.
36. Verfahren zum Kategorisieren von Dokumenten in einer
verteilten Datenbank, umfassend:
Annehmen, dass sämtliche Dokumente in der verteilten Datenbank von nichtkommerzieller Natur sind;
Herausfiltern sämtlicher Dokumente, welche von kommerzieller Natur sind, aus den Dokumenten, wobei die Dokumente, welche von kommerzieller Natur sind, kommerzielle Dokumente sind; und
Erzeugen von Sales-Leads aus den kommerziellen Dokumenten.
Annehmen, dass sämtliche Dokumente in der verteilten Datenbank von nichtkommerzieller Natur sind;
Herausfiltern sämtlicher Dokumente, welche von kommerzieller Natur sind, aus den Dokumenten, wobei die Dokumente, welche von kommerzieller Natur sind, kommerzielle Dokumente sind; und
Erzeugen von Sales-Leads aus den kommerziellen Dokumenten.
37. Verfahren zum Kategorisieren von Dokumenten in einer
verteilten Datenbank nach Anspruch 36, wobei ein
Herausfiltern sämtlicher kommerzieller Dokumente ein
Platzieren sämtlicher kommerzieller Dokumente in eine
erste Kategorie umfasst.
38. Verfahren zum Kategorisieren von Dokumenten in einer
verteilten Datenbank nach Anspruch 37, ferner umfassend
nach einem Platzieren sämtlicher Dokumente, welche von
kommerzieller Natur sind, in eine erste Kategorie, ein
Herausfiltern existierender Werber-Kunden-Pages aus den
kommerziellen Pages in der ersten Kategorie, wobei die
kommerziellen Pages, welche in der ersten Kategorie
bleiben, Lead-Pages sind.
39. Verfahren zum Kategorisieren von Dokumenten in einer
verteilten Datenbank nach Anspruch 37, wobei ein Erzeugen
von Sales-Leads aus den kommerziellen Dokumenten ein
Erzeugen von Sales-Leads aus den Lead-Pages umfasst,
wobei ein Erzeugen von Leads aus den Lead-Pages umfasst:
Sammeln von Kontaktinformationen für die Lead-Pages; und
Liefern einer Liste von Lead-Pages und der Kontaktinformationen.
Sammeln von Kontaktinformationen für die Lead-Pages; und
Liefern einer Liste von Lead-Pages und der Kontaktinformationen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/155,290 US7231395B2 (en) | 2002-05-24 | 2002-05-24 | Method and apparatus for categorizing and presenting documents of a distributed database |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10323444A1 true DE10323444A1 (de) | 2003-12-11 |
Family
ID=22554828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10323444A Ceased DE10323444A1 (de) | 2002-05-24 | 2003-05-23 | Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank |
Country Status (10)
Country | Link |
---|---|
US (2) | US7231395B2 (de) |
EP (1) | EP1367509A3 (de) |
JP (1) | JP3905498B2 (de) |
KR (1) | KR100852034B1 (de) |
CN (1) | CN100517304C (de) |
AU (1) | AU2003204327B2 (de) |
CA (1) | CA2429338C (de) |
DE (1) | DE10323444A1 (de) |
FR (1) | FR2840088B1 (de) |
GB (1) | GB2389682A (de) |
Families Citing this family (167)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6269361B1 (en) * | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US6754873B1 (en) * | 1999-09-20 | 2004-06-22 | Google Inc. | Techniques for finding related hyperlinked documents using link-based analysis |
US6625595B1 (en) * | 2000-07-05 | 2003-09-23 | Bellsouth Intellectual Property Corporation | Method and system for selectively presenting database results in an information retrieval system |
US8121937B2 (en) | 2001-03-20 | 2012-02-21 | Goldman Sachs & Co. | Gaming industry risk management clearinghouse |
US8140415B2 (en) * | 2001-03-20 | 2012-03-20 | Goldman Sachs & Co. | Automated global risk management |
US7899722B1 (en) * | 2001-03-20 | 2011-03-01 | Goldman Sachs & Co. | Correspondent bank registry |
US8209246B2 (en) | 2001-03-20 | 2012-06-26 | Goldman, Sachs & Co. | Proprietary risk management clearinghouse |
US20030101191A1 (en) * | 2001-11-28 | 2003-05-29 | Yu-Chwin Lin | Publication of commercial entity information and method for classifying commercial entity information |
US20110264508A1 (en) * | 2002-03-29 | 2011-10-27 | Harik George R | Scoring, modifying scores of, and/or filtering advertisements using advertiser information |
US8260786B2 (en) * | 2002-05-24 | 2012-09-04 | Yahoo! Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US7231395B2 (en) * | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US20040049514A1 (en) * | 2002-09-11 | 2004-03-11 | Sergei Burkov | System and method of searching data utilizing automatic categorization |
AU2003290756A1 (en) * | 2002-11-11 | 2004-06-03 | Transparensee Systems, Inc. | Method and system of searching by correlating the query structure and the data structure |
US8065151B1 (en) | 2002-12-18 | 2011-11-22 | At&T Intellectual Property Ii, L.P. | System and method of automatically building dialog services by exploiting the content and structure of websites |
US7373300B1 (en) | 2002-12-18 | 2008-05-13 | At&T Corp. | System and method of providing a spoken dialog interface to a website |
US7802283B2 (en) * | 2002-12-20 | 2010-09-21 | Shailen V Banker | Linked information system |
US7111000B2 (en) * | 2003-01-06 | 2006-09-19 | Microsoft Corporation | Retrieval of structured documents |
US7792828B2 (en) | 2003-06-25 | 2010-09-07 | Jericho Systems Corporation | Method and system for selecting content items to be presented to a viewer |
US7206780B2 (en) * | 2003-06-27 | 2007-04-17 | Sbc Knowledge Ventures, L.P. | Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values |
US9118812B2 (en) | 2003-08-01 | 2015-08-25 | Advertising.Com Llc | Audience server |
US20050125290A1 (en) * | 2003-08-01 | 2005-06-09 | Gil Beyda | Audience targeting system with profile synchronization |
US9117217B2 (en) | 2003-08-01 | 2015-08-25 | Advertising.Com Llc | Audience targeting with universal profile synchronization |
US8150732B2 (en) * | 2003-08-01 | 2012-04-03 | Tacoda Llc | Audience targeting system with segment management |
US9928522B2 (en) | 2003-08-01 | 2018-03-27 | Oath (Americas) Inc. | Audience matching network with performance factoring and revenue allocation |
US8464290B2 (en) | 2003-08-01 | 2013-06-11 | Tacoda, Inc. | Network for matching an audience with deliverable content |
US7805332B2 (en) * | 2003-08-01 | 2010-09-28 | AOL, Inc. | System and method for segmenting and targeting audience members |
US8554601B1 (en) | 2003-08-22 | 2013-10-08 | Amazon Technologies, Inc. | Managing content based on reputation |
US8046350B1 (en) * | 2003-09-24 | 2011-10-25 | Google Inc. | Systems and methods for detecting commercial queries |
US7783637B2 (en) | 2003-09-30 | 2010-08-24 | Microsoft Corporation | Label system-translation of text and multi-language support at runtime and design |
US7617205B2 (en) | 2005-03-30 | 2009-11-10 | Google Inc. | Estimating confidence for query revision models |
US7715059B2 (en) * | 2003-10-22 | 2010-05-11 | International Business Machines Corporation | Facsimile system, method and program product with junk fax disposal |
US7814101B2 (en) * | 2003-10-30 | 2010-10-12 | Microsoft Corporation | Term database extension for label system |
US7873536B2 (en) * | 2003-12-11 | 2011-01-18 | Google Inc. | Systems and methods for providing advertisements in a communications network |
CN100495392C (zh) * | 2003-12-29 | 2009-06-03 | 西安迪戈科技有限责任公司 | 一种智能搜索方法 |
US8392249B2 (en) * | 2003-12-31 | 2013-03-05 | Google Inc. | Suggesting and/or providing targeting criteria for advertisements |
US7664734B2 (en) * | 2004-03-31 | 2010-02-16 | Google Inc. | Systems and methods for generating multiple implicit search queries |
US8041713B2 (en) * | 2004-03-31 | 2011-10-18 | Google Inc. | Systems and methods for analyzing boilerplate |
US7693825B2 (en) * | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US8631001B2 (en) * | 2004-03-31 | 2014-01-14 | Google Inc. | Systems and methods for weighting a search query result |
US20080040315A1 (en) * | 2004-03-31 | 2008-02-14 | Auerbach David B | Systems and methods for generating a user interface |
US7707142B1 (en) * | 2004-03-31 | 2010-04-27 | Google Inc. | Methods and systems for performing an offline search |
US9009153B2 (en) | 2004-03-31 | 2015-04-14 | Google Inc. | Systems and methods for identifying a named entity |
US7272601B1 (en) * | 2004-03-31 | 2007-09-18 | Google Inc. | Systems and methods for associating a keyword with a user interface area |
US7386572B2 (en) * | 2004-04-14 | 2008-06-10 | Nancy Kramer | System and method for a modular user controlled search engine |
US9223868B2 (en) | 2004-06-28 | 2015-12-29 | Google Inc. | Deriving and using interaction profiles |
US7788274B1 (en) | 2004-06-30 | 2010-08-31 | Google Inc. | Systems and methods for category-based search |
US8131754B1 (en) | 2004-06-30 | 2012-03-06 | Google Inc. | Systems and methods for determining an article association measure |
US8510300B2 (en) | 2004-07-02 | 2013-08-13 | Goldman, Sachs & Co. | Systems and methods for managing information associated with legal, compliance and regulatory risk |
US8762191B2 (en) | 2004-07-02 | 2014-06-24 | Goldman, Sachs & Co. | Systems, methods, apparatus, and schema for storing, managing and retrieving information |
US8442953B2 (en) | 2004-07-02 | 2013-05-14 | Goldman, Sachs & Co. | Method, system, apparatus, program code and means for determining a redundancy of information |
US8996481B2 (en) | 2004-07-02 | 2015-03-31 | Goldman, Sach & Co. | Method, system, apparatus, program code and means for identifying and extracting information |
JP2006048536A (ja) * | 2004-08-06 | 2006-02-16 | Canon Inc | 情報処理装置、文書検索方法、ならびにプログラム、記憶媒体 |
US8799079B2 (en) * | 2004-10-22 | 2014-08-05 | Adknowledge, Inc. | System for prioritizing advertiser communications over a network |
US20060095322A1 (en) * | 2004-11-03 | 2006-05-04 | Dierks Timothy M | Determining prospective advertising hosts using data such as crawled documents and document access statistics |
US7953725B2 (en) | 2004-11-19 | 2011-05-31 | International Business Machines Corporation | Method, system, and storage medium for providing web information processing services |
US20060149710A1 (en) | 2004-12-30 | 2006-07-06 | Ross Koningstein | Associating features with entities, such as categories of web page documents, and/or weighting such features |
US20060173822A1 (en) * | 2005-02-03 | 2006-08-03 | Microsoft Corporation | System and method for optimization of results based on monetization intent |
US7962510B2 (en) * | 2005-02-11 | 2011-06-14 | Microsoft Corporation | Using content analysis to detect spam web pages |
US7870147B2 (en) * | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US20060230009A1 (en) * | 2005-04-12 | 2006-10-12 | Mcneely Randall W | System for the automatic categorization of documents |
US7660792B2 (en) * | 2005-04-29 | 2010-02-09 | Microsoft Corporation | System and method for spam identification |
US7562304B2 (en) | 2005-05-03 | 2009-07-14 | Mcafee, Inc. | Indicating website reputations during website manipulation of user information |
US8566726B2 (en) | 2005-05-03 | 2013-10-22 | Mcafee, Inc. | Indicating website reputations based on website handling of personal information |
US7822620B2 (en) * | 2005-05-03 | 2010-10-26 | Mcafee, Inc. | Determining website reputations using automatic testing |
US7765481B2 (en) * | 2005-05-03 | 2010-07-27 | Mcafee, Inc. | Indicating website reputations during an electronic commerce transaction |
US9384345B2 (en) | 2005-05-03 | 2016-07-05 | Mcafee, Inc. | Providing alternative web content based on website reputation assessment |
US8438499B2 (en) | 2005-05-03 | 2013-05-07 | Mcafee, Inc. | Indicating website reputations during user interactions |
US20060253582A1 (en) * | 2005-05-03 | 2006-11-09 | Dixon Christopher J | Indicating website reputations within search results |
US20060253584A1 (en) * | 2005-05-03 | 2006-11-09 | Dixon Christopher J | Reputation of an entity associated with a content item |
US7467146B2 (en) * | 2005-05-05 | 2008-12-16 | International Business Machines Corporation | System, method and program product for determining whether a web page returned to a web browser is a redirected web page |
US20060253423A1 (en) * | 2005-05-07 | 2006-11-09 | Mclane Mark | Information retrieval system and method |
US7996391B2 (en) | 2005-06-20 | 2011-08-09 | Google Inc. | Systems and methods for providing search results |
US20070005564A1 (en) * | 2005-06-29 | 2007-01-04 | Mark Zehner | Method and system for performing multi-dimensional searches |
US7653617B2 (en) * | 2005-08-29 | 2010-01-26 | Google Inc. | Mobile sitemaps |
US8161044B2 (en) * | 2005-10-26 | 2012-04-17 | International Business Machines Corporation | Faceted web searches of user preferred categories throughout one or more taxonomies |
US7917519B2 (en) * | 2005-10-26 | 2011-03-29 | Sizatola, Llc | Categorized document bases |
US7457801B2 (en) * | 2005-11-14 | 2008-11-25 | Microsoft Corporation | Augmenting a training set for document categorization |
US7890502B2 (en) * | 2005-11-14 | 2011-02-15 | Microsoft Corporation | Hierarchy-based propagation of contribution of documents |
IL172551A0 (en) * | 2005-12-13 | 2006-04-10 | Grois Dan | Method for assigning one or more categorized scores to each document over a data network |
US7529761B2 (en) * | 2005-12-14 | 2009-05-05 | Microsoft Corporation | Two-dimensional conditional random fields for web extraction |
US8572560B2 (en) * | 2006-01-10 | 2013-10-29 | International Business Machines Corporation | Collaborative software development systems and methods providing automated programming assistance |
US7933890B2 (en) * | 2006-03-31 | 2011-04-26 | Google Inc. | Propagating useful information among related web pages, such as web pages of a website |
US8701196B2 (en) | 2006-03-31 | 2014-04-15 | Mcafee, Inc. | System, method and computer program product for obtaining a reputation associated with a file |
US7526486B2 (en) | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
US8682712B2 (en) * | 2006-05-22 | 2014-03-25 | Google Inc. | Monitoring landing page experiments |
US7831658B2 (en) * | 2006-05-22 | 2010-11-09 | Google Inc. | Generating landing page variants |
EP2030134A4 (de) | 2006-06-02 | 2010-06-23 | Initiate Systems Inc | System und verfahren für automatische gewichtsgenerierung für wahrscheinlichkeitsabgleich |
FR2902907B1 (fr) * | 2006-06-21 | 2008-10-17 | Gerald Poitevineau | Procede de recherche d'informations sur un reseau intranet, extranet, internet ou toute autre source de diffusion d'informations numeriques et moteur de recherche pour la mise en oeuvre dudit procede |
US8001130B2 (en) * | 2006-07-25 | 2011-08-16 | Microsoft Corporation | Web object retrieval based on a language model |
US7720830B2 (en) * | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
US7921106B2 (en) * | 2006-08-03 | 2011-04-05 | Microsoft Corporation | Group-by attribute value in search results |
US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
US7698268B1 (en) | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
US8356009B2 (en) | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
TWI337712B (en) * | 2006-10-30 | 2011-02-21 | Inst Information Industry | Systems and methods for measuring behavior characteristics, and machine readable medium thereof |
US7885952B2 (en) * | 2006-12-20 | 2011-02-08 | Microsoft Corporation | Cloaking detection utilizing popularity and market value |
US9092434B2 (en) * | 2007-01-23 | 2015-07-28 | Symantec Corporation | Systems and methods for tagging emails by discussions |
US8359339B2 (en) | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
US7975301B2 (en) * | 2007-03-05 | 2011-07-05 | Microsoft Corporation | Neighborhood clustering for web spam detection |
US8515926B2 (en) | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
WO2008121170A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for parsing languages |
WO2008121700A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for managing entities |
US8429220B2 (en) | 2007-03-29 | 2013-04-23 | International Business Machines Corporation | Data exchange among data sources |
US8423514B2 (en) | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
US7698261B1 (en) * | 2007-03-30 | 2010-04-13 | A9.Com, Inc. | Dynamic selection and ordering of search categories based on relevancy information |
US8768932B1 (en) * | 2007-05-14 | 2014-07-01 | Google Inc. | Method and apparatus for ranking search results |
US7831611B2 (en) | 2007-09-28 | 2010-11-09 | Mcafee, Inc. | Automatically verifying that anti-phishing URL signatures do not fire on legitimate web sites |
EP2198374A4 (de) | 2007-09-28 | 2013-07-17 | Ibm | Verfahren und system zur zu assoziation von datensätzen in mehreren sprachen |
CN101878461B (zh) | 2007-09-28 | 2014-03-12 | 国际商业机器公司 | 分析用于匹配数据记录的系统的方法和系统 |
US8713434B2 (en) * | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
US8103676B2 (en) * | 2007-10-11 | 2012-01-24 | Google Inc. | Classifying search results to determine page elements |
US8296643B1 (en) | 2007-10-18 | 2012-10-23 | Google Inc. | Running multiple web page experiments on a test page |
US20090119276A1 (en) * | 2007-11-01 | 2009-05-07 | Antoine Sorel Neron | Method and Internet-based Search Engine System for Storing, Sorting, and Displaying Search Results |
US7877369B2 (en) * | 2007-11-02 | 2011-01-25 | Paglo Labs, Inc. | Hosted searching of private local area network information |
US7877368B2 (en) * | 2007-11-02 | 2011-01-25 | Paglo Labs, Inc. | Hosted searching of private local area network information with support for add-on applications |
TWI352934B (en) * | 2007-11-27 | 2011-11-21 | Inst Information Industry | Advertisement selection systems and methods for in |
NO327151B1 (no) * | 2007-11-29 | 2009-05-04 | Fast Search & Transfer Asa | Fremgangsmåte til forbedring av søkeeffektiviteten i et bedriftssøkesystem |
US7991777B2 (en) | 2007-12-03 | 2011-08-02 | Microsoft International Holdings B.V. | Method for improving search efficiency in enterprise search system |
JP5309543B2 (ja) * | 2007-12-06 | 2013-10-09 | 日本電気株式会社 | 情報検索サーバ、情報検索方法及びプログラム |
US8402025B2 (en) * | 2007-12-19 | 2013-03-19 | Google Inc. | Video quality measures |
US7996390B2 (en) * | 2008-02-15 | 2011-08-09 | The University Of Utah Research Foundation | Method and system for clustering identified forms |
US8965865B2 (en) * | 2008-02-15 | 2015-02-24 | The University Of Utah Research Foundation | Method and system for adaptive discovery of content on a network |
US7895293B1 (en) | 2008-02-25 | 2011-02-22 | Google Inc. | Web page experiments with fragmented section variations |
US8010482B2 (en) * | 2008-03-03 | 2011-08-30 | Microsoft Corporation | Locally computable spam detection features and robust pagerank |
JP5020152B2 (ja) * | 2008-04-10 | 2012-09-05 | ヤフー株式会社 | スパム宣言を利用したウェブページ検索装置、方法及びコンピュータ・プログラム |
US8112404B2 (en) * | 2008-05-08 | 2012-02-07 | Microsoft Corporation | Providing search results for mobile computing devices |
US8521732B2 (en) * | 2008-05-23 | 2013-08-27 | Solera Networks, Inc. | Presentation of an extracted artifact based on an indexing technique |
US8625642B2 (en) | 2008-05-23 | 2014-01-07 | Solera Networks, Inc. | Method and apparatus of network artifact indentification and extraction |
US8527339B2 (en) | 2008-06-26 | 2013-09-03 | Microsoft Corporation | Quality based pricing and ranking for online ads |
US8793249B2 (en) * | 2008-09-24 | 2014-07-29 | Yahoo! Inc. | Optimization filters for user generated content searches |
US8494857B2 (en) | 2009-01-06 | 2013-07-23 | Regents Of The University Of Minnesota | Automatic measurement of speech fluency |
US8543569B2 (en) * | 2009-01-13 | 2013-09-24 | Infotrieve, Inc. | System and method for the centralized management of a document ordering and delivery program |
US8484200B2 (en) * | 2009-01-13 | 2013-07-09 | Infotrieve, Inc. | System and method for the centralized management of a document ordering and delivery program |
US8452791B2 (en) | 2009-01-16 | 2013-05-28 | Google Inc. | Adding new instances to a structured presentation |
US8977645B2 (en) | 2009-01-16 | 2015-03-10 | Google Inc. | Accessing a search interface in a structured presentation |
US8615707B2 (en) | 2009-01-16 | 2013-12-24 | Google Inc. | Adding new attributes to a structured presentation |
US8412749B2 (en) | 2009-01-16 | 2013-04-02 | Google Inc. | Populating a structured presentation with new values |
US8689117B1 (en) | 2009-10-30 | 2014-04-01 | Google Inc. | Webpages with conditional content |
EP2533163A4 (de) * | 2010-02-04 | 2015-04-15 | Ebay Inc | Listenanzeige auf basis von listenaktivitäten und entsprechenden anwendungen |
US9390139B1 (en) | 2010-06-23 | 2016-07-12 | Google Inc. | Presentation of content items in view of commerciality |
US20150242884A1 (en) * | 2010-12-13 | 2015-08-27 | David K. Goodman | Cross-vertical publisher and advertiser reporting |
US8849991B2 (en) | 2010-12-15 | 2014-09-30 | Blue Coat Systems, Inc. | System and method for hypertext transfer protocol layered reconstruction |
US9436437B2 (en) * | 2010-12-17 | 2016-09-06 | Microsoft Technology Licensing, Llc | Creation, editing and navigation of diagrams |
US20120179544A1 (en) * | 2011-01-12 | 2012-07-12 | Everingham James R | System and Method for Computer-Implemented Advertising Based on Search Query |
US9384408B2 (en) | 2011-01-12 | 2016-07-05 | Yahoo! Inc. | Image analysis system and method using image recognition and text search |
US8909619B1 (en) | 2011-02-03 | 2014-12-09 | Google Inc. | Providing search results tools |
US8666985B2 (en) | 2011-03-16 | 2014-03-04 | Solera Networks, Inc. | Hardware accelerated application-based pattern matching for real time classification and recording of network traffic |
US8635519B2 (en) | 2011-08-26 | 2014-01-21 | Luminate, Inc. | System and method for sharing content based on positional tagging |
US20130086112A1 (en) | 2011-10-03 | 2013-04-04 | James R. Everingham | Image browsing system and method for a digital content platform |
US8737678B2 (en) | 2011-10-05 | 2014-05-27 | Luminate, Inc. | Platform for providing interactive applications on a digital content platform |
USD736224S1 (en) | 2011-10-10 | 2015-08-11 | Yahoo! Inc. | Portion of a display screen with a graphical user interface |
USD737290S1 (en) | 2011-10-10 | 2015-08-25 | Yahoo! Inc. | Portion of a display screen with a graphical user interface |
US8868536B1 (en) * | 2012-01-04 | 2014-10-21 | Google Inc. | Real time map spam detection |
WO2013138633A1 (en) | 2012-03-15 | 2013-09-19 | Regents Of The University Of Minnesota | Automated verbal fluency assessment |
US8255495B1 (en) | 2012-03-22 | 2012-08-28 | Luminate, Inc. | Digital image and content display systems and methods |
US8234168B1 (en) | 2012-04-19 | 2012-07-31 | Luminate, Inc. | Image content and quality assurance system and method |
US8495489B1 (en) | 2012-05-16 | 2013-07-23 | Luminate, Inc. | System and method for creating and displaying image annotations |
US10366401B1 (en) | 2012-06-29 | 2019-07-30 | Google Llc | Content placement optimization |
US20140122663A1 (en) * | 2012-10-31 | 2014-05-01 | Brown Paper Tickets Llc | Overload protection based on web traffic volumes |
CN104281560B (zh) * | 2013-07-05 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 一种记忆文本信息的显示方法、装置及终端 |
JP5882272B2 (ja) * | 2013-08-30 | 2016-03-09 | 京セラドキュメントソリューションズ株式会社 | 資料評価プログラムおよび資料評価装置 |
CN104933570A (zh) * | 2014-03-20 | 2015-09-23 | 阿里巴巴集团控股有限公司 | 用户侦测方法及装置 |
US10796321B1 (en) * | 2014-08-05 | 2020-10-06 | Groupon, Inc. | Method and system for generating purchase recommendations based on purchase category associations |
US10853317B2 (en) * | 2015-08-07 | 2020-12-01 | Adp, Llc | Data normalizing system |
WO2018098478A1 (en) * | 2016-11-28 | 2018-05-31 | Cloudamize, Inc. | System and method for analyzing and associating elements of a computer system by shared characteristics |
US11782997B2 (en) | 2020-02-13 | 2023-10-10 | Verity Platforms Inc. | Information platform systems and methods |
KR102244699B1 (ko) * | 2020-06-15 | 2021-04-27 | 주식회사 크라우드웍스 | 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법 |
Family Cites Families (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4735A (en) * | 1846-09-03 | Improvement in separating oleic and stearic agios | ||
US855008A (en) * | 1906-03-21 | 1907-05-28 | Homer G Kellogg | Coin-controlled apparatus. |
EP1235177A3 (de) * | 1993-12-16 | 2003-10-08 | divine technology ventures | Numerische aktive Werbung |
US5623660A (en) * | 1994-04-22 | 1997-04-22 | Josephson; Jeffrey L. | System for regulating access to data base for purposes of data base management |
US5768521A (en) * | 1994-05-16 | 1998-06-16 | Intel Corporation | General purpose metering mechanism for distribution of electronic information |
US5515488A (en) | 1994-08-30 | 1996-05-07 | Xerox Corporation | Method and apparatus for concurrent graphical visualization of a database search and its search history |
US5826241A (en) * | 1994-09-16 | 1998-10-20 | First Virtual Holdings Incorporated | Computerized system for making payments and authenticating transactions over the internet |
US5717923A (en) * | 1994-11-03 | 1998-02-10 | Intel Corporation | Method and apparatus for dynamically customizing electronic information to individual end users |
US5724521A (en) * | 1994-11-03 | 1998-03-03 | Intel Corporation | Method and apparatus for providing electronic advertisements to end users in a consumer best-fit pricing manner |
US5752238A (en) * | 1994-11-03 | 1998-05-12 | Intel Corporation | Consumer-driven electronic information pricing mechanism |
US5659732A (en) * | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US5704060A (en) * | 1995-05-22 | 1997-12-30 | Del Monte; Michael G. | Text storage and retrieval system and method |
US5748954A (en) * | 1995-06-05 | 1998-05-05 | Carnegie Mellon University | Method for searching a queued and ranked constructed catalog of files stored on a network |
US5742816A (en) | 1995-09-15 | 1998-04-21 | Infonautics Corporation | Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic |
US5794210A (en) * | 1995-12-11 | 1998-08-11 | Cybergold, Inc. | Attention brokerage |
US5788367A (en) * | 1995-12-13 | 1998-08-04 | Jury Alexeevich Budaev | Pneumatic vibrator |
US5778367A (en) | 1995-12-14 | 1998-07-07 | Network Engineering Software, Inc. | Automated on-line information service and directory, particularly for the world wide web |
US5724524A (en) * | 1995-12-15 | 1998-03-03 | Pitney Bowes, Inc. | Method and system for listing, brokering, and exchanging carrier capacity |
AU1522797A (en) | 1995-12-15 | 1997-07-03 | Softpages, Inc. (Delaware Corporation), The | Method for computer aided advertisement |
AU1566597A (en) * | 1995-12-27 | 1997-08-11 | Gary B. Robinson | Automated collaborative filtering in world wide web advertising |
US5826267A (en) * | 1996-03-20 | 1998-10-20 | Mcmillan; James Michael | Web information kiosk |
US5848397A (en) * | 1996-04-19 | 1998-12-08 | Juno Online Services, L.P. | Method and apparatus for scheduling the presentation of messages to computer users |
JP3108015B2 (ja) * | 1996-05-22 | 2000-11-13 | 松下電器産業株式会社 | ハイパーテキスト検索装置 |
US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5864846A (en) * | 1996-06-28 | 1999-01-26 | Siemens Corporate Research, Inc. | Method for facilitating world wide web searches utilizing a document distribution fusion strategy |
US5864845A (en) * | 1996-06-28 | 1999-01-26 | Siemens Corporate Research, Inc. | Facilitating world wide web searches utilizing a multiple search engine query clustering fusion strategy |
US6457004B1 (en) | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
US5862223A (en) * | 1996-07-24 | 1999-01-19 | Walker Asset Management Limited Partnership | Method and apparatus for a cryptographically-assisted commercial network system designed to facilitate and support expert-based commerce |
US5852820A (en) * | 1996-08-09 | 1998-12-22 | Digital Equipment Corporation | Method for optimizing entries for searching an index |
US5920854A (en) | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5788357A (en) | 1996-08-28 | 1998-08-04 | K. W. Muth Company, Inc. | Mirror assembly |
GB2331166B (en) * | 1997-11-06 | 2002-09-11 | Ibm | Database search engine |
US5903882A (en) * | 1996-12-13 | 1999-05-11 | Certco, Llc | Reliance server for electronic transaction system |
US5966126A (en) | 1996-12-23 | 1999-10-12 | Szabo; Andrew J. | Graphic user interface for database system |
US6285999B1 (en) * | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6285987B1 (en) * | 1997-01-22 | 2001-09-04 | Engage, Inc. | Internet advertising system |
US6041331A (en) * | 1997-04-01 | 2000-03-21 | Manning And Napier Information Services, Llc | Automatic extraction and graphic visualization system and method |
US5895470A (en) | 1997-04-09 | 1999-04-20 | Xerox Corporation | System for categorizing documents in a linked collection of documents |
US5930777A (en) * | 1997-04-15 | 1999-07-27 | Barber; Timothy P. | Method of charging for pay-per-access information over a network |
US5933145A (en) | 1997-04-17 | 1999-08-03 | Microsoft Corporation | Method and system for visually indicating a selection query |
US5886698A (en) | 1997-04-21 | 1999-03-23 | Sony Corporation | Method for filtering search results with a graphical squeegee |
US5924090A (en) | 1997-05-01 | 1999-07-13 | Northern Light Technology Llc | Method and apparatus for searching a database of records |
US6012053A (en) | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
US6014664A (en) * | 1997-08-29 | 2000-01-11 | International Business Machines Corporation | Method and apparatus for incorporating weights into data combinational rules |
US6389436B1 (en) | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
US6028605A (en) | 1998-02-03 | 2000-02-22 | Documentum, Inc. | Multi-dimensional analysis of objects by manipulating discovered semantic properties |
US6073135A (en) * | 1998-03-10 | 2000-06-06 | Alta Vista Company | Connectivity server for locating linkage information between Web pages |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
US6038574A (en) | 1998-03-18 | 2000-03-14 | Xerox Corporation | Method and apparatus for clustering a collection of linked documents using co-citation analysis |
JP3696731B2 (ja) | 1998-04-30 | 2005-09-21 | 株式会社日立製作所 | 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6356898B2 (en) * | 1998-08-31 | 2002-03-12 | International Business Machines Corporation | Method and system for summarizing topics of documents browsed by a user |
US6078866A (en) * | 1998-09-14 | 2000-06-20 | Searchup, Inc. | Internet site searching and listing service based on monetary ranking of site listings |
US6385602B1 (en) | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
WO2000041090A1 (en) | 1999-01-08 | 2000-07-13 | Micro-Integration Corporation | Search engine database and interface |
US6907566B1 (en) * | 1999-04-02 | 2005-06-14 | Overture Services, Inc. | Method and system for optimum placement of advertisements on a webpage |
US6836768B1 (en) | 1999-04-27 | 2004-12-28 | Surfnotes | Method and apparatus for improved information representation |
CA2371688C (en) | 1999-05-05 | 2008-09-09 | West Publishing Company D/B/A West Group | Document-classification system, method and software |
US6269361B1 (en) * | 1999-05-28 | 2001-07-31 | Goto.Com | System and method for influencing a position on a search result list generated by a computer network search engine |
US6606657B1 (en) | 1999-06-22 | 2003-08-12 | Comverse, Ltd. | System and method for processing and presenting internet usage information |
US6665665B1 (en) | 1999-07-30 | 2003-12-16 | Verizon Laboratories Inc. | Compressed document surrogates |
US6353825B1 (en) * | 1999-07-30 | 2002-03-05 | Verizon Laboratories Inc. | Method and device for classification using iterative information retrieval techniques |
US6775665B1 (en) * | 1999-09-30 | 2004-08-10 | Ricoh Co., Ltd. | System for treating saved queries as searchable documents in a document management system |
JP2001134616A (ja) | 1999-10-25 | 2001-05-18 | Nec Corp | 特定の話題に関するウェブ情報の構成方法とその構成システム |
WO2001046870A1 (en) | 1999-12-08 | 2001-06-28 | Amazon.Com, Inc. | System and method for locating and displaying web-based product offerings |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
EP1120722A3 (de) | 2000-01-13 | 2004-01-14 | Applied Psychology Research Limited | Verfahren und Gerät um Kategoriedaten zu generieren |
US20020004735A1 (en) * | 2000-01-18 | 2002-01-10 | William Gross | System and method for ranking items |
US20010044837A1 (en) | 2000-03-30 | 2001-11-22 | Iqbal Talib | Methods and systems for searching an information directory |
KR20010102687A (ko) | 2000-05-04 | 2001-11-16 | 정만원 | 카테고리 학습 기법을 이용한 주제별 웹 문서 자동 분류방법 및 시스템 |
US6721721B1 (en) | 2000-06-15 | 2004-04-13 | International Business Machines Corporation | Virus checking and reporting for computer database search results |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
US6826594B1 (en) * | 2000-07-15 | 2004-11-30 | Commission Junction | Method and system for remote content management of a designated portion of a web page |
WO2002007010A1 (en) | 2000-07-17 | 2002-01-24 | Asymmetry, Inc. | System and method for storage and processing of business information |
US6654743B1 (en) * | 2000-11-13 | 2003-11-25 | Xerox Corporation | Robust clustering of web documents |
US20020077998A1 (en) * | 2000-12-08 | 2002-06-20 | Brian Andrews | Web based system and method for managing sales deals |
US6594670B1 (en) | 2000-12-22 | 2003-07-15 | Mathias Genser | System and method for organizing search criteria match results |
US6694307B2 (en) * | 2001-03-07 | 2004-02-17 | Netvention | System for collecting specific information from several sources of unstructured digitized data |
US20020169770A1 (en) * | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US6965900B2 (en) * | 2001-12-19 | 2005-11-15 | X-Labs Holdings, Llc | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents |
US7231395B2 (en) | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US20040103073A1 (en) | 2002-11-21 | 2004-05-27 | Blake M. Brian | System for and method of using component-based development and web tools to support a distributed data management system |
-
2002
- 2002-05-24 US US10/155,290 patent/US7231395B2/en not_active Expired - Lifetime
-
2003
- 2003-05-22 CA CA002429338A patent/CA2429338C/en not_active Expired - Fee Related
- 2003-05-23 DE DE10323444A patent/DE10323444A1/de not_active Ceased
- 2003-05-23 EP EP03253259A patent/EP1367509A3/de not_active Withdrawn
- 2003-05-23 AU AU2003204327A patent/AU2003204327B2/en not_active Ceased
- 2003-05-23 FR FR0306287A patent/FR2840088B1/fr not_active Expired - Fee Related
- 2003-05-23 GB GB0311975A patent/GB2389682A/en not_active Withdrawn
- 2003-05-23 JP JP2003183555A patent/JP3905498B2/ja not_active Expired - Fee Related
- 2003-05-23 KR KR1020030032717A patent/KR100852034B1/ko active IP Right Grant
- 2003-05-26 CN CNB031370004A patent/CN100517304C/zh not_active Expired - Fee Related
-
2006
- 2006-04-28 US US11/413,627 patent/US7792818B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB0311975D0 (en) | 2003-06-25 |
CN100517304C (zh) | 2009-07-22 |
US7792818B2 (en) | 2010-09-07 |
US20030220912A1 (en) | 2003-11-27 |
CN1462005A (zh) | 2003-12-17 |
US20060265400A1 (en) | 2006-11-23 |
EP1367509A3 (de) | 2005-08-31 |
EP1367509A2 (de) | 2003-12-03 |
GB2389682A (en) | 2003-12-17 |
US7231395B2 (en) | 2007-06-12 |
JP3905498B2 (ja) | 2007-04-18 |
CA2429338A1 (en) | 2003-11-24 |
KR20030091751A (ko) | 2003-12-03 |
JP2004164578A (ja) | 2004-06-10 |
FR2840088B1 (fr) | 2008-05-16 |
CA2429338C (en) | 2007-01-16 |
FR2840088A1 (fr) | 2003-11-28 |
AU2003204327A1 (en) | 2003-12-11 |
AU2003204327B2 (en) | 2006-12-21 |
KR100852034B1 (ko) | 2008-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10323444A1 (de) | Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank | |
US8260786B2 (en) | Method and apparatus for categorizing and presenting documents of a distributed database | |
DE69733606T2 (de) | Computernetzwerk und verfahren zur bestimmung des benutzerverhalten | |
CN101385025B (zh) | 通过分析内容确定上下文并且基于该上下文提供相关内容 | |
US6681223B1 (en) | System and method of performing profile matching with a structured document | |
DE10252805A1 (de) | System und Verfahren, das einem Werber ermöglicht, Sucheinträge in einem Suchsystem mit Bezahlung für Position unter Verwendung von Gruppierung zu verwalten | |
WO2001044992A1 (en) | Context matching system and method | |
DE10256458A1 (de) | Empfehlen von Suchausdrücken unter Verwendung von kollaborativem Filtern und Webspidering | |
DE10235804A1 (de) | System und Verfahren für das Ermöglichen eines Mehrelementbietens für das Beeinflussen einer Position in einer Suchergebnisliste die durch eine Suchmaschine eines Computernetzes erzeugt wird | |
DE10235429A1 (de) | System und Verfahren für das Bereitstellen eines Orts- und Preisschutzes in einer Suchergebnisliste die durch eine Suchmaschine eines Computernetzes erzeugt wird | |
CN102138140A (zh) | 利用综合语义语境的信息处理 | |
DE10235812A1 (de) | Überwachung des Kontos einer Suchmaschine | |
CN102160329A (zh) | 使用与信息关联的语义语境便于协作搜索 | |
EP1826685A1 (de) | Verfahren zur Auswahl und Darstellung mindestens einer Zusatzinformation | |
Mei et al. | PageSense: Toward stylewise contextual advertising via visual analysis of Web pages | |
EP1755049B1 (de) | Verfahren zur Übermittlung von Informationen von einem Informationsserver an einen Client | |
WO2001067300A1 (en) | Improved parameter-value databases | |
Houston et al. | Using an AI-based tool to categorize digitized textual forms of organizational memory | |
Giuffrida et al. | A banner recommendation system based on web navigation history | |
DE102004017389B3 (de) | Verfahren zum Bestellen eines Produkts bei einem mit einem Kommunikationsnetzwerk verbundenen Online-Shop | |
CN117271807A (zh) | 金融内容推荐方法、装置、电子设备及存储介质 | |
DE19842320A1 (de) | Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten | |
Leenes et al. | Large-scale computer networks and the future of legal knowledge-based systems | |
Kim Norlen et al. | TRAVIS: Extraction, Visualization and Analysis of the Telecommunications and Media Ownership Network | |
DE10119877A1 (de) | Verfahren, System und Programmprodukt für den Zugriff auf oder die Verwendung von persönlichen Daten auf der Grundlage von zusammengehörigen öffentlichen Daten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8127 | New person/name/address of the applicant |
Owner name: YAHOO! INC. (N.D.GES.D. STAATES DELAWARE), SUN, US |
|
8131 | Rejection |