[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

DE69811066T2 - Datenzusammenfassungsgerät. - Google Patents

Datenzusammenfassungsgerät.

Info

Publication number
DE69811066T2
DE69811066T2 DE69811066T DE69811066T DE69811066T2 DE 69811066 T2 DE69811066 T2 DE 69811066T2 DE 69811066 T DE69811066 T DE 69811066T DE 69811066 T DE69811066 T DE 69811066T DE 69811066 T2 DE69811066 T2 DE 69811066T2
Authority
DE
Germany
Prior art keywords
section
data
sections
value
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69811066T
Other languages
English (en)
Other versions
DE69811066D1 (de
Inventor
Richard Weeks
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8229299&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69811066(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE69811066D1 publication Critical patent/DE69811066D1/de
Application granted granted Critical
Publication of DE69811066T2 publication Critical patent/DE69811066T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Executing Machine-Instructions (AREA)

Description

    TECHNISCHER BEREICH
  • Die Erfindung betrifft den Bereich der Verfahren und Vorrichtungen zur Analyse von Daten und findet insbesondere bei der Zusammenfassung von Daten Anwendung.
  • HINTERGRUND DER ERFINDUNG
  • Kürzliche Fortschritte in der Technologie, wie CD-ROMs, Intranetze und das World Wide Web haben zu einem gewaltigen Anstieg des Volumens der in elektronischem Format verfügbaren Informationsressourcen geführt.
  • Ein Problem, das mit diesem Anstieg der Ressourcen einhergeht, ist das der Lokalisierung und Identifikation von Gruppen von Daten (d. h. Datengruppen, die beispielsweise Zeitschriftenartikel, Nachrichtenbeiträge, technische Druckschriften und andere Informationen umfassen), die für den einzelnen Benutzer dieser Systeme von Interesse sind.
  • Informationsabrufprogramme, wie Suchmaschinen und Web Guides sind ein Mittel zur Unterstützung von Benutzern bei der Lokalisierung von Datensätzen, die von Interesse sind. Proaktive Dienstprogramme und Dienste (beispielsweise News Groups, Veröffentlichungsdienste, wie das bei www.pointcast.com erhältliche POINTCASTTM-System, oder Dienstprogramme, wie der in der gleichzeitig anhängigen, veröffentlichen, internationalen Patentanmeldung PCT GB96/00132 des Anmelders beschriebene JASPER-Agent) können ebenfalls zur Identifikation von Informationen verwendet werden, die für einzelne Benutzer von Interesse sein können.
  • Sind die Datensätze von Interesse von dem Informationsabrufprogramm einmal lokalisiert, wird dem Benutzer im allgemeinen eine Zusammenfassung des Datensatzes geliefert. "Patterns of Lexis in Text (Describing English Language Series)", Michael Hoey, Oxford University Press, 1991, ISBN 0194371425 beschreibt einen Ansatz zur Zusammenfassung von Datensätzen.
  • Bei einer weiteren bekannten Zusammenfassungstechnik, die in "A Trainable Document Summarizer" von Kupiec J et al., SIGIR Forum, 9. Juli 1995 beschrieben ist, wird die Dokumentzusammenfassung als Extraktionsaufgabe angegangen. Mit einem Trainingssatz von Dokumenten mit manuell ausgewählten Dokumentauszügen entwickelten Kupiec et al. eine Klassifizierungsfunktion, die die Wahrscheinlichkeit dafür schätzt, daß ein gegebener Satz in einem Auszug enthalten ist. Neue Auszüge werden dann erzeugt, indem Sätze entsprechend dieser Wahrscheinlichkeit eingestuft und eine benutzerdefinierte Anzahl der hochstrangigen ausgewählt werden. Die Klassifikationsfunktion berücksichtigt Eigenschaften wie die Position eines Satzes in einem Dokument und die am häufigsten auftretenden Inhaltsworte.
  • Eine typische, durch ein Verfahren gemäß dem Stand der Technik erzeugte Zusammenfassung beschreibt den primären Gegenstand (d. h. das Hauptthema) der Datengruppe. Zieldatensätze, an denen der Benutzer tatsächlich interessiert ist, sind jedoch häufig nicht das Hauptthema der lokalisierten Datengruppe. Unter diesen Umständen kann eine Zusammenfassung, die nur das Hauptthema wiedergibt, weder identifizieren, wie oder warum die Zieldatensätze für die Datengruppe relevant sind, noch die Position der Zieldatensätze in dem Datensatz ermitteln.
  • Die Zielinformation kann beispielsweise das Geburtsdatum des Schriftstellers "D. H. Lawrence" sein. Eine Suchmaschine kann diese Information in einem Artikel lokalisieren, dessen Hauptgegenstand eine Kritik seines Romans "Söhne und Liebhaber" ist. Ein Informationsabrufprogramm, würde nach dem Auffinden des Geburtsdatums die Kritik auswählen und eine Zusammenfassung erzeugen. Diese Zusammenfassung enthält jedoch nicht tatsächlich das Geburtsdatum von D. H. Lawrence; da das Geburtsdatum des Schriftstellers für das Hauptthema einer Kritik über "Söhne und Liebhaber" kaum von Bedeutung wäre. Die Zusammenfassung würde auch nicht angeben, wo in der Kritik die das Geburtsdatum des Autors betreffende Information auftaucht.
  • Gemäß einer ersten Ausführungsform der vorliegenden Erfindung wird eine Vorrichtung zur Erzeugung kundenspezifischer Zusammenfassungen von Datengruppen mit
  • einem Eingang zum Empfangen einer zusammenzufassenden Datengruppe;
  • einem Eingang zum Empfangen zumindest eines vorgegebenen Soll- bzw. Zieldatensatzes;
  • einer Trenneinrichtung zur Unterteilung des Datensatzes in einen oder mehrere Abschnitte gemäß vorgegebenen Kriterien;
  • einer für jeden der Abschnitte aktivierbaren Bewertungseinrichtung zum Vergleichen der Daten in dem Abschnitt mit mindestens einem empfangenen Solldatensatz und zur Berechnung eines Rangwerts für den Abschnitt, wobei der Rangwert vom Ergebnis der Vergleiche für den Abschnitt abhängt; und
  • einer Kompiliereinrichtung zur Zusammenstellung einer kundenspezifischen Zusammenfassung der Datengruppe durch Auswählen eines oder mehrerer der Abschnitte entsprechend ihren jeweiligen Rangwerten geschaffen.
  • Es können beispielsweise Abschnitte mit einem Rangwert ausgewählt werden, der über (oder abhängig von den Umständen unter) einem vorab ausgewählten Schwellenwert liegt.
  • Gemäß einer zweiten Ausführungsform der vorliegenden Erfindung wird ein Verfahren zur Erzeugung einer kundenspezifischen Zusammenfassung einer Datengruppe mit den folgenden Schritten geschaffen:
  • i) Empfangen einer zusammenzufassenden Datengruppe als Eingang,
  • ii) Empfangen mindestens eines vorgegebenen Solldatensatzes als Eingang,
  • iii) Unterteilten der Datengruppe in Abschnitte entsprechend vorgegebenen Kriterien,
  • iv) Vergleichen der Datensätze in jedem Abschnitt mit einem oder mehreren der im Schritt ii) empfangenen Solldatensätze,
  • v) Berechnen eines Rangwerts für jeden der Abschnitte in Abhängigkeit vom Ergebnis der jeweiligen Vergleiche, und
  • vi) Kompilieren einer kundenspezifischen Zusammenfassung der Datengruppe durch Auswählen eines oder mehrerer aus dem einen bzw. den mehreren Abschnitten entsprechend ihren jeweiligen Rangwerten.
  • Vorzugsweise können von einem Benutzer Soll- bzw. Zieldatensätze in die Vorrichtung eingegeben werden, beispielsweise direkt oder über ein Benutzerprofil. Ein Vorteil derartiger Ausführungsformen der Erfindung ist, daß sie die Erzeugung einer Zusammenfassung einer von einem Benutzer, für den die Zusammenfassung erzeugt wird, angegebene Zieldatensätze enthaltenden Datengruppe durch ein Zusammenfassungsprogramm ermöglichen.
  • Durch bevorzugte Ausführungsformen der vorliegenden Erfindung können getrennt oder kombiniert viele zusätzliche Eigenschaften geboten werden, von denen zumindest einige im Folgenden besprochen werden.
  • Datengruppen können nach Sätzen, Absätzen oder der sonstiger Interpunktion unterteilt werden. Alternativ können andere Formate, wie Seiten, Kapitel und Überschriften Abschnittsgrenzen bilden.
  • Im Zusammenhang mit der Zusammenfassung von Datengruppen ist ein Schlüsseldatensatz ein Datensatz, der einen substantiellen Bestandteil der in der Datengruppe enthaltenen Informationen bildet. In einem Dokument, das in schriftlicher Prosa verfaßt ist, werden Artikel und Konjunktionen (beispielsweise Worte wie "es", "sind", "wie", "der", "wenn", "sie", "durch", etc.) typischer Weise nicht als Schlüsseldatensätze betrachtet. Das liegt daran, daß sie kein in der Datengruppe enthaltenes Thema identifizieren.
  • Gemäß bevorzugten Merkmalen der vorliegenden Erfindung umfaßt die Vorrichtung ferner:
  • Mittel zur Identifikation eines oder mehrerer Schlüsseldatensätze in jedem Abschnitt entsprechend einer vorgegebenen Halteliste;
  • eine für jeden Abschnitt aktivierbare Berechnungseinrichtung zum Berechnen eines oder mehrerer Verteilungswerte, die die Relevanz der in dem Abschnitt enthaltenen Informationen für den Informationsgehalt der Datengruppe als Ganzer angeben, wobei jeder Verteilungswert eine andere vorgegebene Messung der Verteilung der Fundstellen der in dem Abschnitt identifizierten Schlüsseldatensätze in der Datengruppe repräsentiert;
  • eine Einstelleinrichtung zur Einstellung des Rangwerts für jeden Albschnitt entsprechend des jeweiligen einen bzw. der jeweiligen mehreren Verteilungswerte.
  • Vorzugsweise umfaßt das Verfahren ferner die Schritte:
  • a) Identifizieren von Schlüsseldatensätzen in jedem der im Schritt iii) erzeugten Abschnitte entsprechend einer vorgegebenen Anhalteliste,
  • b) Berechnen eines oder mehrerer die Relevanz der in dem Abschnitt enthaltenden Informationen für den Informationsgehalt der Datengruppe als ganzer angebender Verteilungswerte für jeden der Abschnitte, wobei jeder Verteilungswert eine vorgegebene Messung der Verteilung der Fundorte der Schlüsseldatensätze des Abschnitts in der Datengruppe repräsentiert, und
  • c) Einstellen des im Schritt v) berechneten Rangwerts jedes Abschnitts in Abhängigkeit von dem jeweiligen einen bzw. den jeweiligen mehreren Verteilungswerten.
  • Eine Feineinstellung der Rangwerte entsprechend der Verteilung der Schlüsseldatensätze in der Datengruppe ermöglicht ein Aufführen der Zieldatensätze im Zusammenhang mit dem Hauptthema der zusammengefaßten Daten in der Zusammenfassung. Dadurch werden die Möglichkeiten des Benutzers gesteigert, zu bestimmen, wie relevant eine bestimmte Datengruppe für den beabsichtigten Zweck ist.
  • Vorzugsweise berechnen die Vorrichtung und das Verfahren den Verteilungswert für jeden Abschnitt durch Bestimmen eines ersten Werts für jeden Schlüsseldatensatz in jedem Abschnitt und
  • Summieren der ersten Werte jedes Datensatzes für jeden Abschnitt, wobei als erster Wert jedes Schlüsseldatensatzes die Anzahl der Male, die der betreffende Schlüsseldatensatz in der Datengruppe auftaucht, minus der Anzahl der Male berechnet wird, die der betreffende Schlüsseldatensatz in dem betreffenden Abschnitt auftaucht.
  • Dieses Merkmal der Erfindung liefert einen Meßwert, wie häufig die Schlüsseldatensätze in einem bestimmten Abschnitt im Rest der analysierten Datengruppe auftauchen. Es handelt sich um eine Messung der Verteilung von Schüsseldatensätze über die Datengruppe. Vorzugsweise berechnen die Vorrichtung und das Verfahren einen zweiten Wert für jeden Schlüsseldatensatz und berechnen oder modifizieren den Verteilungswert abhängig von den zweiten Werten, wobei die zweiten Werte durch Zuweisen eines Positionswerts zu jedem Abschnitt der Datengruppe, der der Position des Abschnitts in der Datengruppe entspricht, und
  • Ausführen der Berechnung zur Subtraktion des Positionswerts des ersten Abschnitts, in dem der betreffende Schlüsseldatensatz auftaucht, von dem Positionswert des letzten Abschnitts, in dem der betreffende Schlüsseldatensatz auftaucht, für jeden Schlüsseldatensatz der Datengruppe berechnet werden.
  • Der zweite Wert dient der in bezug auf die Schlüsseldatensätze, die in einem Abschnitt der Datengruppe konzentriert auftreten, höheren Gewichtung der Schlüsseldatensätze, die in der Datengruppe weit verteilt sind. Die Annahme hinter diesem Merkmal ist, daß die in der gesamten Datengruppe weit verteilten Schlüsseldatensätze wahrscheinlich wichtiger für das Hauptthema der zusammengefaßten Datengruppe sind, als die in einem Abschnitt konzentrierten.
  • Vorzugsweise ist die Vorrichtung entsprechend einer Benutzereingabe zum selektiven Ordnen der Abschnitte der Zusammenfassung entweder nach Maßgabe des Positionswerts der Abschnitte der Datengruppe oder nach Maßgabe des Rangwerts der Abschnitte geeignet.
  • Vorzugsweise umfaßt das Verfahren ferner den Schritt der Aufnahme einer Auswahleingabe zur Wahl zwischen einer Zusammenfassung mit mehreren, entsprechend ihren Positionswerten geordneten Abschnitten und einer Zusammenfassung mit mehreren, entsprechend ihren Rangwerten geordneten Abschnitten.
  • Die Vorrichtung und das Verfahren berechnen vorzugsweise durch Identifizieren jedes Paars von Abschnitten, in denen der betreffende Schlüsseldatensatz jeweils auftaucht, Subtrahieren des niedrigeren Positionswerts der betreffenden Abschnitte, in denen er auftaucht, von dem höheren Positionswert der betreffenden Abschnitte, in denen er auftaucht, und Dividieren des Ergebnisses durch den zweiten Wert des betreffenden Schlüsseldatensatzes für jedes Abschnittspaar einen dritten Wert für jeden Schlüsseldatensatz,
  • berechnen für jeden Abschnitt einen ersten Einstellwert durch Summieren der für jeden Schlüsseldatensatz jedes Abschnitts berechneten dritten Werte, und
  • stellen den Rangwert jedes Abschnitts abhängig vom ersten Einstellwert jedes Abschnitts ein.
  • Der erste Einstellwert ermöglicht es jedem Schlüsseldatensatz, entsprechend der Anzahl der Male, die der Schlüsseldatensatz in den anderen Abschnitten der Datengruppe auftaucht, und entsprechend de Abstand zwischen dem ersten und dem letzten Auftauchen des Schlüsseldatensatzes in der Datengruppe zur Gewichtung jedes Abschnitts beizutragen. Dementsprechend tragen häufig auftauchende Schlüsseldatensätze höhere Werte zur Gewichtung eines Abschnitts bei, als Schlüsseldatensätze, die um einen kleinen Abschnitt der Datengruppe konzentriert sind.
  • Vorzugsweise berechnen die Vorrichtung und das Verfahren durch Dividieren des ersten Einstellwerts jedes Abschnitts durch die Quadratwurzel des Verteilungswerts jedes Abschnitts einen zweiten Einstellwert für jeden Abschnitt.
  • Durch diese Berechnung wird der erste Einstellwert in bezug auf die Länge eines Abschnitts normalisiert. Es wurde festgestellt, daß die Quadratwurzel des Verteilungswerts bessere Ergebnisse als eine Division nur durch den Verteilungswert liefert. Das kann daran liegen, daß die Quadratwurzel des zweiten Werts ein Kompromiß zwischen der Annahme, daß die Abschnittslänge keinen Einfluß auf die Relevanz des Abschnitts für das Hauptthema der fraglichen Information hat, und der Annahme ist, daß einzig die Länge eines Abschnitt bestimmt, wie relevant der Abschnitt für das Hauptthema der fraglichen Informationen ist.
  • Vorzugsweise verändern die Vorrichtung und das Verfahren den Rangwert jedes Abschnitts durch Dividieren jedes Rangwerts durch den Positionswert des entsprechenden Abschnitts.
  • Diese Modifikation des Rangwerts steigert die Gewichtung der Abschnitte, die früher in einem Informationsbestandteil auftauchen, als die Abschnitte, die später in dem Informationsbestandteil auftauchen.
  • Wenn unterschiedliche Typen von Datengruppen zusammengefaßt werden, können in bezug auf die Verteilung der Schlüsseldatensätze alternative Regeln gelten. Bei einer Informationstabelle ist es beispielsweise wahrscheinlich, daß Überschriften von Spalten und/ oder Zeilen eine Grundlage für eine genaue Zusammenfassung der in der Datengruppe enthaltenen Informationen bilden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Es wird nun unter Bezugnahme auf die beiliegenden Figuren lediglich beispielhaft eine Vorrichtung zum Zusammenfassen von Informationen gemäß einer Ausführungsform der vorliegenden Erfindung beschrieben. Es zeigen:
  • Fig. 1 ein Informationsabruf und Verarbeitungssystem, in dem die Einrichtung zum Zusammenfassen von Informationen enthalten ist;
  • Fig. 2 eine schematische Darstellung der Einrichtung zum Zusammenfassen von Informationen gemäß Fig. 1 im Betrieb;
  • Fig. 3 eine schematische Darstellung der Bauteile der Einrichtung zum Zusammenfassen von Informationen;
  • Fig. 4 ein Ablaufdiagramm des Betriebs der Einrichtung zum Zusammenfassen von Informationen gemäß Fig. 1;
  • Fig. 5 ein Ablaufdiagramm des Schritts 405 gemäß Fig. 4;
  • Fig. 6 ein Ablaufdiagramm der Schritte 410 und 415 gemäß Fig. 4;
  • Fig. 7 ein Ablaufdiagramm des Schritts 420 gemäß Fig. 4·;
  • Fig. 8 ein Ablaufdiagramm zusätzlicher Funktionen, die in der in Fig. 4 dargestellten Ausführungsform enthalten sein können;
  • Fig. 9 ein Ablaufdiagramm zusätzlicher Funktionen, die in der in Fig. 4 dargestellten Ausführungsform enthalten sein können;
  • Fig. 10 ein Ablaufdiagramm des Schritts 830 gemäß Fig. 8;
  • Fig. 11 ein Ablaufdiagramm zusätzlicher Funktionen, die im Schritt 830 gemäß Fig. 8 enthalten sein können;
  • Fig. 12 ein Ablaufdiagramm zusätzlicher Funktionen, die im Schritt 830 gemäß Fig. 8 enthalten sein können;
  • Fig. 13 ein Ablaufdiagramm zusätzlicher Funktionen, die im Schritt 830 gemäß Fig. 8 enthalten sein können;
  • Fig. 14 ein Ablaufdiagramm zusätzlicher Funktionen, die im Schritt 830 gemäß Fig. 8 enthalten sein können; und
  • Fig. 15 ein Ablaufdiagramm zusätzlicher Funktionen, die im Schritt 420 gemäß Fig. 4 enthalten sein können.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Gemäß Fig. 1 kann die Einrichtung zum Zusammenfassen von Informationen in eine bekannte Form von Informationsabrufarchitektur, wie eine an das Internet angeschlossene Architektur des Client-Server-Typs, eingebaut sein.
  • Genauer kann ein Kunde eines Internet-Dienstanbieters, einer Telekommunikationsgesellschaft oder einer anderen Art von Dienstanbieter, wie einer internationalen Gesellschaft, mehrere, mit Personal Computern oder Arbeitsplätzen 140 ausgestattete Benutzer einschließen. Diese können im Kundenkontext des Teilnehmers über eine Sucheinrichtung 135 des World Wide Web (WWW) mit dem WWW File Server 130 des Kunden verbunden sein. Ein Dienstprogramm 100 zum Zusammenfassen von Informationen kann eine Erweiterung der Sucheinrichtung 135 bilden und sich tatsächlich auf dem WWW File Server 130 befinden.
  • Der WWW File Server 130 des Kunden kann auf die bekannte Weise, beispielsweise über das eigene Netzwerk 145 des Kunden und einen Router 150 mit dem Internet verbunden sein. Auf die File Server 155 des Dienstanbieters kann dann ebenfalls über Router 165 über das Internet zugegriffen werden.
  • Ein Informationsabrufprogramm 105, ein Profilspeicher 115 zum Speichern der von dem Informationsabrufprogramm 105 verwendeten Benutzerprofile und ein ebenfalls von dem Informationsabrufprogramm 105 verwendeter, intelligenter Seitenspeicher 110 befinden sich ebenfalls auf dem File Server 130 des Kunden bzw. es kann von dort auf sie zugegriffen werden.
  • Das Informationsabrufprogramm 105 kann dem vorstehend erwähnten, als JASPER Agent bekannten Typ angehören.
  • Bei einer Ausführungsform kann das Zusammenfassungsprogramm 100 als Erweiterung einer bekannten Suchmaschine, wie Netscape, aufgebaut sein und der Zusammenfassung von der Suchmaschine 135 extrahierter WWW-Seiten dienen. Das Zusammenfassungsprogramm 100 kann jedoch selbstverständlich auch in andere Umgebungen eingebaut sein oder unabhängig genutzt werden, und es kann zum Zusammenfassen von Druckschriften und Datengruppen von vielen verschiedenen Quellen verwendet werden, die unterschiedlichen Typen angehören. Sie haben jedoch vorzugsweise ein elektronisches Format oder sind in ein derartiges Format konvertierbar, wobei das Zusammenfassungsprogramm 100 zum Empfangen und Verarbeiten geeignet ist. Ferner weisen die Dokumente und Datengruppen, die für die Verarbeitung durch das Zusammenfassungsprogramm 100 am geeignetsten sind, normalerweise Textform auf, beispielsweise in einer natürlichen, gesprochenen Sprache, wie Englisch.
  • Gemäß Fig. 2 arbeitet die Zusammenfassungseinrichtung 100 im Überblick, indem sie eine Datengruppe 200 in Abschnitte 295 unterteilt, die Abschnitte 295 analysiert und bestimmte Abschnitte auswählt, um eine Zusammenfassung 235 zu erzeugen. Datenaufteilungsregeln 240 bestimmen, wie eine Datengruppe 200 unterteilt wird. Die Abschnitte 295 werden hinsichtlich Zieldatensätzen 215, die normalerweise die Interessen eines Benutzers reflektieren, und hinsichtlich Schlüsseldatensätzen 225 analysiert, die das Thema der Datengruppe 200 selbst wiedergeben. Dann werden die Regeln 230 zur Erzeugung von Zusammenfassungen verwendet, um zu bestimmen, wie die Abschnitte im Hinblick auf die Analyse ausgewählt werden sollen.
  • Die Zusammenfassungseinrichtung 100 umfaßt ein Verarbeitungsmodul 205, das zum Empfangen einer Datengruppe 200 und eines Satzes von Zieldatensätzen 215 geeignet ist. Das Modul 205 erzeugt Schlüsseldatensätze aus der Datengruppe 200 selbst und analysiert die Datengruppe 200, um als Ausgang eine Zusammenfassung 235 derselben zu erzeugen.
  • Der Satz von Zieldatensätzen 2I5 enthält eine oder mehrere Arten von Informationen, die ein Benutzer in der Datengruppe 200 lokalisieren möchte. Die Zieldatensätze können daher Schlüsselwörter, Begriffe, Phrasen, Zahlen, Daten und/oder andere Informationen umfassen, die der Identifikation und/ oder Definition von Informationen des Typs dienen, die der Benutzer zu lokalisieren wünscht.
  • Ähnlich können die Schlüsseldatensätze Schlüsselworte, Begriffe, Phrasen, Zahlen, Daten und/oder andere Informationen umfassen.
  • Die beschriebene bevorzugte Ausführungsform weist zwei weitere Eingänge auf. Hierbei handelt es sich um Haltelisteninformationen 210 und Stamminformationen 220, die zur Erzeugung der Schlüsseldatensätze 225 anhand einer Datengruppe 200 verwendet werden.
  • Die Haltelisteninformationen 210 enthalten Listen von Datensätzen, wie allgemein verwendeten Wörter und bestimmten und unbestimmten Artikeln, die typischer Weise nicht der Identifikation des Themas der Datengruppe 200 dienen. Eine derartige Liste kann zum Löschen überflüssiger Datensätze aus der Datengruppe 200 verwendet werden. Auf diese Weise können Datensätze identifiziert und zu einem Satz von Schlüsseldatensätzen 225 zusammengefaßt werden, die mit größerer Wahrscheinlichkeit wesentlich für das Thema der Datengruppe 200 sind. Die Halteliste 210 kann auch Datensätze wie allgemeine Phrasen und Begriffe enthalten.
  • Die Stamminformationen 220 enthalten eine Liste von Präfixen und Suffixen, die zum Reduzieren der Datensätze in dem Satz von Schlüsseldatensätzen 225 auf eine Grundform verwendet werden. Es wird beispielsweise davon ausgegangen, daß das Wort "schweben" ein Datensatz in dem Satz von Schlüsseldatensätzen 225 ist. Die Stamminformationen 220 dienen vorzugsweise dem Reduzieren von "schweben" und beispielsweise sämtlicher zusätzlicher Erscheinungsformen wie »schwebend", "geschwebt", "schwebte", etc. in dem Schlüsseldatensatz 225 auf die Grundform "schweb".
  • Alternativ kann der Porter'sche Algorithmus verwendet werden, um die in dem Satz Schlüsseldatensätze 225 enthaltenen Schlüsseldatensätze auf ihre Grundform zurückzuführen. Der Porter'sche Algorithmus ist in "An Algorithm for Suffix Stripping" von M. F. Porter, 1980, veröffentlicht in Program 14(3), Seiten 130-137 beschrieben.
  • Es wird darauf hingewiesen, daß Haltelisten und Stamminformationen nicht entscheidend für ein System zur Erzeugung eines Satzes von Schlüsseldatensätzen 225 einer Datengruppe 200 sein müssen. Insbesondere muß die Prozedur zur Bildung der Grundform nicht erforderlich sein, wenn das System statt dessen Zugriff auf eine vollständige Wörterbucheinstellung mit den beiden Teilen Sprache und Wortendungen hat. Der Sinn der Prozedur zur Bildung der Grundform ist lediglich die Gleichstellung verwandter Worte, und in dieser Hinsicht könnte auch ein Thesaurus nützlich sein.
  • Alternative Ausführungsformen der vorliegenden Erfindung können einen Algorithmus und/oder ein System zur Verarbeitung natürlicher Sprachen oder eine andere bekannte Technik zur Identifikation von Schlüsseldatensätzen 225 in einer Datengruppe 200 nutzen.
  • Bei der Verwendung der Zusammenfassungseinrichtung 100 sind die Abschnitte 295 bei einer vorwiegend in Prosa geschriebenen Datengruppe 200 typischerweise Sätze oder Absätze. Bei dem nachstehend beschriebenen Beispiel ist jeder der Abschnitte 295 ein Satz der Datengruppe 200.
  • Als erster Schritt zur Auswahl der Abschnitte zur Erzeugung einer Zusammenfassung werden die Abschnitte 295 mit einem Satz Zieldatensätze 215 verglichen. Dieser Satz von Zieldatensätzen 215 kann beispielsweise ein Satz Schlüsselwörter aus einem Benutzerprofil sein, das auch für andere Prozesse verwendet wird. In der Tat sind bei der Ausführungsform gemäß Fig. 1 die Benutzerprofilinformationen, auf die die Zusammenfassungseinrichtung 100 zugreifen kann und die Zieldatensätze für jeweilige Benutzer enthalten, tatsächlich die im Profilspeicher 115 gespeicherten zur Verwendung durch das Informationsabrufprogramm 105. Jedes Benutzerprofil im Profilspeicher enthält zumindest teilweise einen Satz von Zieldatensätzen 215 für den betreffenden Benutzer, die auch in das Verarbeitungsmodul 205 der Zusammenfassungseinrichtung 100 eingegeben werden können.
  • Auf der Grundlage des Vergleichs zwischen den Abschnitten 295 der Datengruppe 200 und eines ausgewählten Satzes von Zieldatensätzen 215 wird jedem Abschnitt 295 ein Rangwert 285 zugewiesen, der ein Meßwert des Ausmaßes ist, in dem er den Satz von Zieldatensätzen 215 enthält.
  • Dann wird auch ein Verteilungswert 290 für jeden Abschnitt 295 berechnet. Der Verteilungswert 290 fungiert als Meßwert für die Relevanz jedes Abschnitts 295 für das Thema der Datengruppe 200 als Ganzer. Die Methoden zur Berechnung der Rangwerte 285 und der Verteilungswerte 290 werden nachstehend genauer beschrieben. Bei der vorliegenden Ausführungsform zeigt ein vergleichsweise hoher Verteilungswert 290, daß ein Abschnitt 295 mehr das Thema einer Datengruppe 200 betreffende Einzelheiten als ein Abschnitt 295 mit einem vergleichsweise niedrigem Verteilungswert 290 enthält.
  • Dann wird unter Verwendung der Regeln 230 zur Erzeugung von Zusammenfassungen auf der Grundlage der Rangwerte 285 und der für die Abschnitte 295 berechneten Verteilungswerte eine Zusammenfassung 235 der Datengruppe 200 erzeugt. Eine Zusammenfassung 235 der Datengruppe 200 kann beispielsweise durch Ordnen der Abschnitte 295 entsprechend ihren Rangwerten 285 und anschließendes Verändern der Rangwerte 285 entsprechend den Verteilungswerten 290 erzeugt werden. Vom hochstrangigen ausgehend wird dann nacheinander eine vorgegebene Anzahl an Abschnitten 295 ausgewählt und als Zusammenfassung 235 ausgegeben.
  • Die Zusammenfassung 235 kann durch Wiedergabe der ausgewählten Abschnitte in unterschiedlichen Reihenfolgen erstellt werden. Die ausgewählten Abschnitte können beispielsweise entweder in der Reihenfolge wiedergegeben werden, in der sie in der Datengruppe 200 auftauchen, oder in der Reihenfolge ihres durch den Verteilungswert 290 modifizierten Rangwerts 285. Die Art und Weise, in der die Zusammenfassung 235 erstellt wird, kann vorzugsweise durch den Benutzer gewählt werden.
  • Die Informationszusammenfassungseinrichtung 100 und ihre Funktionsweise werden nun genauer beschrieben.
  • Gemäß Fig. 3 umfassen die Hauptkomponenten der Informationszusammenfassungseinrichtung 100 das Verarbeitungsmodul 205, einen Satz Datenspeicher und eine Eingabe-/Ausgabe-Kapazität (E/A-Kapazität) 360. Die Informationszusammenfassungseinrichtung 100 umfaßt Software und Datenspeicher, die auf bekannte Plattformtypen, wie einen File Server 130 des Kunden, geladen werden und auf diesen laufen können. Die Hardware zur Unterstützung der Zusammenfassungseinrichtung 100 kann daher einem bekannten Typ angehören, im allgemeinen ein Betriebssystem einen Datenspeicher und Verarbeitungskapazitäten aufweisen, zur Unterstützung des Datenflusses 320 zwischen den verschiedenen Komponenten geeignet sein und nötigenfalls die Kommunikation 315 beispielsweise zwischen dem Verarbeitungsmodul 205 und der E/A-Kapazität 360 steuern. (Obwohl sie in Fig. 3 getrennt dargestellt sind, können das Verarbeitungsmodul 205 und die E/A-Kapazität 360 in der Praxis als unterschiedliche Teile des gleichen Softwaremoduls konzipiert sein.)
  • Das Verarbeitungsmodul 205 enthält den auf einer Verarbeitungskapazität, wie Mikroprozessoren des File Servers 130, installierten Softwareprozeß, der die Zusammenfassung einer Datengruppe 200 als Reaktion auf Eingaben über die E/A-Kapazität 360 initiiert und steuert.
  • Die Datenspeicher umfassen:
  • - einen Speicher 330 für die Regeln zur Unterteilung der Daten, in dem die Regeln zur Unterteilung der Daten gespeichert sind,
  • - einen Haltelistenspeicher 335, in dem die Halteliste 210 gespeichert ist,
  • - einen Speicher 340 für die Regeln zur Wortstammbildung, in dem die Informationen zur Wortstammbildung 220 gespeichert sind,
  • - einen Zieldatensatzspeicher 350, in dem der Satz von Zieldatensätzen 215 gespeichert ist,
  • - einen Speicher 355 für die verarbeiteten Daten, in dem die von dem Verarbeitungsmodul 205 verarbeiteten Daten gespeichert sind,
  • - einen Datengruppenspeicher 365, in dem die Datengruppen 200 gespeichert sind,
  • - einen Speicher 395 für die Regeln für die Verteilungswerte, in dem die Regeln für die Verteilungswerte gespeichert sind, und
  • - einen Speicher 390 für die Regeln zur Erstellung einer Zusammenfassung, in dem die Regeln 230 zur Erstellung von Zusammenfassungen gespeichert sind.
  • Obwohl sie aus Gründen der Klarheit in Fig. 3 getrennt dargestellt sind, müssen einer oder mehrere der Datenspeicher nicht getrennt von dem Verarbeitungsmodul 205 vorgesehen sein, sondern die Inhalte können einfach in die Logik des Verarbeitungsmoduls 205 eingebettet sein. Ferner müssen die Datenspeicher nicht notwendigerweise einen dauerhaften Speicher bereitstellen. Der Zieldatensatzspeicher 350 kann beispielsweise einfach für die Dauer eines Zusammenfassungsprozesses an einer einzigen Datengruppe von einem Benutzer oder von einem anderen Prozeß eingegebene Zieldatensätze speichern.
  • Die Funktionen der E/A-Kapazität 360 gehören im allgemeinen einem bekannten Typ an und werden hier daher nicht genau besprochen. Die Art der von ihr gebotenen Funktionen ist jedoch wie folgt.
  • Die E/A-Kapazität 360 kommuniziert mit Systemen und Komponenten außerhalb der Zusammenfassungseinrichtung 100, wie dem Personal Computer bzw. dem Arbeitsplatz 140 eines Benutzers oder einem Informationsdienstprogramm 105. Sie kann ferner mit einem Firmenkommunikationsnetzwerk 145 und/oder dem Internet verbunden sein, so daß entfernte Benutzer, Systeme und Komponenten auf die Zusammenfassungseinrichtung 100 zugreifen und sie laufen lassen können. Die E/A-Kapazität 360 stellt im allgemeinen Schnittstellen für das Empfangen von Datengruppen 200 zur Verarbeitung und zur Ausgabe von Zusammenfassungen 235 bereit. Diese Schnittstellen können daher so beschaffen sein, daß sie Text-, Word- und HTML-Formate (HTML: HyperText Markup Language) beispielsweise zur Übertragung durch allgemein verwendete Protokolle, wie das Simple Message Transfer Protocol (SMTP), das HyperText Transfer Protocol (HTTP) und das File Transfer Protocol (FTP), akzeptieren und ausgeben. Die E/A-Kapazität 360 bildet auch die Benutzerschnittstelle zu der Zusammenfassungseinrichtung 10 und weist daher im allgemeinen beispielsweise eine Formkapazität zur Aufnahme von Benutzeranfragen und -informationen auf, gegebenenfalls zusammen mit einem Registrierungs- und Authentifizierungsprozeß, so daß nur registrierte Benutzer die Zusammenfassungseinrichtung nutzen können.
  • Wenn das Verarbeitungsmodul 205 zur Verarbeitung von Datengruppen 200 in verschiedenen Formaten, wie reinem Text, Word und HTML, geeignet ist kann die E/A-Kapazität 360 so arbeiten, daß dem Modul 205 sie Datengruppen 200 präsentiert, soweit sie ankommen oder in kompatiblen Formaten gespeichert sind. Wenn das Modul jedoch nur zur Verarbeitung von Datengruppen 200 in einem oder zwei Formaten, beispielsweise nur Text, geeignet ist, kann die E/A-Kapazität 360 vorzugsweise auch einen Filter- oder Umwandlungsprozeß bereitstellen, so daß Datengruppen 200 mit anderen Formaten in das akzeptierte Format umgewandelt werden können. Software für diesen Zweck ist im Handel erhältlich, daher wird hier auf eine genauere Beschreibung verzichtet.
  • Es wird jedoch darauf hingewiesen, daß Filter dieser Art normalerweise arbeiten, indem sie Formatierungszeichen, beispielsweise für Fettdruck und unterschiedliche Schrifttypen, aus einer Datei entfernen. Dies kann bedeuten, daß normalerweise in einer Datei vorhandene Informationen verloren gehen, die für einige Formen der erfindungsgemäßen Zusammenfassungseinrichtung nützlich wären. So könnten beispielsweise durch ein derartiges Filter entfernte Überschriftenformatierungszeichen anderenfalls zur Erhöhung der Rangwerte verwendet werden, die den Abschnitten einer Datengruppe 200 zugewiesen werden, die Überschriften sind.
  • Die E/A-Kapazität 360 kann auch eine Schnittstelle bereitstellen, die von anderen Prozessoren aufgerufen werden kann, so daß die Erstellung einer Zusammenfassung innerhalb einer anderen Verarbeitung ausgeführt werden kann. Ein Beispiel hierfür könnte beispielsweise ein Meldungsdienstprogramm eines Verwaltungssystems sein, das die Aufgabe hat, Benutzern auf höherer Ebene Zusammenfassungen zu liefern. Ein derartiges Meldungsdienstprogramm kann das Zusammenfassungsprogramm 100 an Dokumenten ausführen, die es in sein System laden muß, wobei es Zieldatensätze verwendet, die bereits im Zusammenhang mit den Benutzer höherer Ebene gespeichert sind. Ein derartiges Meldungsdienstprogramm kann sowohl die Datengruppen 200 als auch die Zieldatensätze 215 mittels der E/A-Kapazität 360 direkt in das Zusammenfassungsprogramm 100 laden müssen.
  • Beim Betrieb können zusammenzufassende Datengruppen 200 in den Datengruppenspeicher 365 geladen werden. Dies kann auf "Einzelbasis" erfolgen, beispielsweise vom Firmennetzwerk 145, oder als Stapel- oder Wiederholungsprozeß, beispielsweise über das Informationsdienstprogramm 105 als Schritt eines regulären Vorgangs, der ansonsten durch das Informationsdienstprogramm 105 ausgeführt wird. Der Empfang und das Laden können auch von der E/A- Kapazität 360 übernommen werden, beispielsweise als Reaktion auf direkte Eingaben eines entfernten Benutzers oder als Reaktion auf Benutzereingaben über das Informationsdienstprogramm 105.
  • Auch Gruppen von Zieldatensätzen 215 können auf einer "Einzelbasis" oder als Teil eines Stapel- oder Wiederholungsprozesses geladen werden, diesmal in den Zieldatensatzspeicher 350. Ein Benutzer kann beispielsweise eine Gruppe von Zieldatensätzen 215 zur Verwendung für einen bestimmten Zusammenfassungsvorgang eingeben, oder Gruppen von Zieldatensätzen 215 können als Ausgang eines Benutzeranmeldevorgangs für einen Zusammenfassungsdienst geladen werden. Wiederum kann das Empfangen und Laden von der E/A-Kapazität 360 übernommen werden.
  • Alternativ kann bei der Ausführungsform gemäß Fig. 1 eine Gruppe von Zieldatensätzen 215 vom Informationsdienstprogramm 105 zum Zieldatensatzspeicher 350 gesendet werden. Hierbei kann die an den Zieldatensatzspeicher 345 gesendete Gruppe von Zieldatensätzen 215 ein im Profilspeicher 15 gespeichertes Benutzerprofil sein.
  • Eine von einem Benutzer oder über einen anderen Eingang des Zusammenfassungsprogramms 100 empfangene Gruppe von Zieldatensätzen 21 S kann in der Praxis durch das Verarbeitungsmodul 205 modifiziert werden, um sie beispielsweise so zu erweitern, daß sie Synonyme oder verwandte Worte enthält. Dies könnte unter Verwendung eines Thesaurus oder unter Verwendung einer Informationskonzentrationstechnik erfolgen, beispielsweise der in der vorstehend erwähnten, gleichzeitig anhängigen internationalen Anmeldung PCT GB96/00132 des Anmelders beschriebenen, bei der eine Ähnlichkeitsmatrix verwendet wird.
  • Jeder der vorstehend im Zusammenhang mit Fig. 3 beschriebenen Datenspeicher kann Teil eines Direktzugriffsspeichers, eines Festplattenlaufwerks, einer Kombination beider oder anderer derartiger Speichervorrichtungen sein, die in der Technik allgemein bekannt sind.
  • Prozeßübersicht
  • Fig. 4 zeigt die Schritte bei einer Ausführungsform der vorliegenden Erfindung. Insbesondere zeigt sie die an der Verarbeitung einer Datengruppe 200 durch ihre Unterteilung in Abschnitte und durch Zuweisung von Rangwerten zu den Abschnitten entsprechend dem Vorhandensein von Zieldatensätzen in den Abschnitten beteiligten Schritte.
  • Dieser vom Verarbeitungsmodul 205 ausgeführte Prozeß wird beispielsweise als Reaktion auf eine hereinkommende Anforderung vom Arbeitsplatz 140 eines Benutzers auf die bekannte Weise von der E/A-Kapazität 360 in Gang gesetzt. Die hereinkommende Anforderung kann einen URL (Universal Ressource Locator) für eine über das Internet verfügbare Datei (eine Datengruppe 200), die Angabe, daß eine Zusammenfassung erforderlich ist, und normalerweise auch eine Benutzeridentifikation enthalten. Alternativ kann die Benutzereingabe selbstverständlich die Datengruppe 200 oder Mittel für das Verarbeitungsmodul 205 zur Lokalisierung einer ausgewählten Datengruppe umfassen, die bereits im Datengruppenspeicher 365 gespeichert ist. Die Benutzereingabe kann auch eine Gruppe von Zieldatensätzen 215 enthalten, oder die Benutzeridentifikation kann ausreichen, damit das Verarbeitungsmodul 205 eine Gruppe von Zieldatensätzen 215 im Zieldatensatzspeicher 350 lokalisieren kann.
  • In einem Schritt 400 lädt das Verarbeitungsmodul 205 die Datengruppe von dem gegebenen URL über das Internet oder aus dem Datenspeicher 365 herunter und wählt eine Gruppe von Datenunterteilungsregeln 240 aus dem Speicher 330 für die Regeln für die Datenunterteilung aus. In einem Schritt 405 wird die Datengruppe 200 entsprechend den Datenunterteilungsregeln 240 in Abschnitte 295 unterteilt. Jeder Abschnitt wird dann vorzugsweise in dem Speicher 355 für die verarbeiteten Daten gespeichert. Weitere Einzelheiten des Aufbaus des Speichers 355 für die verarbeiteten Daten werden nachstehend unter Bezugnahme auf Fig. 5 beschrieben.
  • Wenn die Benutzereingabe keine Gruppe von Zieldatensätzen 215 enthält, ruft das Verarbeitungsmodul 205 in einem Schritt 410 eine Gruppe aus dem Zieldatensatzspeicher 350 ab, die beispielsweise anhand der entsprechenden Benutzeridentifikation ausgewählt wird. Das Verarbeitungsmodul 205 vergleicht dann jeden Abschnitt 295 mit der Gruppe von Zieldatensätzen 215.
  • Der Zweck dieses Vergleichs ist die Identifikation der Anzahl der Male, die Datensätze aus der Gruppe von Zieldatensätzen 215 in jedem ausgewählten Abschnitt 295 auftauchen.
  • In einem Schritt 415 wird jedem Abschnitt 295 entsprechend der Anzahl der Male, die die Zieldatensätze in dem ausgewählten Abschnitt 295 auftauchen, ein Rangwert 285 zugeordnet. Dieser Rangwert 285 wird zur Identifikation der Abschnitte 295 der Datengruppe 200 verwendet, die stark mit der Gruppe von Zieldatensätzen 215 übereinstimmt. Alternativ können die Rangwerte 285 so modifiziert werden, daß Schlüsseldatensätze, die in einem Abschnitt 295 wiederholt auftauchen, nur einmal berücksichtigt werden.
  • In einem Schritt 420 wird auf die Rangwerte 285 der Abschnitte 295 zugegriffen, und eine Zusammenfassung wird erstellt. Bei einer Ausführungsform wird die Zusammenfassung nur anhand der Rangwerte 285 erstellt, wobei eine vorgegebene Anzahl an Abschnitten 295 aus den Abschnitten 295 mit den höchsten Rangwerten 285 ausgewählt wird.
  • Bei weiteren Ausführungsformen, die nachstehend genauer besprochen werden, werden verschiedene andere Regeln auf die Datengruppe 200 angewendet. Sie zielen auf die Erstellung einer Zusammenfassung ab, die Kontextinformationen über die Datengruppe 200 enthalten, so daü die Abschnitte 295, die die Zusammenfassung bilden, im Kontext mit der Datengruppe 200 als Ganzer betrachtet werden können.
  • Sämtliche Regeln zur Erzeugung und Modifikation der Rangwerte 285 können im Speicher 390 für die Zusammenfassungsregeln gespeichert sein, oder eine oder mehrere können in das Verarbeitungsmodul 205 eingebaut sein.
  • Die Unterteilung
  • Fig. 5 ist ein genaueres Ablaufdiagramm des Schritts 405 in Fig. 4.
  • In einem Schritt 505 werden die Regeln zur Unterteilung einer Datengruppe 200 in Abschnitte 295 aus dem Speicher 330 für die Regeln zur Unterteilung der Daten abgerufen. Diese Regeln beeinflussen die Art und Weise, in der eine Zusammenfassung für den Endbenutzer zusammengestellt wird. Wenn eine Datengruppe 200 in Sätze unterteilt wird, führt dies zu einer anderen Zusammenfassung als bei einer Datengruppe 200, die in Absätze unterteilt wurde. Ähnlich kann eine Tabelle in Zellen, Zeilen oder Spalten unterteilt werden. Daher kann es vorteilhaft sein, wenn der Benutzer die im Einzelnen anzuwendenden Datenunterteilungsregeln auswählen kann. Die Auswahl kann durch eine Interaktion zwischen dem Benutzer und der E/A-Kapazität 360 erfolgen und an das Verarbeitungsmodul 205 weitergeleitet werden.
  • In einem Schritt 510 wird die ausgewählte Datengruppe 200 aus dem Datengruppenspeicher 355 abgerufen, und ein Positionswert 280 wird vorzugsweise so initialisiert, daß die identifizierten Abschnitte 295 der ausgewählten Datengruppe 200 in numerisch aufsteigender Reihenfolge markiert werden können.
  • In einem Schritt 515 wird der Anfang der Datengruppe 200 als Beginn eines Abschnitts 295 gekennzeichnet und mit dem aktuellen Positionswert 280 markiert, der in diesem Fall "1" beträgt.
  • In einem Schritt 520 wird der erste Datensatz der Datengruppe 200 gelesen, und in einem Schritt 525 wird er daraufhin überprüft, ob er einer der durch die Unterteilungskriterien vorgegebenen Regeln entspricht. Wenn der Datensatz beispielsweise ein Punkt ist, der "Satzende" bedeutet, dann wird gemäß einer eingestellten Regeln das Ende eines Abschnitts 295 identifiziert.
  • Wenn das durch die Unterteilungsregeln vorgegebene Kriterium für das Ende des Abschnitts 295 nicht erfüllt ist, werden der Schritt 520, in dem der nächste Datensatz gelesen wird, und der Schritt 525, in dem der nächste Datensatz überprüft wird, wiederholt, bis das Ende eines Abschnitts 295 identifiziert ist.
  • Wenn das Ende eines Abschnitts 295 identifiziert wird, wird der Schritt 530 zur Überprüfung auf das Ende der Datengruppe 200 ausgeführt. Ist das Ergebnis der Überprüfung negativ, wird der Schritt 535 ausgeführt, in dem der Positionswertzähler hochgezählt wird, und der vorstehend beschriebene Prozeß des Schritts 515 wird ausgeführt, in dem der Anfang eines Abschnitts 295 gekennzeichnet und er mit dem aktuellen Wert des Positionszählers versehen wird.
  • Wenn das Ende einer Datengruppe 200 identifiziert wird, wird die ergänzte Datengruppe 200 im Datengruppenspeicher 355 gespeichert.
  • Alternativ muß die Datengruppe 200 nicht mit Abschnittsmarkierungen und -kennzeichnungen versehen werden. Es könnte eine Verknüpfungslistenstruktur verwendet werden, bei der jeder Abschnitt als individuelles Element der verknüpften Liste gespeichert wird. Eine weitere Alternative ist das individuelle Speichern jedes Abschnitts in einer dynamisch erstellten Anordnung.
  • Durch die Anwendung der Schritte gemäß Fig. 5 auf die Datengruppe 200 gemäß Fig. 2 ergeben sich die nachstehend aufgeführten Ergebnisse. Bei diesem Bespiel sind die angewendeten Unterteilungsregeln, daß jeder Satz einen Abschnitt 295 repräsentiert und daß jedem Abschnitt 295 in numerisch aufsteigender Reihenfolge ein Positionswert 280 zugeordnet wird.
  • Tabelle 1
  • 1: Die Katze saß auf dem Kissen.
  • 2: Ein Kissen, ein Kissen, mein Königreich für ein Kissen!
  • 3: Der Hund saß ebenfalls auf dem Kissen.
  • 4: Sowohl der Hund als auch die Katze saßen auf dem Kissen.
  • 5: Das Kissen liegt auf dem Boden.
  • 6: Die Nacht war klar.
  • 7: Ich zählte in dieser Nacht die Sterne.
  • 8: Der Hund saß auf dem Boden.
  • Die Zuweisung von Rangwerten unter Verwendung von Zieldatensätzen
  • Fig. 6 zeigt die Schritte 4.10 und 415 gemäß Fig. 4, in denen jeder Abschnitt 295 mit der Gruppe von Zieldatensätzen verglichen und anschließend jedem Abschnitt 295 ein Rangwert 285 zugewiesen wird. In einem Schritt 605 werden die Zieldatensätze aus dem Zieldatensatzspeicher 345 abgerufen, und in einem Schritt 610 wird der erste Datensatz des ersten Abschnitts 295 abgerufen, worauf ein Schritt 615 folgt, in dem die Gruppe von Zieldatensätzen 215 mit dem ausgewählten Datensatz verglichen wird.
  • Wenn in einem Schritt 620 bei dem Vergleich der Gruppe von Zieldatensätzen 215 mit dem ausgewählten Datensatz eine Übereinstimmung festgestellt wird, wird ein Schritt 625 ausgeführt, in dem der Rangwert 285 für den aktuellen Abschnitt 295 hochgezählt wird. Wird im Schritt 620 keine Übereinstimmung festgestellt, wird der Rangwert 285 des Abschnitts 295 nicht hochgezählt, und der Schritt 630, in dem überprüft wird, ob das Ende des ausgewählten Abschnitts 295 erreicht ist, wird sofort ausgeführt.
  • Wenn die Datengruppe 200 während des unter Bezugnahme auf Fig. 5 beschriebenen Unterteilungsprozesses markiert und gekennzeichnet wurde, können diese Markierungen zur Identifikation des Endes eines Abschnitts 295 verwendet werden.
  • Sind die Ergebnisse des Schritts 630, in dem überprüft wird, ob das Ende eines Abschnitts 295 erreicht ist, negativ, wird der Schritt 635 ausgeführt, in dem der nächste Datensatz der Datengruppe 200 ausgewählt wird, und der Prozeß wird auf den Schritt 615 zurückgestellt, in dem der ausgewählte Datensatz mit der Gruppe von Zieldatensätzen verglichen wird, worauf der Schritt 625 ausgeführt wird, in dem der Rangwert 285 des aktuellen Abschnitts 295 für den neu ausgewählten Datensatz (gegebenenfalls) hochgezählt wird.
  • Wenn das Ergebnis des Schritts 630, in dem überprüft wird, ob das Ende eines Abschnitts 295 erreicht ist, positiv ist, wird der Schritt 640 ausgeführt, in dem überprüft wird, ob das Ende der Datengruppe 200 erreicht ist. Typischer Weise wird der aktuelle Datensatz mit dem Zeichen "Ende der Datei" oder einer anderen Standardmarkierung zur Angabe des Endes der Datengruppe 200 verglichen.
  • Wenn im Schritt 640 festgestellt wird, daß das Ende der Datengruppe 200 nicht erreicht ist, wird der Schritt 645 ausgeführt, in dem der nächste Abschnitt 295 ausgewählt und ein Rangwert 285 für den neu ausgewählten Abschnitt 295 initialisiert werden. Danach wird der Schritt 635 ausgeführt, in dem der nächste Datensatz des neu ausgewählten Abschnitts 295 ausgewählt wird, bevor der Vorgang für den neu ausgewählten Datensatz auf den Schritt 615 zurückgesetzt wird.
  • Bei der beispielhaften Datengruppe 200 gemäß Fig. 2 sind die Zieldatensätze "Nacht" und "Stern". Nach Abschluß der Schritte gemäß Fig. 6 an der beispielhaften Datengruppe 200 ergibt sich: Tabelle 2
  • (Es wird darauf hingewiesen, daß die vorstehende und die nachstehende Beschreibung die Abschnitte 295 einer Datengruppe 200 gleichermaßen betreffen. Einige Abschnitte in der Datengruppe 200 können jedoch eine höhere relative Wesentlichkeit aufweisen, und ihnen kann ein höherer Rangwert 285 zugewiesen werden. Die Überschriften einer HTML-Datei sind beispielsweise identifizierbar, und das Verarbeitungsmodul 205 kann so aufgebaut sein, daß es sie erfaßt und ihren Rangwert 285 erhöht.)
  • Die Erstellung einer Zusammenfassung
  • Fig. 7 zeigt den Schritt 420 gemäß Fig. 4, in dem eine Zusammenfassung einer Datengruppe 200 erstellt wird, sowie der Rangwert 285 jedes Abschnitts 295 bestimmt ist.
  • In einem Schritt 705 wird von dem Modul 305 zur Steuerung der Zusammenfassung auf die Regeln zur Erstellung einer Zusammenfassung zugegriffen. Diese Regeln beschreiben die Prozeduren zur Auswahl der Abschnitte 295, die die Zusammenfassung bilden.
  • Bei dem vorliegenden Beispiel werden durch die Regeln in absteigender Reihenfolge die Abschnitte 295 mit dem höchsten Rangwert 285 ausgewählt, bis eine Zusammenfassung mit einer vorgegebenen Länge erstellt ist.
  • Nachstehend beschriebene, weitere Ausführungsformen können komplexere Regeln verwenden.
  • In einem Schritt 710 werden die Rangwerte 285 jedes Abschnitts 295 abgerufen und mit den Zusammenfassungsregeln verglichen.
  • In einem Schritt 720 werden die Abschnitte 295 ausgewählt, die den Regeln entsprechen, und dann wird in einem Schritt 725 ein Ordnen der Abschnitte 295 in der Zusammenfassung ausgeführt.
  • Zumindest zwei Methoden zum Ordnen der Zusammenfassung sind möglich, wobei die erste das Ordnen der Zusammenfassung entsprechend den Rangwerten 285 in aufsteigender oder absteigender Reihenfolge ist. Die andere Methode ist das Ordnen der Rangwerte 285 in der Reihenfolge der Abschnitte 295, d. h. in der Reihenfolge, in der die Abschnitte 295 in der Datengruppe 200 auftauchen.
  • Nach dem Schritt 725, in dem die Abschnitte 295 der Zusammenfassung geordnet werden, kann der Schritt 730 ausgeführt werden, in dem die Zusammenfassung entsprechend einem in der Technik allgemein bekannten Verfahren ausgegeben oder gespeichert wird.
  • Nach den Schritten gemäß Fig. 7 besteht die Zusammenfassung der beispielhaften Datengruppe 200 aus den Abschnitten 6 und 7, nämlich:
  • 6: Die Nacht war klar.
  • 7: Ich zählte in dieser Nacht die Sterne.
  • Dies liegt daran, daß diese Abschnitte 295 jeweils die Rangwerte 1 und 2 aufweisen. Es sind keine weiteren Abschnitte 295 enthalten, da sämtliche übrigen Abschnitte 295 den gleichen Rangwert aufweisen, nämlich 0.
  • Bei den nachstehend beschriebenen weiteren Ausführungsformen können weitere Abschnitte 295 der Datengruppe 200 in der Zusammenfassung enthalten sein.
  • Derartige Ausführungsformen haben den Vorteil, daß sie eine Zusammenfassung 235 erstellen, die auf den Abschnitten 295 basiert, die Zieldatensätze enthalten und zusätzliche Abschnitte 295 der Datengruppe 200 enthalten, die der Einordnung der Zusammenfassung 235 in den Kontext des Gesamtthemas der ausgewählten Datengruppe 200 dienen.
  • Die Erzeugung von Gruppen von Schlüsseldatenwerten
  • In den Fig. 8, 9 und 10 sind bestimmte Aspekte einer weiteren Ausführungsform dargestellt, die eine Modifizierung der Rangwerte 285 nach Maßgabe von die Datengruppe 200 betreffenden Kontextinformationen ermöglichen. Für jede Datengruppe wird eine Gruppe von Schlüsseldatensätzen erzeugt, wobei die Schlüsseldatensätze relativ stark von dem Gesamtthema der Datengruppe 20 abhängen. Jeder Abschnitt 295 wird überprüft, um einen Verteilungswert 290 zu erhalten, der den Anteil an Schlüsseldatensätzen wiedergibt, die in diesem Abschnitt auftauchen. Die Verteilungswerte 290 werden dann zur Modifikation der Rangwerte 285 der Abschnitte verwendet.
  • Die Verteilungswerte 290 können, wie nachstehend beschrieben, nach Maßgabe zahlreicher unterschiedlicher Regeln berechnet und modifiziert werden, wobei diese zur Verwendung durch das Verarbeitungsmodul 205 im Speicher 395 für die Regeln für die Verteilungsregeln gespeichert werden. (Sie können, wie vorstehend erwähnt, selbstverständlich alternativ in die Prozeßlogik eingebettet sein.)
  • Gemäß Fig. 8 ist ein Schritt bei der Erstellung einer Gruppe von Schlüsseldatensätzen 200 das Herausnehmen von für das Gesamtthema wenig relevanten Wörtern. Dies kann unter Verwendung der Halteliste 210 erfolgen.
  • In einem Schritt 805 wird auf den ersten Datensatz des ersten Abschnitts 295 der Datengruppe 200 zugegriffen, und ein Schritt 810 wird ausgeführt, in dem überprüft wird, ob es sich um einen Schlüsseldatensatz handelt. Typischer Weise besteht der Schritt 810, in dem eine Überprüfung auf einen Schlüsseldatensatz erfolgt, in einem Zugriff auf die Halteliste 210 im Haltelistendatenspeicher 335. Wenn der ausgewählte Datensatz mit einem Wort in der Halteliste 210 übereinstimmt, wird er nicht als Schlüsseldatensatz behandelt.
  • Die Halteliste besteht typischer Weise aus Worten mit einem niedrigen Wert, wie Artikeln und Konjunktiven, die normalerweise nicht das Thema der zusammengefaßten Datengruppe 200 wiedergeben, beispielsweise aus Worten wie "es", "sind", "sie", "hat", "wobei", "bei", "in", etc.; etc.
  • Wenn ein Datensatz nicht mit den Wörtern in der Halteliste 210 übereinstimmt, wird der Schritt 815 ausgeführt, in dem der Datensatz in der Gruppe der Schlüsseldatensätze 225 im Schlüsseldatensatzspeicher 35 gespeichert wird. Dies erfolgt gemäß einer Methode, die der Identifikation des Abschnitts 295 dient, in der jeder Datensatz lokalisiert wurde, beispielsweise durch Zuweisung von Positionswerten 280 zu den Schlüsseldatensätzen 225.
  • Dann wird der Schritt 820 ausgeführt, in dem überprüft wird, ob das Ende der Datengruppe 200 erreicht ist, wobei ein negatives Ergebnis dazu führt, daß auf den nächsten Datensatz der Datengruppe 200 im Datengruppenspeicher 355 zugegriffen wird. Dann werden für jeden folgenden Datensatz der Schritt 810, in dem ein Schlüsseldatensatz 225 identifiziert wird, und der Schritt 815 wiederholt, in dem der Schlüsseldatensatz in dem Schlüsseldatensatzspeicher 350 gespeichert wird, bis das Ende der Datengruppe erreicht ist.
  • Dann wird der Schritt 835 ausgeführt, in dem in bezug auf die Schlüsseldatensätze 225 ein Verteilungswert für jeden der Abschnitte 295 der Datengruppe 200 berechnet wird. Diese Berechnung der Verteilungswerte wird nachstehend unter Bezugnahme auf Fig. 10 genauer beschrieben.
  • Alternative Ausführungsformen können nach unterschiedlichen Methoden eine Gruppe von Schlüsseldatensätzen 225 identifizieren und damit zu unterschiedlichen Verteilungswerten 290 gelangen. Zusätzliche Schritte werden beispielsweise unter Bezugnahme auf Fig. 9 beschrieben.
  • Der Zweck der Berechnung der Verteilungswerte der Schlüsseldatensätze ist die Bestimmung der Abschnitte 295, die das Thema der ausgewählten Datengruppe als Ganzer in größerem Ausmaß als andere Abschnitte 295 wiedergeben. Die Abschnitte 295, die das Thema der Datengruppe 200 als Ganzer in größerem Ausmaß wiedergeben, können dann in die Zusammenfassung aufgenommen werden.
  • Der Verteilungswert 290 dient in einem Schritt 840 als Mechanismus zur Verfeinerung der Rangwerte 285 und unterstützt die Auswahl der Abschnitte 295, die in die Zusammenfassung aufgenommen werden. Die Verfeinerung der Rangwerte wird nachstehend unter Bezugnahme auf die Fig. 10 bis 15 genauer beschrieben.
  • Bei der beispielhaften Datengruppe 200 sind die Zieldatensätze "Nacht" und "Stern". Der Prozeß gemäß den Fig. 7 und 8 erzeugt dann die folgende Schlüsseldatensatzgruppe 225 mit Rangwerten 285 und Positionswerten 280: Tabelle 3
  • Fig. 9 zeigt weitere Schritte, die zur Erstellung einer Gruppe von Schlüsseldatensätzen 225 verwendet werden können. Der hauptsächliche Unterschied zwischen den Fig. 8 und 9 ist der Schritt 920, in dem die Wortstämme der Schlüsseldatensätze gebildet werden, und der Schritt 945, in dem mehrfach oder einmalig auftauchende Schlüsseldatensätze aus der Gruppe 225 der Schlüsseldatensätze gelöscht werden.
  • Der Schritt 920, in dem der Wortstamm der Schlüsseldatensätze ermittelt wird, hat die vorstehend im Zusammenhang mit dem Porter'schen Algorithmus besprochene Wirkung der Reduzierung der Schlüsseldatensätze auf die Grundform. Dieser Schritt gewährleistet dadurch eine gesteigerte Genauigkeit der Berechnung der Verteilungswerte 290, daß verschiedene grammatikalische Formen der Schlüsseldatensätze, wie Substantive, Adjektive und Pluralformen jeweils eine Übereinstimmung mit einem angegebenen Zieldatensatz ergeben, wodurch der Rangwert des Abschnitts 295 erhöht wird.
  • Mehrfach auftretende Schlüsseldatensätze sind Datensätze, die mehr als einmal in einem Abschnitt 295 auftauchen. Der Schritt 945, in dem ein mehrfaches Auftauchen von Schlüsseldatensätzen aus der Gruppe 350 der Schlüsseldatensätze in einem einzelnen Abschnitt 295 der Datengruppe 200 gelöscht wird, kann auf den ersten Blick kontraproduktiv erscheinen. Es wurde jedoch festgestellt, daß Abschnitte, die mehrere verschiedene Schlüsseldatensätze 225 enthalten, relevanter für das Gesamtthema der Datengruppe 200 sein können, als Abschnitte, in denen ein Schlüsseldatensatz wiederholt auftaucht.
  • Einmalig auftauchende Schlüsseldatensätze tauchen in der gesamten Datengruppe 200 nur einmal auf. Sie werden ebenfalls aus den Schlüsseldatensätzen gelöscht.
  • Die Anwendung dieses Prozesses auf die verarbeitete Datengruppe 200 gemäß der vorstehend aufgeführten Tabelle 3 ergibt: Tabelle 3
  • Es wird darauf hingewiesen, daß bei dieser Ausführungsform davon ausgegangen wird, daß die Position der Datensätze in einem Abschnitt unerheblich ist. Es wird auch darauf hingewiesen, daß Wiederholungen des Worts "Kissen" aus Abschnitt 2 gelöscht wurden und daß "Königreich", "zählen" und "Stern" aus der Gruppe 350 der Schlüsseldatensätze entfernt wurden, da sie nur einmal in der Datengruppe 200 auftauchen.
  • Die Rangwerte 285 bleiben in diesem Stadium selbstverständlich unverändert.
  • Die Verteilungswerte
  • Fig. 10 zeigt ein Ablaufdiagramm des Schritts 830 gemäß Fig. 8, in dem ein Verteilungswert 290 für jeden Abschnitt 295 berechnet wird.
  • Er umfaßt eine Reihe von Schritten für jeden Abschnitt, nämlich einen Schritt 1005, einen Schritt 1015 und einen Schritt 1020, die gemeinsam eine Schleife zum aufeinanderfolgenden Zugreifen auf jeden der in dem Schlüsseldatensatzspeicher 350 gespeicherten Schlüsseldatensätze umfassen.
  • Diese Schleife endet mit dem Schritt 1010, in dem ein erster Wert für jeden Schlüsseldatensatz berechnet wird. Der erste Wert besteht aus der Anzahl der Male, die der betreffende Schlüsseldatensatz in jedem anderem Abschnitt 295 der Schlüsseldatengruppe 200 außer dem aktuellen Abschnitt 295 auftaucht. (Selbstverständlich kann der erste Wert nicht höher als die Gesamtzahl der Abschnitte minus eins sein, wenn mehrfach auftretende Datensätze, wie im Schritt 945, gelöscht wurden.)
  • Wenn der Schritt 1010, in dem der erste Wert für jeden Schlüsseldatensatz berechnet wird, für den ersten Abschnitt einmal ausgeführt ist, werden die Schritte 1005, 1010, 1015 und 1020 für jeden nachfolgenden Abschnitt wiederholt (nicht dargestellt).
  • Der Prozeß wird dann mit dem Schritt 1025 fortgesetzt, in dem ein Verteilungswert 290 für jeden Abschnitt 295 berechnet wird. Dies erfolgt durch Summieren der ersten Werte jedes Schlüsseldatensatzes in dem Abschnitt 295 für jeden Abschnitt 295.
  • Der Verteilungswert 290 gibt die Anzahl der Male wieder, die jeder der Schlüsseldatensätze eines Abschnitts 295 in den anderen Abschnitten 295 der Datengruppe 200 auftaucht, wobei davon ausgegangen wird, daß ein Datensatz um so wesentlicher für das Thema der ausgewählten Datengruppe 200 ist, je häufiger er auftaucht.
  • Tabelle 5 zeigt die Ergebnisse der Anwendung der Schritte gemäß Fig. 10 auf die beispielhafte Datengruppe 200 gemäß Fig. 2. Sie führt beispielsweise dazu, daß der letzte Abschnitt 295 den Verteilungswert "6" hat, weil "Hund" zweimal an anderer Stelle auftaucht, "sitzen" dreimal und "Boden" einmal: Tabelle 5
  • Der vorstehend beschriebene Schritt 1010, in dem ein erster Wert für jeden Schlüsseldatensatz berechnet wird, kann auch auf andere Weise ausgeführt werden, nämlich indem die Summe der Gesamtzahl der Male, die jeder Schlüsseldatensatz in der Schlüsseldatengruppe auftaucht, minus eins berechnet wird.
  • Die Verteilungswerte 290 für jeden Abschnitt werden dann zur Modifikation der Rangwerte 285 und damit zur Veränderung der erzeugten Zusammenfassung verwendet.
  • Typischer Weise weisen mehrere Abschnitte 295 den gleichen Rangwert auf. Dies liegt daran, daß der Rangwert ein ganzzahliger Wert ist, der der Anzahl der Zieldatensätze in dem ausgewählten Abschnitt 295 entspricht. Die Verteilungswerte 290 dienen als Meßwerte zum Ordnen der Abschnitte 295 mit dem gleichen Rangwert 285. Ein Ansatz zur Verwendung der Verteilungswerte 290 zur Modifikation der Rangwerte 285 ist das Dividieren jedes Verteilungswerts 290 durch zehn oder hundert (was immer geeigneter erscheint), so daß jeder Verteilungswert 290 auf einen dezimalen Wert reduziert wird, der dann zu jedem Rangwert addiert werden kann.
  • Bei dem vorliegenden Beispiel ergibt sich: Tabelle 6
  • Der zweite Wert des Datensatzes
  • Fig. 11 ist ein Ablaufdiagramm der zusätzlichen Funktion der Berechnung eines zweiten Werts für jeden Schlüsseldatensatz, die im Schritt 830 gemäß Fig. 8 enthalten sein kann. Der zweite Wert kann dann zur Modifikation der zuvor berechneten Verteilungswerte 290 jedes Abschnitts 295 oder zur separaten Berechnung neuer Verteilungswerte 290 verwendet werden.
  • Der Prozeß gemäß Fig. 11 stellt eine alternative Messung der Verteilung der Schlüsseldatensätze in der Gruppe der Schlüsseldatensätze dar.
  • Der Prozeß gemäß Fig. 11 beginnt mit dem Schritt 1105, in dem die Gruppe von Schlüsseldatensätzen 225 aus dem Schlüsseldatensatzspeicher 350 abgerufen wird, und durchläuft dann eine Reihe von Berechnungsschritten, nämlich die Schritte 1110, 1115 und 1120, bevor Steuerschleifentests ausgeführt werden, die sicherstellen, daß die Berechnungsschritte 1110, 1115, 1120 an jeden Schlüsseldatensatz ausgeführt werden.
  • Die Berechnungsschritte 1110, 1115 und 1120 dienen der Berechnung des zweiten Werts für jeden Schlüsseldatensatz. Der zweite Wert entspricht jedem Auftauchen eines Schlüsseldatensatzes in der Datengruppe 200. Dementsprechend muß er für jeden der Schlüsseldatensätze in der Gruppe 225 der Schlüsseldatensätze nur einmal berechnet werden. Im Schritt 1120 wird der einmal berechnete zweite Wert jedem Auftauchen des Schlüsseldatensatzes in der Gruppe 225 zugeordnet.
  • Als zweiter Wert wird der größte Abstand zwischen den Positionen des Schlüsseldatensatzes in der Gruppe 225 der Schlüsseldatensätze berechnet. Er wird berechnet, indem zunächst der Schritt 1110 ausgeführt wird, in dem der (im Schritt 515 gemäß Fig. 5 zugewiesene) höchste Positionswert und der niedrigste Positionswert eines Schlüsseldatensatzes in der Gruppe 225 von Schlüsseldatensätzen identifiziert und abgerufen werden. Darauf folgt der Schritt 1115, in dem für den ausgewählten Schlüsseldatensatz der niedrigste Positionswert von dem höchsten Positionswert subtrahiert wird.
  • Fig. 11 ähnelt Fig. 10 dahingehend, daß an jedem Schlüsseldatensatz eine Operation ausgeführt wird, die sämtliche Schlüsseldatensätze in der Gruppe 225 der Schlüsseldatensätze betrifft. Die Steuerschleife gemäß Fig. 11 unterscheidet sich jedoch von der gemäß Fig. 10. Sie kann abhängig von der spezifischen Implementierung und dem Verfahren für den Zugriff auf die Gruppe der Schlüsseldatensätze in dem Schlüsseldatensatzspeicher 350 ein effizienterer Prozeß als der gemäß Fig. 10 sein.
  • In dem Steuerschleifenschritt 1125 wird beispielsweise durch eine Überprüfung auf das Vorhandensein weiterer Daten überprüft, ob das Ende der Gruppe 225 der Schlüsseldatensätze erreicht ist. Ist das Ergebnis positiv, wird der nächste Schlüsseldatensatz ausgewählt. Wenn der zweite Wert für den ausgewählten Schlüsseldatensatz (im Schritt 1150) aufgrund des Auftauchens eines identischen Schlüsseldatensatzes in einem vorhergehenden Abschnitt 295 der Datengruppe 200 bereits berechnet wurde, wird der Prozeß auf den Schritt 1125 zurückgesetzt, um den nächsten Datensatz zu suchen. Wenn der ausgewählte Datensatz keinen zweiten Wert aufweist, wird der Prozeß für den ausgewählten Schlüsseldatensatz auf die Schritte 1110, 1115 und 1120 zurückgesetzt.
  • Tabelle 7 zeigt die Ergebnisse der Anwendung der Schritte gemaiS Fig. 11 auf die Schlüsseldatensätze der beispielhaften Datengruppe 200. Gemäß Tabelle 7 ergibt sich beispielsweise ein zweiter Wert von sieben für den Schlüsseldatensatz "sitzen", da er zuerst im Abschnitt 1 und zuletzt im Abschnitt 8 auftaucht und 8 minus 1 7 ergibt.
  • Tabelle 7
  • Schlüsseldatensatz zweiter Wert
  • Katze 3
  • sitzen 7
  • Kissen 4
  • Hund 5
  • Boden 3
  • Nacht 1
  • Wenn der Schritt 1125 einmal abgeschlossen ist und die zweiten Werte für jeden Schlüsseldatensatz berechnet sind, kann der Schritt 1140 ausgeführt werden, in dem die Schlüsseldatensätze zur Modifikation des Verteilungswerts 290 jedes Abschnitts 295 verwendet werden.
  • Dies kann durch Summieren der zweiten Werte für jeden Abschnitt 295 und Verwenden des Ergebnisses zur weiteren Verfeinerung des Ordnens der Abschnitte 295 erfolgen. Es kann zusätzlich zu dem gemäß Fig. 10 berechneten Verteilungswert 290 oder anstelle des Verteilungswerts 290 verwendet werden. Gemäß der obigen Tabelle 5 können die zweiten Werte jedes Abschnitts beispielsweise zu den ersten Werten addiert werden, um vor der Division die Verteilungswerte 290 zu ermitteln.
  • Der Vorteil der Verwendung der zweiten Werte ist, daß die Schlüsseldatensätze 225 relevanter für das Thema der Datengruppe 200 sein können, wenn sie in großen Abständen voneinander in der Datengruppe 200 auftauchen.
  • Die Erzeugung der Einstellwerte
  • Fig. 12 zeigt zusätzliche Schritte, die im Schritt 830 gemäß Fig. 8 enthalten sein können. In den in Fig. 12 gezeigten Schritten wird für jeden Abschnitt 295 ein Wert berechnet, der zum Einstellen des Verteilungswertes 290 verwendet werden kann. Er wird als erster Einstellwert bezeichnet und wird unter Verwendung des ersten und des zweiten Werts für jeden Schlüsseldatensatz und eines im Schritt 1210 gemäß Fig. 12 berechneten dritten Werts für jeden Schlüsseldatensatz berechnet.
  • Der Prozeß gemäß Fig. 12 weist ebenfalls zwei Steuerschleifen auf. Die erste Schleife stellt sicher, daß der Schritt 1210, in dem der dritte Wert berechnet wird, für jeden Schlüsseldatensatz der Datengruppe ausgeführt wird, und die zweite Steuerschleife stellt sicher, daß der Schritt 1230, in dem der erste Einstellwert berechnet wird, für jeden Abschnitt 295 ausgeführt wird.
  • Der Prozeß gemäß Fig. 12 beginnt mit dem Schritt 1205, in dem auf den ersten Schlüsseldatensatz im ersten Abschnitt 295 zugegriffen wird.
  • Die erste Schleife beginnt dann mit dem Schritt 1210, in denn der dritte Wert für den ausgewählten Schlüsselsatz berechnet wird. Die Berechnung wird ausgeführt, indem jedes Paar von Abschnitten 295 identifiziert wird, in denen der betreffende Schlüsseldatensatz jeweils auftritt, und für jedes der Abschnittspaare der niedrigere Positionswert von dem höheren Positionswert subtrahiert wird. Das Ergebnis der Subtraktion für jedes Paar wird dann durch den zweiten Wert des betreffenden Schlüsseldatensatzes dividiert. Jeder der Werte wird dann für den betreffenden Schlüsseldatensatz summiert, wodurch sich der dritte Wert für den betreffenden Schlüsseldatensatz ergibt.
  • Ist der dritte Wert für jeden Schlüsseldatensatz einmal berechnet, wird in die zweite Steuerschleife eingetreten, die der Berechnung des ersten Einstellwerts für jeden Abschnitt 295 der Datengruppe dient.
  • Als erster Einstellwert für jeden Abschnitt 295 der Schlüsseldatengruppe 200 wird in einem Schritt 1230 die Summe der dritten Werte aller Schlüsseldatensätze in dem ausgewählten Abschnitt 295 berechnet.
  • Der vorstehend ausgeführte Prozeß kann unter Verwendung des folgenden Pseudocodes besser dargestellt werden:
  • (Für die Zwecke des vorstehend verwendeten Pseudocodes und der folgenden Beschreibung bezeichnet "Sd" den zweiten Wert und "Wd" den Verteilungswert.)
  • Unter erneuter Beugnahme auf Tabelle 3 wird der Abschnitt 8 der beispielhaften Datengruppe 200 betrachtet. Der Schlüsseldatensatz "Hund" hat den zweiten Wert 5 (= 8 - 3). Das Auftreten von "Hund" in den Sätzen 3 und 4 trägt folgendes bei:
  • (8 - 3): 5 + (8 - 4): 5 = 1,8
  • Durch die Wiederholung dieser Operationen für die Worte "sitzen" und "Boden" ergibt sich der folgende erste Einstellwert für den Abschnitt 8:
  • Das Ergebnis dieses Prozesses ist, wie die Verwendung der vorstehend beschriebenen zweiten Werte, daß Verknüpfungen zwischen Worten in Sätzen, die in großen Abständen über die Datengruppe 200 verteilt sind, bevorzugt werden. Es wird davon ausgegangen, daß große Abstände zeigen, daß ein Konzept signifikanter zum Thema der Datengruppe beiträgt.
  • Fig. 12 endet mit dem Schritt 1245, in dem der Verteilungswert 290 jedes Abschnitts 295 unter Verwendung des ersten Einstellwerts modifiziert wird. Dies kann auf ähnliche Weise wie im Schritt 1140 gemäß Fig. 11 für die zweiten Werte der Schlüsseldatensätze erfolgen.
  • Fig. 13 zeigt zusätzliche Schritte, die im Schritt 820 gemäß Fig. 8 enthalten sein können. In den Schritten wird ein weiteres Verteilungsmuster für die Schlüsseldatensätze der Datengruppe 200 bestimmt. Dieses weitere Verteilungsmuster wird unter Verwendung eines zweiten Einstellwerts gemessen.
  • Fig. 13 enthält eine Steuerschleife, um sicherzustellen, daß für jeden Abschnitt 295 ein zweiter Einstellwert berechnet wird.
  • Die Berechnung des zweiten Einstellwerts beginnt mit dem Schritt 1310, in dem auf den ersten Einstellwert des ausgewählten Abschnitts 295 zugegriffen wird, und dem Schritt 1315, in dem auf den Verteilungswert 290 des ausgewählten Abschnitts 295 zugegriffen wird.
  • Der zweite Verteilungswert wird dann im Schritt 1320 durch Dividieren des ersten Einstellwerts durch die Quadratwurzel des Verteilungswerts 290 berechnet.
  • Vorzugsweise wird diese Normalisierung ausgeführt, damit längere Sätze keine proportional höheren Werte als kürzere Sätze erhalten. Es wurde festgestellt, daß eine Division durch Ergebnisse liefert, die denen einer Division durch Wd vorzuziehen sind.
  • Wird dies auf die beispielhafte Datengruppe 200 angewendet, wird unter Bezugnahme auf Fig. 5 als zweiter Einstellwert für den Abschnitt 8 folgendes berechnet:
  • 5,09 : = ca. 2,8
  • Im Schritt 1325 wird der Verteilungswert 290 durch den zweiten Einstellwert modifiziert.
  • Ein Verfahren hierfür ist das Ersetzen des alten Verteilungswerts 290 durch den zweiten Einstellwert, obwohl auch andere Verfahren möglich sind, die den vorstehend im Zusammenhang mit den Fig. 11 und 12 beschriebenen ähneln.
  • Fig. 14 zeigt zusätzliche Schritte, die im Schritt 830 gemäß Fig. 8 enthalten sein können. In diesen Schritten wird ein Verschiebungswert für jeden Abschnitt 295 definiert. Der Verschiebungswert jedes Abschnitts 295 wird zur Modifikation des Verteilungswerts 290 jedes Abschnitts 295 verwendet.
  • Fig. 14 beginnt mit dem Schritt 1405, in dem auf die Datengruppe 200 und die die Abschnitte betreffenden Informationen zugegriffen wird. Darauf folgt der Schritt 1410, in dem übergeordnete Gruppen von Abschnitten 295 in der Datengruppe 200 identifiziert werden. Die übergeordnete Gruppe kann verschiedene Formen annehmen. Wenn beispielsweise jeder Abschnitt 295 einem Satz entspricht, können die übergeordneten Gruppen die Absätze der Datengruppe 200 sein. Alternativ können die übergeordneten Gruppen der Datengruppe 200 die Seiten oder Kapitel der Datengruppe 200 sein, wenn die Abschnitte 295 Absätze sind.
  • Bei der beispielhaften Datengruppe 200 gemäß Fig. 2 umfaßt eine übergeordnete Gruppe 1 die Abschnitte 1, 2, 3, 4 und 5 und eine übergeordnete Gruppe 2 die Abschnitte 6, 7 und 8.
  • Im Schritt 1415 wird jedem Abschnitt 295 entsprechend der Position des Abschnitts 295 in seiner übergeordneten Gruppe ein Verschiebungswert zugeordnet, wobei früher auftauchenden Abschnitten 295 der Vorzug gegeben wird.
  • Das bevorzugte Schema ist:
  • Abschnitt 1: Verschiebungswert = 1; 2
  • Abschnitt 2: Verschiebungswert = 1, 1
  • Abschnitt 3: Verschiebungswert = 1,05
  • Abschnitt 4: Verschiebungswert = 1,026 ·
  • etc.
  • Dann wird der Verteilungswert 290 jedes Abschnitts gemäß dem Schritt 1420 modifiziert, in dem der Verteilungswert 290 mit dem Verschiebungswert multipliziert wird.
  • Wenn die Ausführungsform gemäß Fig. 13 für den Verteilungswert 290 des Abschnitts 8 verwendet wird, wird die folgende Multiplikation ausgeführt:
  • 2,08·1,05 = 2,18 (näherungsweise)
  • Der Wert 1,05 wird als Verschiebungswert verwendet, da der Satz 8 der dritte Satz der zweiten übergeordneten Gruppe der Datengruppe 200 ist.
  • Die Verschiebung arbeitet unter der Annahme, daß die signifikantesten Informationen eines Absatzes oft in der Nähe seines Anfangs zu finden sind.
  • Ein ähnlicher Verschiebungswert kann auch auf jede übergeordnete Gruppe einer Datengruppe 200 angewendet werden.
  • übergeordnete Gruppe 1: Jeder Abschnitt wird mit 1,2 multipliziert.
  • übergeordnete Gruppe 2: Jeder Abschnitt wird mit 1,1 multipliziert.
  • übergeordnete Gruppe 3: Jeder Abschnitt wird mit 1,05 multipliziert.
  • übergeordnete Gruppe 4: Jeder Abschnitt wird mit 1,025 multipliziert.
  • etc.
  • Daher wird der Verteilungswert für den Abschnitt 8
  • 2,18·1,1 = 2,39 (näherungsweise),
  • da sich der Abschnitt 8 in der zweiten übergeordneten Gruppe der Datengruppe 200 befindet.
  • Die Anwendung der Schritte gemäß den Fig. 13 und 14 ergibt die folgenden (angenäherten) verschobenen Verteilungswerte 290: Tabelle 8
  • Die Länge der Zusammenfassung und die Bewertung der Abschnitte (feine Abstufung)
  • Fig. 15 ist ein Ablaufdiagramm zusätzlicher Schritte, die im Schritt 420 zur Erzeugung von Zusammenfassungen gemäß Fig. 4 enthalten sein können.
  • Der Ablauf beginnt mit dem Schritt 1505, in dem die Abschnitte 295 entsprechend ihrem Rangwert in numerisch absteigender Reihenfolge geordnet werden, worauf der Schritt 1510 folgt, in dem die Abschnitte 295 mit dem gleichen Rangwert entsprechend ihren Verteilungswerten 290 geordnet werden.
  • Sind die Abschnitte 295 einmal geordnet, werden vom Benutzer oder einer externen Anwendung vorgegebene, die Länge der Zusammenfassung betreffende Daten oder, wenn diese nicht vorhanden sind, ein Standardwert für die Länge von Zusammenfassungen aus dem Zusammenfassungssteuerungsmodul 305 abgerufen.
  • Der Abschnitt 295 mit dem höchsten Rangwert (und dem höchsten Verteilungswert 290, wenn mehr als ein Abschnitt 295 den gleichen Rangwert aufweist) wird dann im Schritt 1520 abgerufen, und die Länge des Abschnitts 295 wird berechnet. Die Länge wird dann in bezug auf einen Zähler für die Länge der Zusammenfassungen gespeichert, und in einem Schritt 1525 wird die Länge der Zusammenfassung mit der vorgegebenen Länge verglichen.
  • Wenn die Länge nicht der erforderlichen Länge für Zusammenfassungen entspricht, wird in einem Schritt 1530 der Abschnitt 295 mit dem nächst höheren Rangwert ausgewählt, und seine Länge wird berechnet und erneut zur Länge der zuvor berechneten Zusammenfassung addiert, bevor im Schritt 1525 die Überprüfung der Länge der Zusammenfassung wiederholt wird.
  • Sind die Abschnitte 295, die eine Zusammenfassung von ausreichender Länge bilden, einmal identifiziert, wird der Schritt 1530 ausgeführt, in dem die Regeln für die Reihenfolge der Zusammenfassung angewendet werden. Diese Regeln bestimmen, ob die Zusammenfassung entsprechend der Reihenfolge der Rangwerte oder entsprechend der Reihenfolge der Positionswerte erstellt werden soll. Ist der Schritt 1540, in dem die Abschnitte 295 entsprechend den Regeln für das Ordnen der Zusammenfassungen geordnet werden, einmal ausgeführt, wird der Schritt 1545 ausgeführt, in dem die Zusammenfassung ausgegeben wird.
  • Bei anderen Ausführungsformen muß die Länge der Abschnitte bei der Erzeugung einer Zusammenfassung nicht berücksichtigt werden. Bei diesen Ausführungsformen wird ein Schwellenwert ausgewählt, oberhalb dessen sämtliche Abschnitte 295 in der Zusammenfassung wiedergegeben werden. Ein Beispiel hierfür ist eine Zusammenfassung, bei der ein prozentualer Anteil der Datengruppe 200 wiedergegeben wird.
  • Ein Beispiel dieses Verfahrens ist nachstehend dargestellt, wobei die beispielhafte Datengruppe 200 und die Ergebnisse gemäß den Fig. 13 und 14 verwendet werden.
  • Aus Gründen der Vereinfachung ist jedem Abschnitt 295 ein ganzzahliger Wert zugeordnet, der seiner Position in der Liste der Verteilungswerte 290 entspricht. Bei dem vorliegenden Beispiel existieren beispielsweise 8 Abschnitte 295, und dementsprechend wird jedem Abschnitt 295 ein Wert von 1 bis 8 zugewiesen, der nachstehend als "Rangwert" bezeichnet wird, so daß die Abschnitte 295 in der Reihenfolge geordnet werden, die durch die Verteilungswerte 290 bestimmt wird. Tabelle 9
  • Die Rangwerte können durch Verändern des Schwellenwerts für die Rangwerte und Aufnahme nur der Abschnitte 295 mit Rangwerten mit oder über dem Schwellenwert zur Erstellung von Zusammenfassungen von jeder möglichen Länge verwendet werden.
  • Bei einigen Ausführungsformen, bei denen beispielsweise die in der Zusammenfassung enthaltenen Einzelheiten wichtiger als die Länge sind, kann die Abstufung bei der vorstehend beschriebenen Bewertungstechnik zu fein sein (was bedeutet, daß einige Einzelheiten verloren gehen). In diesem Fall kann ein gröberes Bewertungssystem, wie das nachstehend beschriebene, verwendet werden.
  • Bewertung der Abschnitte (grobe Abstufung)
  • Bei einem groben Bewertungsschema wird die Anzahl der einmaligen Rangwerte der Abschnitte auf eine kleineren Anzahl reduziert, so daß Zusammenfassungen mit etwa der Hälfte, einem Viertel, einem Achtel, etc. der Länge des ursprünglichen Dokuments erstellt werden (wobei die Untergrenze zwei Abschnitte 295 sind).
  • Für das beispielhafte Dokument ist die ist die Entsprechung zwischen der feinen Bewertung und der groben Bewertung wie folgt:
  • Fein: 87654321
  • grob: 33322111
  • wodurch sich die folgenden groben Rangwerte für die Sätze ergeben: Tabelle 10
  • Damit würde bei der Auswahl des Schwellenrangwerts 2 eine Zusammenfassung erstellt, die die Sätze 1, 2, 4, 5 und 8 enthielte, also:
  • Die Katze saß auf dem Kissen.
  • Der Hund saß ebenfalls auf dem Kissen.
  • Sowohl die Katze als auch der Hund saßen auf dem Kissen.
  • Das Kissen liegt auf dem Boden.
  • Der Hund saß auf dem Boden.
  • In dieser Zusammenfassung sind jedoch die Zieldatensätze nicht berücksichtigt. Zur Berücksichtigung der Zieldatensätze werden die Rangwerte sämtlicher Abschnitte 295, die Worte oder Phrasen enthalten, die mit den Zieldatensätzen übereinstimmen, ausreichend erhöht, so daß sie die Werte sämtlicher anderen Abschnitte 295 übersteigen. Wenn sich mehr als ein Wort bzw. eine Phrase in den Zieldatensätzen befindet, werden die Rangwerte sämtlicher Sätze, die N + 1 Übereinstimmungen mit den Zieldatensätzen enthalten, ausreichend erhöht, daß sie die Rangwerte sämtlicher Abschnitte 295 übersteigen, die N Übereinstimmungen mit den Zieldatensätzen aufweisen.
  • Wenn bei der beispielhaften Datengruppe 200 die Datensätze "Nacht" und "Stern" verwendet werden, wird der Rangwert des Satzes 6 (der "Nacht" enthält) bei dem groben Abstufungssystem von 1 auf 4 erhöht, und der Rangwert des Satzes 7 (der sowohl "Nacht" als auch "Stern" enthält) wird von 1 auf 5 erhöht. Die Unterschiede der ursprünglichen Abstufung bleiben erhalten, wenn die Rangwerte so erweitert werden, daß die Zieldatensätze berücksichtigt werden.
  • Bei dem Beispiel werden die groben Rangwerte der Abschnitte 295: Tabelle 11
  • Daher wird bei der Auswahl eines Schwellenrangwerts von 3 eine Zusammenfassung erstellt, die die Abschnitte 1, 4, 6, 7 und 8 enthält.
  • Die Katze saß auf dem Kissen.
  • Sowohl die Katze als auch der Hund saßen auf dem Kissen.
  • Die Nacht war klar.
  • Ich zählte in dieser Nacht die Sterne.
  • Der Hund saß auf dem Boden.
  • Eine derartige Berücksichtigung der Zieldatensätze ermöglicht die Erstellung einer Zusammenfassung 235, in der nicht nur die in einer Datengruppe 200 auftauchenden Zieldatensätze berücksichtigt werden, sondern die auch mit dem Thema der gesamten Datengruppe 200 in Zusammenhang steht.
  • Bevorzugte Ausführungsformen können unter Verwendung der Programmiersprache Java erstellt werden, die in der Technik allgemein bekannt und bei Sun Microsystems, CA, USA erhältlich ist. Sie wird verbreitet für Anwendungen genutzt, die Internet Browser und Server betreffen. Bei einer derartigen Ausführungsform kann das Zusammenfassungsprogramm 100, wie vorstehend erwähnt, einen URL als Eingang empfangen. Das Zusammenfassungsprogramm kann dann ein Herunterladen des URL in das Zusammenfassungsprogramm durch das Anzeigeprogramm 135 anfordern. Nach dem Herunterladen kann das Zusammenfassungsprogramm dann mit der Zusammenfassung der Datengruppe 200 des URL beginnen.
  • Wenn die Zusammenfassung einen Satz mit einem HTML Tag enthält, wird vorzugsweise der unmittelbar vorhergehende Satz automatisch in die Zusammenfassung 235 aufgenommen. Dies kann durch einen Nachverarbeitungsschritt erfolgen, der mit der Abtastung des Ausgangs des Zusammenfassungsprogramms beginnt, um HTML Tags zu erfassen.
  • Ein weiterer Nachverarbeitungsschritt ist die Überprüfung des Anfangs jedes Satzes. Wenn er mit Wörtern und Phrasen wie "Auch", "Darüber hinaus", "Überdies", "Allerdings", "Er" oder "Sie" beginnt, wird der vorhergehende Satz vorzugsweise automatisch in die Zusammenfassung aufgenommen.
  • Die Entnahme eines Satzes aus der Datengruppe 200 zur Erstellung einer Zusammenfassung kann dazu führen, daß Anführungszeichen in der Zusammenfassung unvollständig wiedergegeben werden. Dies kann durch einen Nachverarbeitungsschritt erfaßt werden, in dem die Zusammenfassung von vorn und hinten überprüft wird. Wenn ein offenes Zitat gefunden wird, wird auf die ursprüngliche Datengruppe 200 bezug genommen, und an den letzten Satz des Zitats werden Anführungszeichen angehängt.
  • Es wird beispielsweise davon ausgegangen, daß die Datengruppe 200 lautet:
  • (1) Er sagte, "Das Projekt ist abgeschlossen.
  • (2) Wir müssen unseren Erfolg feiern.
  • (3) Jeder erhält ein Andenken zum Geschenk."
  • (4) Das Projekt wurde dann abgeschlossen.
  • Wird davon ausgegangen, daß daraus eine Zusammenfassung erstellt wird; die die Sätze 1, 2 und 4 umfaßt, lautet die Zusammenfassung:
  • (1) Er sagte, "Das Projekt ist abgeschlossen.
  • (2) Wir müssen unseren Erfolg feiern."
  • (4) Das Projekt wurde dann abgeschlossen.
  • Es wird auf das hinzugefügte Anführungszeichen am Ende des Satzes 2 hingewiesen.

Claims (10)

1. Vorrichtung zur Erzeugung kundenspezifischer Zusammenfassungen von Datengruppen mit:
einem Eingang zum Empfangen einer zusammenzufassenden Datengruppe (200);
einem Eingang zum Empfangen zumindest eines vorgegebenen Solldatensatzes (215);
einer Trenneinrichtung zur Unterteilung des Datensatzes (200) in einen oder mehrere Abschnitte (295) gemäß vorgegebenen Kriterien (240);
einer für jeden der Abschnitte aktivierbaren Bewertungseinrichtung zum Vergleichen der Daten in dem Abschnitt (295) mit mindestens einem empfangenen Solldatensatz (215) und zur Berechnung eines Rangwerts (285) für den Abschnitt (295), wobei der Rangwert (285) vom Ergebnis der Vergleiche für den Abschnitt (295) abhängt; und
einer Kompiliereinrichtung (230) zur Zusammenstellung einer kundenspezifischen Zusammenfassung (235) der Datengruppe (200) durch Auswählen eines oder mehrerer der Abschnitte (295) entsprechend ihren jeweiligen Rangwerten (285).
2. Vorrichtung nach Anspruch 1, bei der zumindest ein vorgegebener Solldatensatz (215) vom Benutzer in die Vorrichtung eingegeben wird.
3. Vorrichtung nach Anspruch 1 oder 2, die weiterhin aufweist:
eine Einrichtung zur Identifikation eines oder mehrerer Schlüsseldatensätze (255) in jedem Abschnitt (295) entsprechend einer vorgegebenen Anhalteliste (210);
eine für jeden Abschnitt (295) aktivierbare Berechnungseinrichtung zum Berechnen eines oder mehrerer Verteilungswerte (290), die die Relevanz der in dem Abschnitt enthaltenen Informationen für den Informationsgehalt der Datengruppe als ganzer angeben, wobei jeder Verteilungswert (290) eine andere vorgegebene Messung der Verteilung der Fundstellen der in dem Abschnitt (295) identifizierten Schlüsseldatensätze (225) in der Datengruppe (200) repräsentiert;
eine Einstelleinrichtung zur Einstellung des Rangwerts (285) für jeden Abschnitt (295) entsprechend des jeweiligen einen bzw. der jeweiligen mehreren Verteilungswerte (290).
4. Vorrichtung nach Anspruch 3, bei der die Berechungseinrichtung aktiviert werden kann, um einen ersten Verteilungswert für jeden Abschnitt (295) zu berechnen, wobei der erste Verteilungswert eine Messung der Anzahl der Abschnitte der Datengruppe (200) neben dem Abschnitt (295) repräsentiert, die Schlüsseldatensätze (225) des Abschnitts enthalten, und der für den ersten Abschnitt (295) berechnete erste Verteilungswert proportional zur Summe der für jeden Schlüsseldatensatz (225) des Abschnitts (295) bestimmten Werte der Messung der Anzahl der Abschnitte ist.
5. Vorrichtung nach Anspruch 3 oder 4, bei der die Berechnungseinrichtung aktiviert werden kann, um einen zweiten Verteilungswert für jeden Abschnitt (295) berechnen, wobei der zweite Verteilungswert eine Messung des Abstands zwischen dem ersten Fundort jedes Schlüsseldatensatzes (225) des Abschnitts (295) und dem jeweiligen letzten Fundorts innerhalb der Datengruppe (200) repräsentiert und der für den Abschnitt (295) berechnete zweite Verteilungswert proportional zur Summe der für jeden Schlüsseldatensatz (225) des Abschnitts (295) bestimmten Werte der Messung des Abstands ist.
6. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Auswahleinrichtung so beschaffen ist, daß sie durch die Auswahl eines oder mehrerer aus dem einen bzw. den mehreren Abschnitten (295) beginnend mit dem hochrangigsten Abschnitt in durch den entsprechenden Rangwert (285) bestimmter, absteigender Reihenfolge der Rangwerte und Hinzufügen jedes ausgewählten Abschnitts zu der Zusammenfassung (325), bis die Zusammenfassung (235) die vorgegebene Länge erreicht hat, eine Zusammenfassung (235) mit einer vorgegebenen Länge kompiliert.
7. Verfahren zur Erzeugung einer kundenspezifischen Zusammenfassung (235) einer Datengruppe (200) mit den Schritten:
i) Empfangen einer zusammenzufassenden Datengruppe (200) als Eingang,
ii) Empfangen mindestens eines vorgegebenen Solldatensatzes (215) als Eingang,
iii) Unterteilten der Datengruppe (200) in Abschnitte (295) entsprechend vorgegebenen Kriterien (240),
iv) Vergleichen der Datensätze in jedem Abschnitt (295) mit einem oder mehreren der im Schritt ii) empfangenen Solidatensätze (215),
v) Berechnen eines Rangwerts (285) für jeden der Abschnitte (295) in Abhängigkeit vom Ergebnis der jeweiligen Vergleiche, und
vi) Kompilieren einer kundenspezifischen Zusammenfassung (235) der Datengruppe (200) durch Auswählen eines oder mehrerer aus dem einen bzw. den mehreren Abschnitten (295) entsprechend ihren jeweiligen Rangwerten (285).
8. Verfahren nach Anspruch 7, das ferner die Schritte umfaßt:
a) Identifizieren von Schlüsseldatensätzen (225) in jedem der im Schritt iii) erzeugten Abschnitte (295) entsprechend einer vorgegebenen Anhalteliste (210),
b) Berechnen eines oder mehrerer die Relevanz der in dem Abschnitt (295) enthaltenden Informationen für den Informationsgehalt der Datengruppe (200) als Ganzer angebender Verteilungswerte (290) für jeden der Abschnitte (295), wobei jeder Verteilungswert (290) eine vorgegebene Messung der Verteilung der Fundorte der Schlüsseldatensätze (225) des Abschnitts (295) in der Datengruppe (200) repräsentiert, und
c) Einstellen des im Schritt v) berechneten Rangwerts (285) jedes Abschnitts (295) in Abhängigkeit von dem jeweiligen einen bzw. den jeweiligen mehreren Verteilungswerten (290).
9. Verfahren nach Anspruch 8, bei dem die eine bzw. die mehreren vorgegebenen Messungen der Verteilung im Schritt b) eine Messung der Anzahl der Abschnitte der Datengruppe (200) außer dem Abschnitt (295) einschließen, die Schlüsseldatensätze (225) des Abschnitts (295) enthalten, und bei dem der entsprechende für den Abschnitt (295) berechnete Verteilungswert (290) proportional zur Summe der für jeden Schlüsseldatensatz (225) des Abschnitts (295) bestimmten Werte der Messung der Anzahl der Abschnitte ist.
10. Verfahren nach Anspruch 8 oder 9, bei die eine bzw. die mehreren vorgegebenen Messungen der Verteilung im Schritt b) eine Messung des Abstands zwischen dem ersten Fundort jedes Schlüsseldatensatzes (225) des Abschnitts (295) und dem jeweils letzten Fundort innerhalb der Datengruppe (200) einschließen, wobei der entspre10.04.2003) proportional zur Summe der Werte der Messung des für jeden Schlüsseldatensatz (225) des Abschnitts (295) bestimmten Abstands ist.
DE69811066T 1997-04-16 1998-04-16 Datenzusammenfassungsgerät. Expired - Lifetime DE69811066T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP97302616 1997-04-16
PCT/GB1998/001119 WO1998047083A1 (en) 1997-04-16 1998-04-16 Data summariser

Publications (2)

Publication Number Publication Date
DE69811066D1 DE69811066D1 (de) 2003-03-06
DE69811066T2 true DE69811066T2 (de) 2003-11-20

Family

ID=8229299

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69811066T Expired - Lifetime DE69811066T2 (de) 1997-04-16 1998-04-16 Datenzusammenfassungsgerät.

Country Status (9)

Country Link
US (1) US6334132B1 (de)
EP (1) EP0976069B1 (de)
JP (1) JP2001519952A (de)
AU (1) AU746762B2 (de)
CA (1) CA2286097C (de)
DE (1) DE69811066T2 (de)
ES (1) ES2192323T3 (de)
NZ (1) NZ500057A (de)
WO (1) WO1998047083A1 (de)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6874119B2 (en) * 1998-09-11 2005-03-29 Genesys Telecommunications Laboratories, Inc. Stored-media interface engine providing an abstract record of stored multimedia files within a multimedia communication center
JP4214598B2 (ja) * 1998-04-02 2009-01-28 ソニー株式会社 文書処理方法および装置ならびに記録媒体
EP0950956A1 (de) 1998-04-17 1999-10-20 BRITISH TELECOMMUNICATIONS public limited company Computernetzwerk
JP2000011005A (ja) * 1998-06-17 2000-01-14 Hitachi Ltd データ分析方法及び装置及びデータ分析プログラムを記録したコンピュータ読み取り可能な記録媒体
US6665837B1 (en) * 1998-08-10 2003-12-16 Overture Services, Inc. Method for identifying related pages in a hyperlinked database
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US7085997B1 (en) 1998-12-08 2006-08-01 Yodlee.Com Network-based bookmark management and web-summary system
US7672879B1 (en) 1998-12-08 2010-03-02 Yodlee.Com, Inc. Interactive activity interface for managing personal data and performing transactions over a data packet network
US8069407B1 (en) 1998-12-08 2011-11-29 Yodlee.Com, Inc. Method and apparatus for detecting changes in websites and reporting results to web developers for navigation template repair purposes
US6834276B1 (en) * 1999-02-25 2004-12-21 Integrated Data Control, Inc. Database system and method for data acquisition and perusal
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US7752535B2 (en) 1999-06-01 2010-07-06 Yodlec.com, Inc. Categorization of summarized information
US8666757B2 (en) * 1999-07-28 2014-03-04 Fair Isaac Corporation Detection of upcoding and code gaming fraud and abuse in prospective payment healthcare systems
JP3463010B2 (ja) * 1999-09-17 2003-11-05 Necエレクトロニクス株式会社 情報処理装置および情報処理方法
US7475334B1 (en) * 2000-01-19 2009-01-06 Alcatel-Lucent Usa Inc. Method and system for abstracting electronic documents
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20050026199A1 (en) * 2000-01-21 2005-02-03 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US6820237B1 (en) * 2000-01-21 2004-11-16 Amikanow! Corporation Apparatus and method for context-based highlighting of an electronic document
US7366719B2 (en) * 2000-01-21 2008-04-29 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20020078091A1 (en) * 2000-07-25 2002-06-20 Sonny Vu Automatic summarization of a document
US7017114B2 (en) * 2000-09-20 2006-03-21 International Business Machines Corporation Automatic correlation method for generating summaries for text documents
WO2002033584A1 (en) * 2000-10-19 2002-04-25 Copernic.Com Text extraction method for html pages
CA2471940C (en) * 2001-12-28 2019-03-05 Jeffrey James Jonas Real time data warehousing
US7406458B1 (en) * 2002-09-17 2008-07-29 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US9280603B2 (en) 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
JP2006505873A (ja) 2002-11-06 2006-02-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 機密データ共用および匿名エンティティ解決
US8620937B2 (en) * 2002-12-27 2013-12-31 International Business Machines Corporation Real time data warehousing
CA2511117A1 (en) 2002-12-31 2004-07-22 International Business Machines Corporation Authorized anonymous authentication
US7200602B2 (en) * 2003-02-07 2007-04-03 International Business Machines Corporation Data set comparison and net change processing
US7962757B2 (en) * 2003-03-24 2011-06-14 International Business Machines Corporation Secure coordinate identification method, system and program
CN1614585A (zh) * 2003-11-07 2005-05-11 摩托罗拉公司 文本概括
US7836408B1 (en) * 2004-04-14 2010-11-16 Apple Inc. Methods and apparatus for displaying relative emphasis in a file
US20060112045A1 (en) * 2004-10-05 2006-05-25 Talbot Patrick J Knowledge base comprising executable stories
US7917460B2 (en) * 2004-06-30 2011-03-29 Northrop Grumman Corporation Systems and methods for generating a decision network from text
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US8010480B2 (en) * 2005-09-30 2011-08-30 Google Inc. Selecting high quality text within identified reviews for display in review snippets
US8145617B1 (en) 2005-11-18 2012-03-27 Google Inc. Generation of document snippets based on queries and search results
US7870481B1 (en) * 2006-03-08 2011-01-11 Victor Zaud Method and system for presenting automatically summarized information
EP2050024A1 (de) * 2006-07-27 2009-04-22 Sapio Systems Aps Verfahren zum verarbeiten einer sammlung von dokumentquellen
US7606752B2 (en) 2006-09-07 2009-10-20 Yodlee Inc. Host exchange in bill paying services
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8204831B2 (en) 2006-11-13 2012-06-19 International Business Machines Corporation Post-anonymous fuzzy comparisons without the use of pre-anonymization variants
US7921092B2 (en) * 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
US8261334B2 (en) 2008-04-25 2012-09-04 Yodlee Inc. System for performing web authentication of a user by proxy
US7644071B1 (en) * 2008-08-26 2010-01-05 International Business Machines Corporation Selective display of target areas in a document
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US7958109B2 (en) * 2009-02-06 2011-06-07 Yahoo! Inc. Intent driven search result rich abstracts
US8555359B2 (en) 2009-02-26 2013-10-08 Yodlee, Inc. System and methods for automatically accessing a web site on behalf of a client
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US9058393B1 (en) 2010-02-19 2015-06-16 Go Daddy Operating Company, LLC Tools for appraising a domain name using keyword monetary value data
US8706728B2 (en) * 2010-02-19 2014-04-22 Go Daddy Operating Company, LLC Calculating reliability scores from word splitting
US8515969B2 (en) * 2010-02-19 2013-08-20 Go Daddy Operating Company, LLC Splitting a character string into keyword strings
US8909558B1 (en) 2010-02-19 2014-12-09 Go Daddy Operating Company, LLC Appraising a domain name using keyword monetary value data
US9623119B1 (en) * 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8868621B2 (en) 2010-10-21 2014-10-21 Rillip, Inc. Data extraction from HTML documents into tables for user comparison
US9002926B2 (en) 2011-04-22 2015-04-07 Go Daddy Operating Company, LLC Methods for suggesting domain names from a geographic location data
US9275040B1 (en) 2012-09-14 2016-03-01 Go Daddy Operating Company, LLC Validating user control over contact information in a domain name registration database
US9864755B2 (en) 2013-03-08 2018-01-09 Go Daddy Operating Company, LLC Systems for associating an online file folder with a uniform resource locator
US9953105B1 (en) 2014-10-01 2018-04-24 Go Daddy Operating Company, LLC System and method for creating subdomains or directories for a domain name
US9785663B2 (en) 2014-11-14 2017-10-10 Go Daddy Operating Company, LLC Verifying a correspondence address for a registrant
US9779125B2 (en) 2014-11-14 2017-10-03 Go Daddy Operating Company, LLC Ensuring accurate domain name contact information
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
WO2019060774A1 (en) * 2017-09-22 2019-03-28 Amazon Technologies, Inc. SYSTEM AND METHOD FOR DATA REPORTING
US11526518B2 (en) 2017-09-22 2022-12-13 Amazon Technologies, Inc. Data reporting system and method
US11562144B2 (en) * 2020-03-16 2023-01-24 Robert Bosch Gmbh Generative text summarization system and method
US11755981B2 (en) * 2021-05-17 2023-09-12 International Business Machines Corporation Peer review system with polynomial discounting

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0743717B2 (ja) * 1989-02-06 1995-05-15 株式会社テレマティーク国際研究所 抄録文作成装置
JPH03278270A (ja) 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
JPH06259423A (ja) 1993-03-02 1994-09-16 N T T Data Tsushin Kk 要約自動作成方式
US5696963A (en) * 1993-11-19 1997-12-09 Waverley Holdings, Inc. System, method and computer program product for searching through an individual document and a group of documents
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US5787435A (en) * 1996-08-09 1998-07-28 Digital Equipment Corporation Method for mapping an index of a database into an array of files
US5897637A (en) * 1997-03-07 1999-04-27 Apple Computer, Inc. System and method for rapidly identifying the existence and location of an item in a file

Also Published As

Publication number Publication date
AU7062898A (en) 1998-11-11
JP2001519952A (ja) 2001-10-23
ES2192323T3 (es) 2003-10-01
US6334132B1 (en) 2001-12-25
EP0976069A1 (de) 2000-02-02
EP0976069B1 (de) 2003-01-29
NZ500057A (en) 2002-09-27
DE69811066D1 (de) 2003-03-06
CA2286097C (en) 2006-11-07
CA2286097A1 (en) 1998-10-22
AU746762B2 (en) 2002-05-02
WO1998047083A1 (en) 1998-10-22

Similar Documents

Publication Publication Date Title
DE69811066T2 (de) Datenzusammenfassungsgerät.
DE69804495T2 (de) Informationsmanagement und wiedergewinnung von schlüsselbegriffen
DE69834386T2 (de) Textverarbeitungsverfahren und rückholsystem und verfahren
DE69606021T2 (de) Verfahren und/oder vorrichtungen für den zugriff auf informationen
DE69809263T2 (de) Methoden ud system zur wahl von datensets
DE69423137T2 (de) Verfahren zur Verarbeitung mehrerer elektronisch gespeicherte Dokumente
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE69431351T2 (de) Verfahren und gerät zum indexieren, suchen und anzeigen von daten
DE69622350T2 (de) Ein Geschichtsanzeigegerät
DE10231161A1 (de) Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
EP1311989A2 (de) Verfahren zur automatischen recherche
WO2021032824A1 (de) Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente
DE102006040208A1 (de) Patentbezogenes Suchverfahren und -system
DE112018002047T5 (de) Dokumentenanalyse mit mehreren faktoren
WO2007042245A1 (de) Suchmaschine für eine ortsbezogene suche
DE60310881T2 (de) Methode und Benutzerschnittstelle für das Bilden einer Darstellung von Daten mit Meta-morphing
EP1877932B1 (de) System und verfahren zur aggregation und überwachung von dezentralisiert gespeicherten multimediadaten
WO2011044865A1 (de) Verfahren zum bestimmen einer ähnlichkeit von objekten
DE10057634C2 (de) Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
EP2193457A1 (de) Erfassung von zusammenhängen zwischen informationen repräsentierenden daten
EP1094405A2 (de) Verfahren zum Erzeugen einer dynamischen Auswahlmaske für den Abruf von Daten aus einer Datenbank
DE69132678T2 (de) Ein textverwaltungssystem
DE10160920B4 (de) Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten
EP1160688A2 (de) Verfahren und Vorrichtung zum automatischen Verknüpfen von Datensätzen aus zumindest einer Datenquelle sowie System zum Abrufen von verknüpften Datensätzen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition