DE69230814T2

DE69230814T2 - Datenbankauffindungssystem zur Beantwortung natursprachlicher Fragen mit dazugehörigen Tabellen

Info

Publication number: DE69230814T2
Application number: DE69230814T
Authority: DE
Inventors: Naohito Inaba; Yoshiko Itabashi; Chikako Kimura; Shozo Kondo; Kazutomo Naganuma; Katsushi Suzuki; Ikuko Takanashi
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1991-07-11
Filing date: 1992-07-10
Publication date: 2000-11-02
Anticipated expiration: 2012-07-11
Also published as: EP0522591A2; EP0522591A3; EP0522591B1; DE69230814D1; US5442780A

Description

Diese Erfindung bezieht sich auf ein Informationsauffindungssystem zum Wiederauffinden von Informationen aus einer Datenbank mit einer Analyseeinheit unter Verwendung eines Lexikons zur Analyse einer natursprachlichen Frage.
Fig. 1 ist ein Diagramm, das ein herkömmliches Datenbank-Wiederauffindungssystem zum Wiederauffinden von Daten aus einer tabellenformatierten Datenbank in Abhängigkeit von einer natursprachlichen Frage illustriert. Eine natursprachliche Frage ist eine Anforderung von Daten, die in einer natürlichen Sprache wie englisch, japanisch, französisch usw. ausgedrückt ist. Das illustrierte Datenbank- Wiederauffindungssystem ist genauer beschrieben in "Kinukawa, A Natural Language Interface Processor Based on the Hierarchical-Tree Structure Model of Relation Table. Journal of Information Processing Society of Japan, Band 27, Nr. 5 (1986), Seiten 499-509". Dieses System ist so ausgebildet, daß es Anfragen in japanisch verarbeitet. Für die nachfolgend beschriebenen Beispiele sind die englischen Übersetzungen von japanischen Wörtern und Sätzen in Klammern vorgesehen.
Das in Fig. 1 gezeigte Datenbank- Wiederauffindungssystem enthält eine Eingabeeinheit 2 wie eine Tastatur zum Eingeben einer natursprachlichen Frage 1. Das System enthält auch eine Kommunikationssteuervorrichtung 3, zur Weitergabe einer natursprachlichen Frage 1 zu einer Wiederauffindungs- Satzanalyseeinheit 5. Die Wiederauffindungs- Satzanalyseeinheit 5 verarbeitet die eingegebene Frage 1, um ein hierarchisches Modell der Frage zu erzeugen. Das System enthält zusätzlich ein Wortlexikon 4, das auf der Basis des Inhalts einer Datenbank 9 gebildet ist, und ein hierarchisches Tabellenmodell 6 für das hierarchische Ausdrücken des Inhalts der Datenbank. Das Lexikon 4 und das hierarchische Tabellenmodell 6 werden von der Wiederauffindungs- Satzanalyseeinheit 5 zur Analyse der natursprachlichen Frage 1 verwendet. Die Wiederauffindungs- Satzanalyseeinheit 5 führt sowohl eine vokabularische Analyse als auch eine syntaktische/semantische Analyse der natursprachlichen Frage 1 durch. Die Wiederauffindungs-Satzanalyseeinheit 5 erzeugt ein Wiederauffindungs-Satzanalyseergebnis 7 als Ausgangssignal, welches zu einer Wiederauffindungs-Verarbeitungseinheit 8 weitergegeben wird. Die Wiederauffindungs- Verarbeitungseinheit 8 verwendet das Wiederauffindungs-Satzanalyseergebnis 7, um die Daten aus der Datenbank 9 aufzufinden.
Die Darstellung des in Fig. 1 gezeigten herkömmlichen Datenbank-Wiederauffindungssystems ist eine funktionelle Beschreibung, welche dazu dient, das Zusammen wirken der jeweiligen Komponenten des Systems zu zeigen. Die in Fig. 1 gezeigten Komponenten sind tatsächlich in einem Datenverarbeitungssystem 10 implementiert, wie dem in Fig. 2 gezeigten. Das Datenverarbeitungssystem 10 enthält eine zentrale Verarbeitungseinheit (CPU) 11, einen Speicher 12, die Kommunikationssteuervorrichtung 3, eine Ausgabevorrichtung 17 und die Eingabeeinheit 2. Jede dieser Komponenten ist mit einem Bus 13 gekoppelt. Die Wiederauffindungs-Satzanalyseeinheit 5 und die Wiederauffindungs- Verarbeitungseinheit 8 sind als Software implementiert, die von der CPU 11 (Fig. 2) ausgeführt wird. Die Software ist in dem Speicher 12 gespeichert. Das Wortlexikon 4 (Fig. 1), die hierarchische Modelltabelle 6 und die Datenbank 9 sind innerhalb des Speichers 12 (Fig. 2) gespeichert.
Fig. 3a liefert eine detaillierte Darstellung eines Beispiels des Wortlexikons 4. Wie diese Figur zeigt, enthält das Lexikon eine Vielzahl von Eintragungen, und jede Eintragung enthält drei Felder. Das Vorsatzfeld identifiziert den Ausdruck oder Satz, der mit der Eintragung verbunden ist, während das Teilsprachefeld den Teil der Sprache des Ausdrucks oder des Satzes identifiziert. Zuletzt identifiziert das Typenfeld den Typ des Ausdrucks oder Satzes, der verwendet wird. Bei dem in Fig. 3a gezeigten Beispiel sind die Typen "Datenwortname" und "Datenausdruckswort".
Fig. 3b liefert eine detailliertere Darstellung des hierarchischen Tabellenmodells 6. Dieses Modell 6 zeigt die hierarchische Beziehung zwischen den jeweiligen Tabellen. Jede Tabelle spezifiziert eine Anzahl von Attributen. Beispielsweise enthält die Tabelle 14 die Attribute "Daten", "Warencode", "Warengruppen code" und "Verkäufe". Das "Warencode"-Attribut ist auch ein Attribut in Tabelle 16, welche hierarchisch mit der Tabelle 14 verbunden ist. In gleicher Weise ist "uriage" (Verkäufe) ein Attribut-Datenwortname. Das Wortlexikon 4 zeigt an, daß diese beiden Ausdrücke Substantive sind. Das Lexikon 2 ist nicht für das zyoshi "ha" und "no" bezogen.
Die syntaktische und semantische Analyse wird dann für die Frage durchgeführt. Insbesondere wird die syntaktische Analyse durchgeführt, um die Syntax oder die Frage zu verarbeiten damit die Rolle verstanden wird, die jeder Ausdruck in der Frage spielt. Die semantische Analyse wird andererseits durchgeführt, um zu verstehen, was durch die Frage angefordert wird.
Nachfolgend wir die semantische Analyse durchgeführt, um die Bedeutung der Frage mit den Datenbankeintragungen in Beziehung zu setzen. Die semantische Analyse verläßt sich auf das hierarchische Tabellenmodell 6 (siehe Fig. 3b), um festzustellen, daß "chokoreeto rui" (Schokoladen und dergleichen) ein Attribut- Datenausdruckswort einer Warengruppe in Tabelle 18 (d. h. Tabelle C in Fig. 3c) und "uriage" (Verkäufe) ein Datenwortname in der Tabelle 14 (d. h. Tabelle A in Fig. 13c) sind. Darüber hinaus zeigt das hierarchische Tabellenmodell 6 (Fig. 3b) an, daß Tabelle 14 eine Tabelle höherer Ordnung als Tabelle 18 ist. Da das Attribut-Datenwort, das in der Tabelle niedriger Ordnung erscheint, ein Substantiv ist, und ein zyoshi "no" diesem hinzugefügt ist, wird erkannt, daß das Attribut "chokoreeto rui" in Tabelle 18 das Attribut "uriage" (Verkäufe) modifiziert, welches in der Tabelle 14 höherer Ordnung erscheint. Unter Verwendung dieser Ergebnisse wird eine Wiederauffindungsformel "Wiederauffindungsbedingung: (Warengruppenname gleich chokoreeto rui), Wiederauffindungsobjekt: "uriage" erhalten und von der Wiederauffindungs-Satzanalyseeinheit 5 ausgegeben. Nachfolgend wir die Wiederauffindung aus der Datenbank 9 durch die Wiederauffindungsverarbeitungseinheit 8 durchgeführt, um die gewünschten Daten zu erhalten.
Die Fig. 4a, 4b und 4c zeigen Lexika, die in einem zweiten herkömmlichen Datenbank-Wiederauffindungssystem verwendet werden, wie in der japanischen Patent-Offenlegungsschrift Nr. 59-99539 offenbart ist. In diesen Lexika sind Informationen über Spaltennamen in einer Datei, Informationen über Datenwortnamen und Informationen über einen Dateinamen, der einen gemeinsamen Spaltennamen oder Datennamen besitzt, entsprechend Dateinamen einer Datei, die in einer Datenbank enthalten ist, gespeichert. Fig. 4a stellt ein Lexikon dar, in welchem eine der Datenbankdateien den Spaltennamen einer Datei enthält. Das Lexikon enthält auch Informationen betreffend die Reihenfolge, in welcher die Spalte in der Datei enthalten ist, und es enthält zusätzlich Informationen betreffend Synonyme des Spaltennamens (d. h. Dateinummern und Spaltenattributnummern von Spalten, die synonym mit der mit Namen versehenen Spalte sind). Fig. 4 zeigt ein analoges Lexikon, in welchem eine der Dateien einen Datenspaltennamen enthält, und das Lexikon speichert eine Position, an der die mit Namen versehene Spalte in der Datei enthalten ist. Zuletzt speichert das Lexikon Informationen betreffend Synonyme des Datenspaltennamens. Fig. 4c zeigt ein Lexikon, welches Informationen enthält betreffend semantisch identische Datenspalten, die als Synonyme verbunden sind.
Fig. 5 ist das bezeichnete Format für eingegebene Fragen für das zweite herkömmliche System. Dieses Format erfordert, daß Fragen als eine Zahl von Eintragungen eingegeben werden, wobei jede Eintragung zwei Felder enthält; ein Substantiv fällt und ein Partikel- oder Hilfsfeld. Somit wäre für die beispielhafte Frage 1 (Fig. 1), die bei der Diskussion des ersten herkömmlichen Systems verwendet wird, die eingegebene Frage für das zweite herkömmliche System wie folgt. Das erste Substantivfeld würde als "chokoreeto rui" eingetragen und das entsprechende Partikelfeld würde als "no" eingetragen. Weiterhin würde das zweite Substantivfeld als "uriage" eingetragen und das Partikelfeld würde als "ha" eingetragen.
Bei diesem zweiten herkömmlichen System können Fragen in einem natürlichen japanischen Format nicht analysiert werden. In gleicher Weise wird das Wiederauffindungsobjekt in Anbetracht der Beschränkung des in Fig. 5 gezeigten bezeichneten Formats bestimmt. Ein Zugriff zu einer relevanten Datendatei kann daher nur durch begrenzte Terminologie enthaltend in den Lexika aufgezeichnete Synonyme erfolgen.
Bei dem vorbeschriebenen ersten herkömmlichen Formationsauffindungssystem ist es erforderlich, daß vorher ein hierarchisches Tabellenmodell konstruiert, wird. Da es jedoch im Allgemeinen nicht immer möglich ist, den Inhalt einer Datenbank in einer Hierarchie anzuordnen, können eingegebene Sätze, welche nicht unter die definierte hierarchische Struktur fallen, nicht verarbeitet werden. Weiterhin besteht keine Flexibilität bei der Aufnahme von Ausdrücken oder Wörtern in natürlicher Sprache, wie "sengetsu" (letzter Monat), welche nicht in der Datenbank sind. Das System ist nur auf die Ausdrücke beschränkt, die in der Datenbank enthalten sind. Weiterhin ist keine Information über "zyoshi" (Partikel) vorgesehen. Somit besteht auch das Problem, daß das Weglassen eines "zyoshi" nicht erfasst werden kann.
Zusätzlich ist, wenn ein zweideutiges Wort (z. B. Zeitperioden oder Jahreszeiten) vorhanden ist, eine syntaktische Analyse nicht möglich, wenn nicht die Definition des zweideutigen Wortes im Einzelnen aufgezeichnet ist. In einigen Fällen muß jeder Fragesteller die Definition auf einer individuellen Basis entsprechend seiner Verwendung des zweideutigen Ausdrucks aufzeichnen.
Die Informationsauffindung wird für jedes der in einer Datei aufgezeichneten Datenwörter durchgeführt. Somit kann eine Antwort nicht für eine Frage erhalten werden, bei welcher mehrere Dateien abgerufen werden als ein Ergebnis der Analyse des eingegebenen Satzes und bei welcher es erforderlich ist, ein derartiges Wiederauffindungsergebnis zu verarbeiten, um ein endgültiges Ergebnis zu erhalten.
Die vorgenannten Probleme des Standes der Technik werden durch die vorliegende Erfindung eines Informationsauffindungssystems, wie es im Anspruch 1 definiert ist, überwunden. Das Informationsauffindungssystem zum Wiederauffinden von Informationen aus einer Datenbank mit einer Analyseeinheit unter Verwendung eines Lexikons zur Analyse einer natursprachlichen Frage gemäß der vorliegenden Erfindung ist aus diesem Grund dadurch gekennzeichnet, daß die Analyseeinheit ein Parser ist zum Parsen der natursprachlichen Frage in ihre Bestandteile zum Bestimmen eines syntaxanalysierenden Ergebnisses bezüglich des Aufbaus der Frage; wobei das Lexikon eine Spalte für semantisches ID hat, das die semantische Bedeutung von Ausdrücken der Bestandteile in einer Weise bestimmt, die von der Da tenbank verstanden werden kann; virtuelle Tabellen zum Identifizieren der Ausdrücke der Bestandteile in der Datenbank, wobei jeder Ausdruck mit einer oder mehreren virtuellen Tabellen verbunden ist und virtuelle Tabellen verantwortlich für Partikel, die die Bestandteile modifizieren, eine Kollationiereinheit zum Vorbereiten einer Datenbank-Wiederauffindungsformel auf dem Syntaxanalyseergebnis durch Auswahl einer virtuellen Tabelle, welche ein Ausdruck gemeinsam mit einem anderen Ausdruck der Frage hat, eine Wiederauffindungs-Durchführungseinheit zum Wiederauffinden von Daten aus der Datenbank auf der Grundlage der Datenbank-Wiederauffindungsformel.
Das Informationsauffindungssystem kann auch eine zusätzliche Tabelle zum Umwandeln eines Ausdrucks mit unbestimmtem Wert in der natursprachlichen Fragen in einen Ausdruck mit bestimmtem Wert in der Datenbank auf der Grundlage des Syntaxanalyseergebnisses enthalten. Weiterhin kann das Informationsauffindungssystem ein Terminologielexikon enthalten für die Identifizierung von Eintragungen in der virtuellen Tabelle, die zur Umwandlung von Ausdrücken der natursprachlichen Frage zu verwenden sind. Das Lexikon enthält Wörter, die Zeiten darstellen, und das Lexikon wird durch den Parser verwendet zum Erhalten des Syntaxanalyseergebnisses. Wenn das Terminologielexikon verwendet wird, kann das System auch eine Zeitintervall-Definitionstabelle in der virtuellen Tabelle enthalten für die Definition von Zeitangaben entsprechend den die Zeit darstellenden Wörtern. Schließlich kann das System eine Datenbank-Auffindungsformel- Umwandlungseinheit enthalten zum Erzeugen einer Formel in einer Datenbank-Auffindungssprache aus der Datenbank-Auffindungsformel.
Fig. 1 ist ein Blockschaltbild eines ersten herkömmlichen Datenbank-Wiederauffindungssystems, das die von dem System durchgeführte Verarbeitung illustriert;
Fig. 2 ist ein Blockschaltbild eines Datenverarbeitungssystems, das für die Implementierung des ersten herkömmlichen Systems geeignet ist;
Fig. 3a ist eine detaillierte Darstellung des Wortlexikons 4 in Fig. 1;
Fig. 3b ist eine detaillierte Darstellung des hierarchischen Tabellenmodells 6 in Fig. 1;
Fig. 3c ist eine detaillierte Darstellung der Datenbank 9 in Fig. 1;
Fig. 4a bis 4c illustrieren Lexika in einem zweiten herkömmlichen Datenbank-Wiederauffindungssystem;
Fig. 5 illustriert das Eingabeformat für Fragen bei dem zweiten herkömmlichen Datenbank- Wiederauffindungssystem;
Fig. 6 ist ein Blockschaltbild eines Ausführungsbeispiels der vorliegenden Erfindung, das die von dem Ausführungsbeispiel durchgeführte Verarbeitung illustriert;
Fig. 7 ist eine detaillierte Darstellung des Terminologielexikons 26 in Fig. 6;
Fig. 8a bis 8c sind detaillierte Darstellungen von Tabellen, die in der virtuellen Tabelle 28 in Fig. 6 gehalten sind;
Fig. 9 ist eine Illustration eines Syntaxbaumes, der durch den Parser 22 ausgegeben wird;
Fig. 10 ist ein Flussdiagramm von Schritten, die von dem System durchgeführt werden und eine natursprachliche Frage verarbeiten;
Fig. 11 ist eine detaillierte Darstellung einer Definitionstabelle in der virtuellen Tabelle 28;
Fig. 12 ist eine Darstellung eines Beispiels einer natürlichen Sprache entsprechenden logischen Formel;
Fig. 13 ist eine Darstellung der modifizierten Version der Formel in Fig. 12;
Fig. 14 ist eine detaillierte Darstellung der Kollationiereinheit 30 in Fig. 6;
Fig. 15 ist eine Darstellung einer Definitionstabelle A in der virtuellen Tabelle 28 in Fig. 6;
Fig. 16a und 16b sind Diagramme, welche die Operation des Systems mit einer Frage, die die saisongemäße Zeitperiode verwendet, illustriert;
Fig. 17a bis 17c illustrieren die Verarbeitung einer Da seinstabellen-Logikformel;
Fig. 18 ist eine Darstellung einer Datenbank-Wiederauffindungswort-Grammatikdefinitionstabelle 155, die in der virtuellen Tabelle 28 in Fig. 6 enthalten ist;
Fig. 19 ist ein Beispiel einer Datenbankwiederauffindungs-Formelverarbeitung für die Daseinstabellen-Logikformel nach Fig. 17a bis 17c;
Fig. 20a und 20b illustrieren die Gruppierung in syntaktischen Bäumen von zwei komplexen Fragen; und
Fig. 21a und 21b stellen zusätzliche virtuelle Tabellen dar, die bei der Verarbeitung der Fragen nach Fig. 20a und 20b verwendet werden.
Ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung wird nun mit Bezug auf die Zeichnungen beschrieben. Fig. 6 zeigt die Ausbildung und den Fluss der Verarbeitung eines ersten bevorzugten Ausführungsbeispiels der vorliegenden Erfindung, welche ein Datenbank-Wiederauffindungssystem vorsieht, das auf eine natursprachliche Frage 1 antwortet. Wie das erste herkömmliche System nach Fig. 1 kann das System durch ein Datenverarbeitungssystem, wie es in Fig. 2 gezeigt ist, implementiert werden. Dieses erste bevorzugte Ausführungsbeispiel enthält eine Eingabeeinheit 2, eine Konversationssteuereinheit 3 und eine Datenbank 9 wie die beim herkömmlichen System nach Fig. 1 verwendeten. Diese Komponenten werden in dem Datenverarbeitungssystem 2 implementiert, wie bei dem ersten herkömmlichen System diskutiert wurde. Das be vorzugte Ausführungsbeispiel unterscheidet sich jedoch von dem herkömmlichen System in verschiedener Hinsicht. Diese Unterschiede werden nachfolgend aufgezeigt.
Das erste bevorzugte Ausführungsbeispiel enthält auch einen Parser 22 zum Parsen einer eingegebenen natursprachlichen Frage in ihre Bestandteile. Der Parser 22 verwendet eine Grammatiktabelle 24 und ein Terminologielexikon 26. Die Grammatiktabelle 24 enthält Informationen zum Regelnder Beziehung in einem japanischen Satz, und das Terminologielexikon 26 definiert den Teil der Sprache und die Bedeutung jedes Wortes in der Frage 22. Während das Terminologielexikon 26 ähnlich dem in Fig. 1 gezeigten herkömmlichen Wortlexikon 4 ist, unterscheidet sich das Terminologielexikon nach Fig. 6 dadurch, daß es eine Spalte für einen semantischen Markierer (siehe Fig. 7) enthält. Die Rolle des semantischen Markierers wird nachfolgend im Einzelnen beschrieben. Eine Spalte für ein semantisches ID (siehe Fig. 7) und eine Spalte für ein Korrespondenzdatenwort sind auch vorgesehen. Der Parser analysiert die eingegebene Frage 22, um den Gegenstand zu bestimmen, Prädikate und andere Teile der Sprache in der eingegebenen natursprachlichen Frage 22.
Das System nach Fig. 6 unterscheidet sich hauptsächlich von dem herkömmlichen System nach Fig. 1 dadurch, daß das System nach Fig. 6 eine virtuelle Tabelle 28 enthält. Die virtuelle Tabelle ist eine im Speicher 12 (Fig. 2) gehaltene virtuelle Natursprachen-Umwandlungstabelle zum Bezeichnen, in welcher Tabelle in der Datenbank 9 zu suchen ist, um die in der Frage 22 angeforderten Daten zu finden.
Im Allgemeinen gibt es zwei Typen von Daten in der Datenbank 9. Es gibt die festen Daten wie eine Stammdatei zum Definieren von "Objekt", und es gibt variable Daten, welche sich kontinuierlich ändern in Übereinstimmung mit "Ereignis". Variable Daten sind auch auf eine kumulative Datei bezogen. Feste Daten mit denselben Charakteristiken sind gruppiert, um eine virtuelle Tabelle zu bilden. Weiterhin ist eine virtuelle Tabelle gebildet durch Hinzufügen von variablen Daten zu derartigen festen Datenwörtern, welche stark hierauf bezogen sind.
Die virtuelle Tabelle 28 ist aus einer Anzahl von Tabellen (d. h. Tabellen 1 bis 8) zusammengesetzt, wie in den Fig. 8a bis 8c gezeigt ist. Jede der Eintragungen in diesen Tabellen enthält ein Feld für eine "Oberflächenbeschränkung" (siehe Fig. 8a bis 8c) und ein Feld für ein "Korrespondenzattribut" ist für jede Eintragung enthalten. Das Oberflächenbeschränkungsfeld ist mit Daten nur für variable Daten gefüllt. Das Oberflächenbeschränkungsfeld wird zum Speichern von Partikeln verwendet, welche jedes Vorsatzwort der eingegebenen Natursprache modifiziert und welche den Wert des "Korrespondenzattributs" verbunden mit dem Vorsatzwort bestimmen. D. h. die Oberflächenbeschränkung ist ein Datenwort, welches vorgesehen ist für die Durchführung einer weiteren Auswahl, wenn mehrere Korrespondenzattribute für ein Vorsatzwort möglich sind.
Das Korrespondenzattribut kann eine andere virtuelle Tabelle, eine Datenbank-Daseinstabelle oder eine Operations-Daseinstabelle bezeichnen. Die Bezeichnung einer anderen virtuellen Tabelle zeigt an, daß detaillierte Daten in der anderen Tabelle gespeichert sind. Weiterhin wird die Speicherung auf diese Weise verwendet in einem Algorithmus zur Auswahl einer virtuellen Tabelle. Insbesondere dann, wenn eine virtuelle Tabelle in einem Korrespondenzattributfeld bezeichnet ist, wird die bezeichnete virtuelle Tabelle mit Priorität ausgewählt.
Das System nach Fig. 6 enthält auch eine Kollationiereinheit zum Wiederauffinden von Daten aus der Datenbank 9 durch Bezugnahme auf die virtuelle Tabelle 28 unter Verwendung des Analyseergebnisses, das von dem Parser 5 ausgegeben wird. Die Kollationiereinheit kann durch Software implementiert werden, die von der CPU 11 (Fig. 2) ausgeführt wird, und im Speicher 12 gespeichert sein.
Das System enthält weiterhin eine Datenbankformel- Erzeugungseinheit 32 zum Umwandeln einer Daseinstabellen-Logikformel von der Kollationiereinheit in eine Datenbank-Wiederauffindungsformel. Die Datenbank- Wiederauffindungsformel wird durch eine Wiederauffindungseinheit verwendet, welche Daten aus der Datenbank 9 wieder auffindet.
Ausdrücke wie "no" und "ha" in der eingegebenen natursprachlichen Frage 20 sind zyoshi. Im Japanischen dienen diese Ausdrücke zum Identifizieren der Rolle, welche die Wörter spielen, die diesen vorausgehen. Beispielsweise modifiziert bei dem Beispiel der in Fig. 6 gezeigten eingegebenen natursprachlichen Frage 20 das zyoshi "no" den Ausdruck "Chokoreeto rui" (Schokoladen und dergleichen), um anzuzeigen, daß "Chokoreeto rui" das Objekt eines Präpositionssatzes ist. In gleicher Weise folgt das zyoshi "no" dem Wort "sengetsu", um anzuzeigen, daß "sengetsu" das Objekt eines präpositionalen Ausdrucks ist. Schließlich modifiziert das zyoshi "ha" den Ausdruck "uriage" (Ver käufe), um anzuzeigen, daß "uriage" das Subjekt der Frage ist. Die zyoshi helfen, daß in Fig. 9 gezeigte hierarchische Modell zu konstruieren, welches von dem Parser 22 ausgegeben wird.
Bevor die Operation dieses Systems im Einzelnen diskutiert wird, ist es hilfreich, eine Übersicht der Operation des Systems zu schaffen. Anfänglich wird die natursprachliche Frage 20 (Fig. 6) von der Eingabeeinheit 2 eingegeben und von der Kommunikationssteuervorrichtung 3 aufgenommen. Die Kommunikationssteuervorrichtung richtet die eingegebene Frage an den Parser 22. Die Grammatiktabelle 24 wird von dem Parser 22 verwendet, um grammatische Regeln zu prüfen, welche helfen, die Tabelle in einen geeigneten Syntaxbaum wie den in Fig. 9 gezeigten zu parsen. Der Parser 22 verwendet auch das Terminologielexikon 26, um zu bestimmen, welche der Tabellen in der virtuellen Tabelle 28 geprüft werden sollten. Insbesondere wird die in Fig. 7 gezeigte "Datenwort"-Spalte des Terminologielexikons geprüft.
Die Kollationiereinheit 30 (Fig. 6) bestimmt dann, welche der Tabelle in der virtuellen Tabelle 28 genutzt wird. Für das Beispiel der natursprachlichen Frage 20 wird Tabelle 1 (siehe Fig. 8a) geprüft. Die Eintragungen für die entsprechenden Ausdrücke sind in der Tabelle geprüft. Das Korrespondenzattributfeld der Eintragungen spezifizieren die Tabelle in der Datenbank 9 (Fig. 6), und eine Eintragung, wo Informationen betreffend den interessierende Ausdruck gefunden werden können, eine andere Korrespondenztabelle oder eine Anzeige, daß die gewünschten Daten als eine mathematische Funktion berechnet sind. Die von der Kollationiereinheit 30 (d. h. der Daseinstabellen- Logikformel) aufgefundenen Informationen werden dann zu der Datenbankformel-Erzeugungseinheit 32 geführt, welche diese Informationen in eine Datenbank-Wiederauffindungsformel zum Wiederauffinden aus der Datenbank umwandelt. Die Datenbank-Wiederauffindungsformel wird von der Datenbankformel-Erzeugungseinheit 32 zu der Wiederauffindungseinheit 34 geführt, welche die geeigneten Daten aus der Datenbank 9 wieder auffindet. Die wieder aufgefundenen Daten werden dann zu der Ausgabevorrichtung 17 (Fig. 2) ausgegeben.
Die Operation des Systems nach Fig. 1 wird nun im Einzelnen beschrieben. Anfänglich wird eine natursprachliche Frage 1 "Chokoreeto rui no sengetsu no uriage ha?" (Verkäufe von Schokoladen und dergleichen im letzten Monat?) unter Verwendung der Eingabeeinheit 2 eingegeben. Die Kommunikationssteuervorrichtung 3 gibt diese Frage zu dem Parser 22. Die Wiederauffindungsreihenfolge und die Operationsreihenfolge der Wiederauffindungssprache sind in der Kommunikationssteuervorrichtung 3 definiert. Der Parser 22 parsiert die Frage gemäß bekannten Strategien zum Parsen japanischer Fragen, um ein Syntaxanalyseergebnis (wie den in Fig. 9 gezeigten Syntaxbaum) zu erzeugen. Der Parser 5 verwendet die Grammatiktabelle 34 und das Terminologielexikon 26 bei der Durchführung des Parsens. Die Grammatiktabelle 24 ist ein Satz von erweiterten kontextfreien grammatischen Regeln wie sie in "Iwanami Koza, Zyoho Kagaku 23: Kazu to Shiki to Bun no Shori", Kapitel 5 'Kikai Honyaku', Iwanami Shoten" dargelegt sind.
Das Terminologielexikon 26 hat auch ein Format, wie es in dem oben beschriebenen Artikel umrissen ist. Dieses Format ist in Fig. 7 gezeigt. Um Zweideutigkeiten in der Bedeutung eines Wortes zu eliminieren, wird jedem Wort ein semantisches ID gegeben. Das se mantische ID hilft, den eingegebenen Ausdruck oder Wörter mit einem Ausdruck oder Wörtern zu assoziieren, die für die Datenbank 9 (Fig. 6) verständlich sind. Da zum Beispiel kein Wiederauffindungsschlüssel für "shoohin" (Ware) vorhanden ist, wird "shoohin mei" (Warenname) als das semantische ID für "shoohin" bezeichnet. Die Datenbank 9 (Fig. 6) enthält Informationen betreffend den Warennamen. Analog wird, da keine Eintragung für "choko rui" (Schokoladen und dergleichen) in der Datenbank vorhanden ist, "chokoreeto rui" (Schokoladen und dergleichen) als dessen semantisches ID bezeichnet.
Jede Eintragung in dem Terminologielexikon 26 (Fig. 7) enthält auch einen semantischen Markierer. Der semantische Markierer ist vorgesehen, um ein zweideutiges Wort (d. h. nicht direkt in der virtuellen Tabelle definiert) mit einem Korrespondenzattribut zu verbinden. Weiterhin dient der semantische Markierer dazu, Wörter zu kombinieren, welche unter der semantischen Beschränkung in der virtuellen Tabelle identisch sind. Da beispielsweise keine solchen Wiederauffindungsschlüssel für "sengetsu" (letzter Monat) in der virtuellen Tabelle 28 (Fig. 6) vorhanden sind, ist der semantische Markierer für diesen Ausdruck gleich Monat (Datum), so daß die Anzeige dieses Ausdrucks eine Anzeige des Datums auf einer monatlichen Basis ist. In gleicher Weise sind den Ausdrücken "Kyonen" (letztes Jahr), "hi" (Tag) und "toshi" (Jahr) ebenfalls semantische Markierer zugeordnet, welche anzeigen, daß die Ausdrücke sich auf ein Datum beziehen. Es können mehrere semantische Markierer für ein Wort zulässig sein (z. B. "uriage" in Fig. 7). In solchen Fällen wird das Datenwort in der virtuellen Tabelle 28 (Fig. 6), welches in der Lage ist, einem Auffindungsschlüssel der Datenbank 9 zu entsprechen, durch folgende semantische Beschränkung der durch den semantischen Markierer bezeichneten virtuellen Tabelle gesucht. Weiterhin ist in dem Terminologielexikon 26 eine Spalte für entsprechende Datenwörter (z. B. die "Datenwort"-Spalte in Fig. 7) vorgesehen für die Bezeichnung, auf welche der Tabellen der virtuellen Tabelle 28 (Fig. 6) Bezug genommen werden sollte.
Weiterhin wird in dem Fall, in welchem der Ausdruck, für welchen eine Eintragung im Terminologielexikon gesucht wird, ein numerischer Wert ohne entsprechende Eintragung in der virtuellen Tabelle ist, ein Korrespondenzattribut bestimmt durch die modifizierende modifizierte Beziehung hiervon oder einen semantischen Markierer für Einheiten von numerischen Werten. Alternativ wird ein tatsächlicher Wert bestimmt gemäß der Definition einer Daseinstabelle.
Als ein Ergebnis der durch den Parser 22 durchgeführten Analyse wird die Konstruktion der Frage identifiziert und das Objekt der Frage ist bekannt. Es ist erforderlich, das Objekt der Frage mit einem von der Datenbank besessenen Datenwort in Übereinstimmung zu bringen. Während mehrere Methoden für diesen Zweck verwendet werden können, ist die wirksamste Methode eine, bei der die virtuelle Tabelle vorgesehen ist, um ähnliche Bedeutungen zu assoziieren, auf welche als verschiedene Wörter in der Datenbank Bezug genommen ist. Durch Vorsehen einer virtuellen Tabelle wird eine Änderung und/oder Hinzufügung des Systems leicht verglichen mit einem Verfahren, bei welchem das Wiederauffindungsobjekt-Datenwort der Datenbank direkt in ein Terminologielexikon eingebracht ist. Weiterhin kann eine Verschiedenheit von unterschiedlichen natürlichen japanischen Fragen korrekt verarbeitet werden und die Fragen können verschiedene unterschiedli che Modifiziererdarstellungen verwenden.
Der Parser 22 (Fig. 6) erzeugt somit einen hierarchischen Syntaxbaum wie den in Fig. 9 gezeigten. Dieses Ergebnis zeigt an, daß die Verkäufe (d. h. "uriage") das sind, was gesucht wird. Der Ausdruck "Chokoreeto rui" (Schokolade und dergleichen) spezifiziert die Warengruppe, für welche die Verkäufe gesucht sind, und der Ausdruck "sengetsu" (letzter Monat) zeigt den Zeitrahmen an, für welchen die Verkaufsdaten gesucht werden. Dieser Syntaxbaum wird zu der Kollationiereinheit als das Syntaxanalyseergebnis gegeben (siehe Schritt 40 in Fig. 10). Der Syntaxbaum wird nicht direkt in eine Datenbankwiederauffindungs- Logikformel umgewandelt, sondern wird in eine Zwischendarstellung umgewandelt, die als eine Logikformel für eine virtuelle Tabelle bekannt ist. Dann wird eine angemessene Tabelle in der virtuellen Tabelle 28 (Fig. 6) ausgewählt (Schritt 42 in Fig. 10).
Für die beispielhafte Frage 20 in Fig. 6 wird auf das Terminologielexikon 26 (Fig. 7) Bezug genommen. Insbesondere wird das "Datenwort"-Feld für "sengetsu" (letzter Monat) geprüft. Das Datenwort-Feld zeigt zu Tabelle 5 in der virtuellen Tabelle 28 (Fig. 6). Somit wird Tabelle 5 (Fig. 8c) in der virtuellen Tabelle 28 (Fig. 6) geprüft. Die Eintragung für "sengetsu" hat ein Korrespondenzattribut, das zur Definitionstabelle B-21 zeigt. Demgemäß wird die Eintragung mit dem Argument 21 in der Definitionstabelle B geprüft (siehe Fig. 11a). Diese Tabelleneintragung bewirkt das Verfahren der Berechnung für "sengetsu". "sengetsu" (der letzte Monat) ist ein Wert, welcher sich entsprechend dem Zeitpunkt der Eingabe ändert und der daher berechnet werden muß.
Um das Verfahren zu verstehen, ist es wichtig, zuerst das Format zu verstehen, in welchem das Datum gehalten wir. Das gegenwärtige Datum ist eine 8- Dezimalstellenzahl mit den Stellen 8-5, die das Jahr halten (z. B. "1992"), Stellen 4 und 3, die den Monat halten (z. B. "07" für Juli) und Stellen 2 und 1, die den Tag halten (z. B. "11"). Somit ist ein beispielhaftes Format für das Datum des 11. Juli 1992 gleich "19920711".
Wenn der 11. Juli 1992 das gegenwärtige Datum ist, teilt die Definitionstabelle B dem System mit, wie der letzte Monat zu berechnen ist (d. h. Juni oder "06"). Zuerst wird eins von den Monatsstellen 4 und 3 subtrahiert. Daher wird ein Ergebnis von (07 - 1) oder 06 erhalten. Dann prüft das System, ob das Ergebnis gleich 00 ist. In diesem Fall ist das Ergebnis nicht null. Wenn das Ergebnis der Subtraktion gleich 00 ist, ist dies ein Anzeichen, daß der letzte Monat der Dezember des vorhergehenden Jahres war. Daher werden die Monatsstellen 4 und 3 durch die Stellen 12 für Dezember ersetzt und die Jahresstellen 8 - 5 (die Stellen höherer Ordnung) werden um eins verringert. Zuletzt werden die Tagesstellen 1 und 2 durch 00 ersetzt.
Als Nächstes wird eine Tabelle in virtuellen Tabelle 28 (Fig. 6) für "sengetsu" (letzter Monat) ausgewählt. In dem Terminologielexikon 26 (Fig. 7) sind mehrere virtuelle Tabellen für "chokoreeto rui" (Schokoladen und dergleichen) bezeichnet. Insbesondere sind die Tabellen 1 und 3 bezeichnet. Eine Eintragung in dem Terminologielexikon 28 wird ebenfalls für den Ausdruck "uriage" (Verkäufe) geprüft. Die Eintragung von "uriage" (Verkäufe) bezeichnet Tabelle 1. Wenn angenommen wird, daß sowohl die Eintragung für "Chokoreeto rui" als auch die Eintragung für "uriage" die Tabelle 1 der virtuellen Tabelle 28 spezifizieren, wird die Tabelle 1 ausgewählt. Wenn die geeignete Tabelle in der virtuellen Tabelle 28 ausgewählt ist, wird eine Zwischendarstellung durch den Kollationierungsprozess gebildet (Schritt 44 in Fig. 10), der von der Kollationiereinheit 30 durchgeführt wird.
Die Kollationiereinheit 30 (Fig. 14) weist intern auf: eine Auswahleinheit 60 für die virtuelle Tabelle, um eine Tabelle in der virtuellen Tabelle 28 (Fig. 6) auszuwählen; eine Berechnungs-/Kombinationseinheit 62 für einen tatsächlichen Wert (Fig. 14) zur Durchführung von Berechnungen und Kombinationen; und eine Fragestruktur-Bestimmungseinheit 64 zum Bestimmen der Struktur von Fragen, die zu der Datenbank- Formelerzeugungseinheit 32 geführt werden.
Der Kollationierungsprozess bezieht die Aufnahme der Inhalte eines Lexikons, auf das durch die eingegebene natursprachliche Frage Bezug genommen ist, ein in die Tabelle der virtuellen Tabelle, die im Schritt 42 in Fig. 14 ausgewählt wurde, oder durch Durchführung einer Attributkopplung zwischen virtuellen Tabellen. In dem beispielhaften Fall wurden zwei virtuelle Tabellen ausgewählt: Tabelle 1 (durch die Eintragungen in dem Terminologielexikon für "uriage" und "Chokoreeto rui") und Tabelle 5 (durch die Eintragung für "sengetsu"). Eine Korrespondenzlogikformel 50 für eine natürliche Sprache wird erzeugt, wie in Fig. 12 gezeigt ist. Die Korrespondenzlogikformel 50 ist eine Tabelle, die anzeigt, welche Informationen aus der Frage bekannt sind und welche zusätzlichen Informationen benötigt werden, um die Frage zu vervollständigen. Insbesondere zeigt sie die relevanten Variablen und jeglichen Werte dieser Variablen an, welche bekannt sind.
"Chokoreeto rui" wird in den "shoohin gun mei" (Warengruppenname) in der Formel 50 eingegeben, da "chokoreeto rui" (Schokoladen und dergleichen) ein Warengruppenname ist. Dies ist aus der ersten Tabelle in virtuellen Tabelle 28 (Fig. 6) bekannt. Weiterhin sind "URI" und "Datum" Variable, für welche die Werte noch nicht bestimmt sind. Diese durch dasselbe Wort dargestellten Variablen haben denselben Wert und stellen dieses selbe Attribut dar. Bei diesem Beispiel ist "URI" in der Frage und "URI" in "uriage hyo" sind einander identisch. Es ist festzustellen, daß die Werte für solche Datenwörter mit Ausnahme der notwendigen Datenwörter nicht benötigt werden. Eine Markierung "*" zeigt an, daß kein Wert aufgenommen wurde.
Im Schritt 46 von Fig. 10 wird eine erforderliche virtuelle Tabelle hinzugefügt, um zu der Datenbank 9 (Fig. 6) zuzugreifen. Bei diesem Beispiel ist die Tabelle 3 (Fig. 8b) der virtuellen Tabelle 28 (Fig. 6) ausgewählt auf der Grundlage des Korrespondenzattributs von "shoohin gun mei" 7 (Warengruppenname) in Tabelle 1 (Fig. 8a), welches Tabelle 3-2 spezifiziert. Die Eintragung in Tabelle 3 richtet den Benutzer zu der Datenbanktabellen-Eintragung 3-2 (z. B. DB 3-2). Zusätzlich wird der tatsächliche Wert von "sengetsu" (letzter Monat) aus der Definitionstabelle B berechnet (wie vorstehend diskutiert wurde). Die so vorgesehene Tabelle wird durch 52 in Fig. 13 angezeigt. Die gezeigten Daten führen zu der Annahme, daß das gegenwärtige Datum im Mai 1990 liegt. Daher ist der letzte Monat April 1990 oder "19900400". Der Warengruppencode dient als das Attribut zum Verbinden der Tabelle 1 und der Warengruppen-Stammtabelle, und sie besitzt "Code" als eine unbestimmte Variable.
Diese Tabelle 52 wird durch die Datenbank-Formelerzeugungseinheit 32 (Fig. 6) im Schritt 48 (Fig. 10) in eine Datenbank-Wiederauffindungsformel umgewandelt. Wiederauffindungen werden aufeinander folgend auf der Grundlage der Wiederauffindungsformel von der Wiederauffindungseinheit 34 (Fig. 6) durchgeführt, um die unbestimmten Variablen in der Tabelle 52 (Fig. 13) zu füllen. Zuerst wird die unbestimmte Variable "Code" von der Warengruppen-Stammtabelle 19 (d. h. Tabelle C in Fig. 3c) so bestimmt, daß sie 200 ist, was "chokoreeto rui" (Schokoladen und dergleichen) entspricht.
Das System sieht dann nach dem Korrespondenzattribut für "uriage" (Verkäufe) (siehe Fig. 8a), welches "fun-sum (BB1-4)" ist. Das Symbol "fun" zeigt an, daß eine Art von Berechnung benötigt wird. Mit der Definitionstabelle B-21 wird, wenn z. B. der letzte Monat der April 1990 ist, der Wert für den letzten Monat aus dem Wert für das gegenwärtige Datum als ein Operationsergebnis "19900400" erhalten. In ähnlicher Weise ist fun-sum (DB1-4) eine Operation, um die Summe der numerischen Werte der Verkaufsspalte (Spalte 4) in Tabelle A der Datenbank (Fig. 3c) zu erhalten. Das System kann dann zur Tabelle A zugreifen, um alle Verkaufseintragungen in der Verkaufsspalte für die Warengruppencode 200-Datenwörter während des Monats April 1990 zu summieren.
Auf diese Weise wird der Wert von URI gefüllt und die Datenbank-Wiederauffindungsverarbeitung wird beendet. Das Ergebnis wird dann in einem vorbestimmten Format ausgegeben.
Die Frage muß in eine Frage, die in einer Datenbank- Wiederauffindungssprache ausgedrückt ist, umgewandelt werden, um Daten aus der Datenbank wieder aufzufinden. Um die Struktur der natursprachlichen japanischen Fragen durch Datenbank-Wiederauffindungsformeln zu ersetzen, ist es erforderlich, die Beschränkungen und die Grammatik, die durch die Datenbank-Wiederauffindungssprache in der Terminologiedefinitionstabelle 26 (Fig. 6) besessen werden, zusammenzutun. Die Konstruktion der Fragen in der Datenbank-Wiederauffindungssprache erfolgt durch Bezugnahme auf diese Terminologiedefinitionstabelle, wie vorstehend beschrieben ist. Weiterhin ergibt das Vorhandensein einer getrennten Grammatikdefinitionstabelle 24 den Vorteil, daß alle Änderungen der Datenbank-Wiederauffindungssprache durch die Grammatikdefinitionstabelle absorbiert werden können, selbst wenn die vorliegende Erfindung auf ein System angewendet wird, das eine unterschiedliche Datenbank-Wiederauffindungssprache verwendet.
Wie vorstehend beschrieben ist, wird durch Verwendung des semantischen Markierers eines Terminologielexikons und der virtuellen Tabelle eine Datenbank bezeichnet und es erfolgt eine Umwandlung in eine Wiederauffindungs-Logikformel, welche geeignet ist, selbst wenn ein zweideutiges Wort in der Frage enthalten ist oder eine Weglassung in der eingegebenen Frage auftritt.
Wie beschrieben ist, wird bei der vorliegenden Erfindung kein hierarchisches Tabellenmodell benötigt. Weiterhin ist keine Berücksichtigung der hierarchischen Beziehung der Datenbank erforderlich. Da die virtuellen Tabellen eine Konstruktion haben, welche direkt die hierarchische Beziehung der Datenbank re flektiert, sind die Konstruktion und die Änderung einfach. Da weiterhin die Oberflächenbeschränkung und die semantische Beschränkung in der virtuellen Tabelle enthalten sind, kann die Kollationiereinheit eine sehr wahrscheinliche Datenbankdatei bezeichnen durch Auswahl einer geeigneten virtuellen Tabelle selbst für eine eingegebene zweideutige Frage.
Bei dem vorstehend beschriebenen Beispiel war der Ausdruck "sengetsu" (letzter Monat) in der natursprachlichen Frage enthalten. Dieser Ausdruck war ein unklares Wort in Bezug auf die Zeit. Das System hat auch die Fähigkeit, andere unklare Ausdrücke, die sich auf die Zeit beziehen, ordnungsgemäß zu analysieren. Es wird angenommen, daß der eingegebene japanische Satz "Kotoshi no haru no uriage ha" (Verkauf während des Frühjahrs in diesem Jahr?) lautet. Der Parser 22 (Fig. 6) zerlegt diesen Satz in seine Bestandteile "uriage" (Verkäufe) und "kotoshi no haru" (der Frühling in diesem Jahr). Weiterhin weiß der Parser 22, daß "kotoshi no haru" den Ausdruck "uriage" modifiziert. Der Parser 22 sieht nach dem Ausdruck "kotoshi no haru" in dem Terminologielexikon 26 und wird an eine geeignete Tabelle in der virtuellen Tabelle 28 verwiesen. Die Eintragung in der virtuellen Tabelle verweist den Benutzer zu der Eintragung 3 in der Definitionstabelle A, wie in Fig. 15 gezeigt ist. Diese Eintragung zeigt an, daß sich das Frühjahr von 03/01 bis 05/31 erstreckt. Auf diese Weise wird das Wort "kotoshi no haru" (Das Frühjahr in diesem Jahr), das in dem Syntaxanalyseergebnis enthalten ist, ersetzt durch "1990 nen 3 gatsu 1 nichi - 1990 nen 5 gatsu 31 nichi" (1. März 1990 - 31. Mai 1990).
Bei diesem Beispiel muß jedoch jede zu verwendende Kombination von Zeitwörtern in einem Terminologiele xikon als ein einzelnes Wort aufgezeichnet sein. Wenn es z. B. gewünscht ist, daß "kotoshi" (diese Jahr) und "haru" (Frühjahr) zu "kotoshi no haru" (das Frühjahr in diesem Jahr) kombiniert werden, ist es erforderlich, vorher "kotoshi no haru" (das Frühjahr in diesem Jahr) in dem Terminologielexikon 26 (Fig. 6) aufzuzeichnen. Da weiterhin die Definition eines jahreszeitlichen Wortes oder dergleichen von Benutzer zu Benutzer unterschiedlich ist, muß ein Terminologielexikon für jeden Benutzer vorbereitet werden.
Es kann ein alternatives Ausführungsbeispiel, wie in den Fig. 16a und 16b gezeigt ist, angewendet werden. Dieses alternative Ausführungsbeispiel unterscheidet sich von dem ersten Ausführungsbeispiel dadurch, daß es enthält: eine Zeitpunkt-Berechnungseinheit 70 zum Berechnen eines bestimmten Zeitpunktes aus dem gegenwärtigen Datum, eine Zeitintervall-Definitionstabellen-Bezugseinheit 80 und eine Kombinationseinheit 82 zum Addieren des Bezugsergebnisses der Zeitintervall- Definitionstabellen-Bezugseinheit 80 und des berechneten Ergebnisses eines Zeitpunktes. Weiterhin ist ein Systemzeitgeber 68 vorgesehen.
Es wird angenommen, daß "sakunen no fuyu no uriage ha" (Verkäufe während des Winters des letzten Jahres?) über die Eingabeeinheit 2 als die eingegebene Frage 66 eingegeben wird (Fig. 16a). Der Parser 22 erzeugt ein Syntaxanalyseergebnis 72 (d. h. einen Syntaxbaum) durch Verwendung der Grammatiktabelle 24 und des Terminologielexikons 26. Das Syntaxanalyseergebnis enthält "sakunen" (letztes Jahr) und "fuyu" (Winter), welche Zeitwörter sind. Die Definition des Wortes "sakunen" (das letzte Jahr) wird durch Zeitberechnung erhalten, und die Definition des Wortes "fuyu" (Winter) wird bezeichnet als zu beschreiben in der Zeitintervall-Definitionstabelle 82 (Fig. 16b). Das Syntaxanalyseergebnis 72 wird zu der Kollationiereinheit 30 geführt, wo das Ergebnis von der Zeitpunkt-Berechnungseinheit 70 empfangen wird. In der Zeitpunkt-Berechnungseinheit 70 wird eine Zeitpunktberechnung durchgeführt mit Bezug auf das gegenwärtige Datum (z. B. "19901224"), das durch einen Systemzeitgeber 68 erhalten wird. Das durchgeführte tatsächliche Berechnungsverfahren wird aus der in der Definitionstabelle B in Fig. 11 vorgesehenen Definition ausgewählt. Die ausgewählte Definition hängt von dem Wert in der Argumentspalte in dem Terminologielexikon ab. Bei diesem Beispiel wird ein 8-stelliger ganzzahliger Wert, der das Jahr "sakunen" (letztes Jahr) anzeigt, "19890000", durch das Berechnungsverfahren erhalten, entsprechend dem Wert "11" in der Argumentspalte von "sakunen" (das letzte Jahr), welche feststellt "subtrahiere 1 von vier Stellen hoher Ordnung und ersetze die vier Stellen niedriger Ordnung durch "0000". Nachfolgend wird der berechnete ganzzahlige Wert in den Teil für "sakunen" (das letzte Jahr) in dem Syntaxanalyseergebnis 72 eingesetzt, um ein Zeitpunkt-Berechnungsergebnis 74 zu erhalten.
Die Zeitintervall-Definitionsbezugseinheit 80 enthält die tatsächlichen Daten entsprechend "fuyu" (Winter). Sie erhält diese Daten durch Bezugnahme auf die Zeitintervall-Definitionstabelle 84. Daher wird, wie in Fig. 15 gezeigt ist, "fuyu" definiert als beginnend bei "00001201" (d. h. 1. Dezember) und endend bei "00010331" (d. h. 31. März des nächsten Jahres). Die Zeitintervall-Definitionstabellen-Bezugseinheit 80 ersetzt den wieder aufgefundenen Wert 86 für "fuyu" (Winter) in dem Zeitpunkt-Berechnungsergebnis 24, um ein Zeitintervall-Definitionstabellen-Bezugsergebnis 76 zu erhalten. Die Kombinationseinheit 82 kombiniert die tatsächlichen Daten entsprechen "sakunen" (das letzte Jahr) und "fuyu" (Winter) durch Addition, um einen vollständigen 8-Stellen-Bereich für Datumsangaben für das Intervall zu erhalten, wie in dem Kalkulationsergebnis 78 gezeigt ist. Insbesondere wird das Jahr "19890000" zu den Datumsangaben "fuyu" "00001201" - "00010331" hinzugefügt, um "19891201" - "19900331" zu erhalten. Das Berechnungsergebnis "19891201 - 19900331" bedeutet "vom ersten Dezember 1989 bis zum 31. März 1990". Das Berechnungsergebnis 78 wird dann verarbeitet, wie beim ersten Ausführungsbeispiel diskutiert ist.
Durch Änderung der Definition jedes Zeitwortes, das in der Zeitintervall-Definitionstabelle 84 (Fig. 16b) beschrieben ist, kann der Benutzer ein Berechnungsergebnis in Übereinstimmung mit der Definition ohne Änderung des Terminologielexikons 26 (Fig. 16a) erhalten. D. h. es ist für Benutzer möglich, ein Terminologielexikon zu teilen und die Zeitintervall-Definitionstabelle individuell zu handhaben. Dieser Nutzen des Teilens eines Terminologielexikons wird offensichtlicher, wenn davon ausgegangen wird, daß ein Terminologielexikon einen großen Umfang hat und eine Änderung eines Terminologielexikons schwierig ist. Wenn darüber hinaus Wörter enthaltend viele Modifizierer zu definieren sind, sind die Speicheranforderungen groß. Daher ist das Vorsehen eines getrennten Terminologielexikons für jeden Benutzer mühsam.
Die Beispiele für die eingegebenen natursprachlichen Fragen 1 (Fig. 6) und 66 (Fig. 16a) verlangten Verkaufsinformationen, welche leicht durch das System wiedergegeben werden konnten. Das System ist jedoch in der Lage, kompliziertere Fragen zu handhaben, die eine Schlußfolgerung erfordern. Es wird beispielswei se angenommen, daß die eingegebene japanische Frage der Satz ist: "Sengetsu no uriage yori kongetsu no uriage ga ooi tokuisaki ha" (Welcher Kunde hatte in diesem Monat mehr Verkäufe als Verkäufe im letzten Monat?). Für eine derartige eingegebene natursprachliche Frage erzeugt das System eine Wiederauffindungs-Logikformel, die auch bekannt ist als die Daseinstabellen-Logikformel 14, in der in Fig. 17a gezeigten Form 140. Die Formel 140 enthält eine Ergebnistabelle 142 zum Speichern der endgültige Ergebnisse der wieder aufgefundenen Daten. Die Ergebnistabelle 142 enthält einen Ort zum Speichern des Kundennamens und Tabellen zum Speichern der Gesamtverkäufe dieses Monats und der Gesamtverkäufe des letzten Monats. Zusätzlich enthält die Daseinstabellen-Logikformel 140 eine GT-Tabelle, welches eine Tabelle in der virtuellen Tabelle ist, die eine logische Operation mit Parametern durchführt, um zu bestimmen, ob ein Parameter (die linke Seite) größer als der andere (die rechte Seite).
Die Gesamtverkäufe der Tabelle für den letzten Monat enthalten einen Zeiger, der zu einer Zwischenergebnistabelle 144 für den letzten Monat zeigt, die die Ergebnisse von Zwischenberechnungen hält, die erforderlich sind, um die Gesamtverkäufe des letzten Monats zu bestimmen. In gleicher Weise zeigt die Tabelle für die Gesamtverkäufe dieses Monats zu der Zwischenergebnistabelle 146 für diese Monat. Beide Zwischenergebnistabellen 144 und 146 suchen Informationen zu haben, die den Kundencode und die Gesamtverkäufe für ihre jeweiligen Monate betreffen. Um die Gesamtverkäufe des letzten Monats zu berechnen, ist es erforderlich, das Berechnungsobjekt zu bestimmen (d. h. welche Art von Information wird gesucht). Zusätzlich ist es erforderlich, die Menge von Bestellung zu be stimmen, welche während des Monats von diesem Kunden erhalten wurden, demgemäß gibt es eine zusätzliche Tabelle, die Zwischenergebnistabelle 148 für die Gesamtverkäufe des letzten Monats. Analog ist auch eine Zwischenergebnistabelle 151 für die Gesamtverkäufe in diesem Monat vorgesehen, welche ähnliche Informationen für den Verkauf dieses Monats sucht. Daher wird die Menge der empfangenen Bestellungen für diesen Monat und den letzten Monat für den bestimmten Kundencode angefordert und zu der Datenbank-Formelerzeugungseinheit 32 geführt, welche die Logikformel in eine Datenbank-Wiederauffindungsformel 157 umwandelt unter Verwendung der Datenbank-Wiederauffindungswort- Grammatikdefinitionstabelle 155. Die Ergebnistabelle und verschiedenen Zwischenergebnistabellen 144, 146, 148 und 151 werden zu der Datenbank-Formelerzeugungseinheit 32 geführt. Zusätzlich werden Gleichheitstabellen (bezeichnet als EQ-Tabellen) zu der Datenbank- Formelerzeugungseinheit 32 geführt. Insbesondere werden EQ-Tabellen 3 und 4, wie in Fig. 17b gezeigt ist, zu der Datenbank-Formelerzeugungseinheit 32 geführt. Die EQ-Tabelle 3 sucht zu bestimmen, ob das Datum der Datei für empfangene Bestellungen gleich dem Datum des letzten Monats ist, und die EQ-Tabelle 4 sucht zu bestimmen, ob das Datum der Datei für empfangene Bestellungen gleich dem heutigen Datum ist.
Die Daseinstabellen-Logikformel 140 wird durch die Datenbank-Formelerzeugungseinheit 32 (Fig. 17c) verarbeitet, welche die Datenbank-Wiederauffindungswort- Grammatikdefinitionstabelle verwendet, um die Logikformel 140 zu verarbeiten. Die Datenbank-Wiederauffindungswort-Grammatikdefinitionstabelle wird durch die Datenbank-Formelerzeugungseinheit 32 mit Bezug auf die Wiederauffindungs-Logikformel 140 geprüft. Die Datenbank-Wiederauffindungswort-Definitionsta belle verarbeitet anfänglich die Ergebnistabelle, wie in Fig. 18 angezeigt ist. Insbesondere ist das System gerichtet auf die Auswahl von AUSWAHL (Datenwort) VON (Bezugstabelle) WO (Bedingung). Somit wird die Ergebnistabelle umgewandelt in eine Datenbank-Wiederauffindungsformel von < auf Frage 3> von Fig. 19. Die Wiederauffindungswort-Grammatikdefinitionstabelle 155 hat eine ähnliche Eintragung für die Zwischenergebnistabellen 144 und 146. Weiterhin untersucht die Datenbank-Formelerzeugungseinheit 32 die Ausführungsfolge der bestimmten Operationen mit Bezug zueinander. Da in diesem Fall die Ergebnistabelle 142 die Zwischenergebnistabelle 144 für den letzten Monat und die Zwischenergebnistabelle 146 für diesen Monat als "linke Seite > rechte Seite" in der GT-Tabelle bezeichnet, wird gelernt, daß die Operation der linken Seite und der rechten Seite durchgeführt werden muß, bevor die GT-Tabelle verarbeitet werden kann. Mit anderen Worten, es wird gesehen, daß die Bestimmung der Zwischenergebnistabellen zuerst durchgeführt werden muß.
Auf diese Weise wird die Ausführungsfolge bestimmt als < Frage 1> , < Frage 2> (es besteht keine Beschränkung für die Ausführungsfolge dieser beiden), < Frage 3> .
Das System schreitet fort, um jede der Fragen wie in Fig. 19 angezeigt zu verarbeiten. Insbesondere wird für die Frage 1, welche die Frage für die Zwischenergebnistabelle für den letzten Monat ist, die Kundentabelle in der Datenbank 9 (Fig. 17c) abgerufen unter Verwendung der Wiederauffindungseinheit 34, um die Kundencodeinformationen zu erhalten. Weiterhin sucht das System die Mengenfelder in der Datei für empfangene Bestellungen der Datenbank 9 zu summieren. Um diese Rechnung durchzuführen, summiert das System die Mengeneintragungen mit dem geeigneten Kundencode und welche den Datenbeschränkungen des letzten Monats genügen. Die EQ-Tabelle 3 wird verwendet, um sicherzustellen, daß die Datumsanforderungen erfüllt sind. Auf diese Weise wird die Zwischenergebnistabelle mit den relevanten Informationen gefüllt.
Die Frage 2 betrifft die Verarbeitung für die Zwischenergebnistabelle für diesen Monat. Die Verarbeitung ist dieselbe wie bei Frage 1 mit der Ausnahme, daß unterschiedliche Datumsanforderungen verwendet werden. Insbesondere muß daß Datum den Beschränkungen für diesen Monat entsprechen. Auf diese Weise werden die Informationen für die Zwischenergebnistabelle für diesen Monat vervollständigt.
Zuletzt wird die Frage 3 verarbeitet. Die Frage 3 ist die Frage für die Ergebnistabelle. Wie Fig. 19 anzeigt, werden die Kundentabelle in der Datenbank und der Kundenname ausgewählt sowie die Gesamtverkäufe der Tabelle dieses letzten Monats und der Gesamtverkäufe der Tabelle dieses Monats. Diese Informationen werden aus der Kundentabelle in der Datenbank 9 (Fig. 17), aus der Zwischenergebnistabelle 144 für den letzten Monat und der Zwischenergebnistabelle 146 für diesen Monat abgerufen. Damit der Kundenname ausgegeben wird, müssen die Verkäufe aus der Tabelle für diesen Monat größer sein als die Verkäufe aus der Tabelle für den letzten Monat und der Kundencode aus der Zwischenergebnistabelle für diesen Monat muß gleich der Kundentabelle und dem Code sein.
Auf diese Weise ist eine automatische Erzeugung der Datenbank-Wiederauffindungsformel möglich. Operationen werden verbunden mittels eines Zeigers, und eine Logikeinheit zur Beurteilung der Ausführungsordnung ist in der Datenbank-Formelerzeugungseinheit 32 in Fig. 6 vorgesehen.
Weiterhin ergibt diese Annäherung den zusätzlichen Vorteil, daß mehrere aufeinander folgende Datenwiedergaben mittels Zwischenergebnissen möglich sind. Das System ergibt auch den Vorteil, daß es möglich ist, eine einfache Anpassung an eine unterschiedliche Datenbank-Wiederauffindungssprache durch Änderung der Grammatikdefinitionstabelle durchzuführen.
Insbesondere kann, wenn die Wiederauffindungssprache geändert wird, die Datenbank-Wiederauffindungsformel für eine neue Wiederauffindungssprache erzeugt werden und ein übermäßiges Neuschreiben von dieser ist nicht erforderlich. Vielmehr ist eine einfache Änderung in der Beschreibung von (Datenwort), (Bezugstabelle), (Bedingung) oder AUSWAHL, VON, WO des bezeichneten Datenwortes zu der Ergebnistabelle der Grammatikdefinitionstabelle alles was erforderlich ist.
Für einige natürliche japanische Fragen muß eine komplizierte oder mehrfache Verarbeitung durchgeführt werden, um die Frage zu analysieren. Beispielsweise gibt es Fälle, bei denen Daten, die bestimmten Perioden von bestimmten Bedingungen entsprechen, miteinander addiert werden. Es ist oft wünschenswert, in der Lage zu sein, eine Vorverarbeitungsoperation bei der Kollationiereinheit durchzuführen für einen Vergleich oder eine Gruppierung. Daher kann eine derartige Vorverarbeitung in die vorliegende Erfindung einbezogen werden.
Um eine derartige Vorverarbeitung zu erläutern, wird angenommen, daß die eingegebene Frage lautet: "Mitsu bishi shooten no uriage yori uriage ga ooi tokuisaki ha" (Welcher Kunde hat mehr Verkäufe als Mitsubishi shooten?) oder "(A-shooten no) kotoshi no haru kara aki made no uriage ha" (Wie groß waren die Verkäufe an das (Geschäft A) vom Frühjahr bis zum Herbst dieses Jahres?). Die Fig. 20a und 20b sind hilfreich bei der Erläuterung der Struktur eines Syntaxbaumes, der für eine eingegebene Frage erzeugt wird, die mehrere Gruppen logischer Formeln erfordert. Zuerst wird der eingegebene Satz durch den Parser 22 (Fig. 6) in Elemente in der Form einer Baumstruktur zerlegt (d. h. den Syntaxbaum) wie den Baum, der in Fig. 20a als "HIKAKU" (Vergleich) bezeichnet ist und den Baum, der in Fig. 20b als "KARA MADE" (von zu) bezeichnet ist. Fig. 20a zeigt den Syntaxbaum für die Frage des ersten Beispiels, und Fig. 20b zeigt den Syntaxbaum für die Frage des zweiten Beispiels. Partikel werden erfaßt und die Elemente werden zwangsweise in dem Parser 22 (Fig. 6) geteilt. In den Fig. 20a und 20b bezieht sich "ji" auf ein Wort, daß als ein Schlüssel dient, und "fu" ist ein Modifizierer. Der Modifizierer wird verwendet für die Bezugnahme auf die Oberflächenbeschränkung oder er wird betrachtet als ein besonderer Modifizierer bei der Suche der virtuellen Tabelle.
Die Frage des ersten Beispiels, wie in Fig. 20a gezeigt ist, sucht die Verkäufe von zwei Personen zu vergleichen. Es sind daher zwei Tabellen auszuwählen. Wenn eine Tabelle so ausgewählt ist, daß ein Vergleich nicht durchgeführt werden kann. Zwei Tabellen können ausgewählt werden, indem der Syntaxbaum in Gruppen geteilt wird. Eine virtuelle Tabelle (siehe Fig. 21a) entsprechend einem Vergleichsausdruck wie "ooi hyo" in Fig. 20a ist vorgesehen, und eine Logikformel für eine virtuelle Tabelle für den Vergleich wird erzeugt durch Anzeige der Beziehung zwischen den beiden Tabellen mit der virtuellen Vergleichstabelle. Die virtuelle Vergleichstabelle kann verwendet werden für die Umwandlung eines Wortes, das eine Vergleichsbedeutung in jeder Sprache anzeigt, in einen Ausdruck wie [GT] (größer als). Die beiden Logikformeln für die virtuelle Tabelle werden gesetzt durch Gruppe (a) in Fig. 20a.
In einer ähnlichen Weise werden, wie in Fig. 21b gezeigt ist, durch Verwendung der virtuellen Tabelle, die so ausgebildet ist, daß sie "kara made" (von ... zu), "yori made" (von ... zu)-Tabellen hat, die zwischen Logikformeln bestimmt durch Gruppe (b), wie n Fig. 20b gezeigt ist. Es ist in Fig. 21b bezeichnet, sich auf die Definitionsformel zu beziehen, und tatsächliche Datumsangaben werden durch die vorstehend diskutierte Operation bestimmt.
Auch können Fragen in einigem Ausmaß behandelt werden, indem ein Datenwort für die Oberflächenbeschränkung in der virtuellen Tabelle vorgesehen ist und indem die Datenwörter relativ zu der Oberflächenbeschränkung untersucht werden. Beispielsweise ist es möglich mit Bezug auf einen eingegebenen Satz "Nani wo uttaka" (Was wurde verkauft?), da nur ein Warenname oder ein Warengruppenname unter solche mit der Oberflächenbeschränkung "wo" in "uru hyo" fällt, anzunehmen, daß "nani" (was) sich auf einen von diesen bezieht.
Weiterhin ist es durch Vergleichen der Oberflächenbeschränkung möglich, Partikel zu prüfen und eine Fehlernachricht für einen eingegebenen Satz mit einem fehlerhaften Inhalt anzuzeigen. Z. B. wird mit Bezug auf einen Satz "Chokoreeto ga utta shoohin ha" (Wel che Ware durch Schokoladen verkauft?), da es kein "ga" in der Oberflächenbeschränkung von "shoohin" in "uru hyo" gibt, dies als ein Fehler beurteilt, und es ist möglich, eine Fehlernachricht "Zyoshi ga chigai masu" (Falsches "zyoshi" wird verwendet) anzuzeigen.
In dem System nach Fig. 1, das als ein herkömmliches Beispiel beschrieben ist, ist zu jeder Zeit eine Antwort in demselben Format vorgesehen. D. h. bei der Beantwortung des Wiederauffindungsergebnisses erfolgt die Antwort in einem Tabellenformat und nicht in einem Satzformat. In einigen Fällen ist die Antwort in diesem Format schwierig zu betrachten. Um diesen Nachteil zu beseitigen, kann eine Antwortformat-Auswahleinheit in der Wiederauffindungseinheit vorgesehen sein. Diese Einheit sollte wenigstens zwei Typen von Formaten als Ausgabeformat vorsehen, d. h. ein Tabellenformat und ein Satzformat.
Während die vorliegende Erfindung mit Bezug auf bevorzugte Ausführungsbeispiele hiervon gezeigt wurde, sind dem Fachmann andere alternative Ausführungsbeispiele bekannt, welche nicht von dem Gedanken und dem Umfang der Erfindung abweichen, wie sie in den angefügten Ansprüchen definiert ist. Z. B. kann das System so eingestellt sein, daß es mit natursprachlichen Fragen arbeitet, die in anderen Sprachen als Japanisch formuliert sind. Weiterhin kann das System durch ein anderes Datenverarbeitungssystem als das in Fig. 2 gezeigte implementiert werden.

Claims

1. Informationsauffindungssystem zum Wiederauffinden von Informationen aus einer Datenbank (9) mit einer Analyseeinheit unter Verwendung eines Lexikons zur Analyse einer natursprachlichen Frage,

dadurch gekennzeichnet, daß

- das Lexikon natursprachliche Ausdrücke mit ihrer semantischen Bedeutung in Ausdrücken assoziiert, welche von der Datenbank verstanden werden können, und auch jeden dieser Ausdrücke mit einer oder mehreren virtuellen Tabellen (28) assoziiert;

- die virtuellen Tabellen sematische Bedeutungen mit Datenbanktabellen assoziiert;

- die Analyseeinheit ein Parser (822) ist, der das Lexikon für das Parsing der natursprachlichen Frage in ihre Bestandteile verwendet, um ein Syntaxanalyseergebnis bezüglich des Aufbaus der Frage zu bestimmen;

- eine Kollationiereinheit (30) zum Vorbereiten einer Datenbank-Auffindungsformel aus dem Syntaxanalyseergebnis durch Auswahl der Datenbanktabellen, wie durch die virtuellen Tabellen angezeigt ist, wodurch für einen Ausdruck, der mit mehr als einer virtuellen Ta belle assoziiert ist, die Kollationiereinheit sich auf die virtuelle Tabelle stützt, welche dieser Ausdruck gemeinsam mit einem anderen Ausdruck der Frage hat, und

- eine Wiederauffindungs-Durchführungseinheit (32, 24) zum Wiederauffinden von Daten aus der Datenbank (9) auf der Grundlage der Datenbank-Auffindungsformel.

2. Informationsauffindungssystem nach Anspruch 1, welches weiterhin aufweist: eine zusätzliche Tabelle zum Umwandeln eines Satzes mit unbestimmtem Wert in der natursprachlichen Frage in einem Satz mit bestimmtem Wert in der Datenbank (9) auf der Grundlage des Syntaxanalyseergebnisses.

3. Informationsauffindungssystem nach Anspruch 1 oder 2, welches weiterhin aufweist:

ein Terminologielexikon (26) zum Identifizieren von Eintragungen in der virtuellen Tabelle, die zur Identifizierung der Ausdrücke der Bestandteile zu verwenden ist, wobei das Lexikon die Zeit darstellende Wörter enthält, und das Terminologielexikon von dem Parser (22) verwendet wird beim Erhalten des Syntaxanalyseergebnisses; und

eine Zeitintervall-Definitionstabelle (80) in der virtuellen Tabelle zum Definieren von Zeitangaben entsprechend den die Zeit darstellenden Wörtern.

4. Informationsauffindungssystem nach einem der Ansprüche 1 bis, welches weiterhin aufweist: eine Datenbank-Auffindungsformel-Umwandlungseinheit zum Erzeugen einer Formel in einer Daten bank-Auffindungssprache aus der Datenbank-Auffindungsformel.