Kurzfassung
Für grosse natürlichsprachliche Informationsmengen, die in weiten Bereichen des Büros anzutreffen sind, ist es im Sinne einer zweckmässigen Automatisierung wünschenswert, wenn der Rechner Dokumente nicht nur vergleicht und uns das Resultat in geeigneter Form bekannt gibt, sondern dass der Benutzer die Vergleichsbasis und die Form der Darstellung interaktiv bestimmen oder verändern kann. Wir stellen eine Methodik vor, die es erlaubt, in vier unabhängigen Schritten mittels Datenreduktion, Datenverdichtung, Datentransformation und Datenvisualisation, Information aus grossen Datenmengen interaktiv verschiedenartig zu abstrahieren. Gewisse, in der natürlichsprachlichen Information enthaltenen, Strukturen werden dabei vom Volltext zur graphischen Darstellung überführt Zunächst wird durch Anwendung einer Stoppwortliste und Grundformenbildung das Volumen der Daten reduziert. Die so reduzierte Datenmenge wird durch die Abbildung auf Trigramm-Mengen (Informationsspuren) weiter verdichtet. Schliesslich werden die Beziehungen zwischen den einzelnen Zeichen der Trigramme (Übergänge) verschiedenartig visualisiert, um numerische Ähnlichkeitsmasse zu ergänzen. Die beschriebene Methodik ist softwaremässig implementiert, erste Resultate werden vorgestellt.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Similar content being viewed by others
Literatur
T. De Heer. Experiments with syntactic traces in information retrieval. Inform. Stor. Retriev. 10, 133–144 (1974).
T. De Heer. The application of the concept of homeosemy to natural language information retrieval. Inform. Process. Mgmt. 18(5), 229–236 (1982).
H. Hinterberger. Data density: A powerful abstraction to manage and analyze multivariate data. Diss. ETH-Zürich Nr. 8330, Zürich (1987).
A. Inselberg. The plane with parallel coordinates. The Visual Computer 1, 69–91 (1985).
N. Jardine, R. Sibson. Mathematical Taxonomy. J. Wiley & Sons, London (1971).
H. Karlgren. Homeosemy — on the linguistics of information retrieval. In: D. E. Walker, H. Karlgren und M. Kay (eds.). Natural language in information science. Skriptor, Stokholm (1977).
R. Kuhlen. Experimentelle Morphologie in der Informations-wissenschaft. Verlag Dokumentation, München (1977).
J. Nievergelt, H. Hinterberger und K. C. Sevcik. The grid file: an adaptable, symmetric multi-key file structure. ACM Trans. on Database Systems 9(1), 38–71 (1984).
M. F. Porter. An algorithm for suffix stripping. Program 14(3), 130–137 (1980).
C. J. van Rijsbergen. Information Retrieval. Butterworths, London (1979).
G. Salton, M. J. McGill. Introduction to modern information retrieval. McGraw-Hill, Singapore (1983).
C. Schwarz. Freitextrecherche — Grenzen und Möglichkeiten, Anmerkungen aus der Sicht der Informationslinguistik. Nachr. f. Dokwn. 33(6) (1982).
J. O. Stolley. String retrieval in german texts by means of trigrams. Philips Research Report, Pub.-No. IDR-R-ST/7809/2039, Eindhoven (1978).
C. Y. Suen. N-gram statistics for natural language understanding and text processing. IEEE Trans. Pattern Analysis Mach. Intell. PAMI-1(2), 164–172 (1979).
B. Teufel, S. Schmidt. Full text retrieval based on syntactic similarities. Inform. Systems 13(1), 65–70 (1988).
B. Teufel. Statistical n-gram indexing of natural language documents. Int. Forum on Inform. and Docum. IFID 13(4), (1988).
E. J. Wegman. Hyperdimensional data analysis using parallel coordinates. Technical Report No. 1, Center for Computational Statistics and Probability, George Mason University, Fairfax (1986).
Author information
Authors and Affiliations
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 1988 Springer-Verlag Berlin Heidelberg
About this paper
Cite this paper
Hinterberger, H., Teufel, B. (1988). Vergleich natürlichsprachlicher Dokumente mittels Visualisierung von Informationsspuren. In: Kansy, K., Wißkirchen, P. (eds) Graphik im Bürobereich. Informatik-Fachberichte, vol 192. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-74276-7_13
Download citation
DOI: https://doi.org/10.1007/978-3-642-74276-7_13
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-50543-3
Online ISBN: 978-3-642-74276-7
eBook Packages: Springer Book Archive