Synopses & Reviews
Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme. Für die dritte Auflage wurden sämtliche Kapitel überarbeitet und aktualisiert sowie zum Teil zu eigenständigen, neuen Kapiteln zusammengeführt. Insbesondere trägt die dritte Auflage der rasanten Entwicklung in der Computerlinguistik und Sprachtechnologie durch eine stärkere Fokussierung auf statistische Grundlagen und Methoden Rechnung.
Review
Den Herausgebern ist (...) gelungen, zwei scheinbar inkompatible Ziele zugleich zu erfüllen. Zum einen haben sie mit einem breiten Spektrum an Beiträgen die Vielfalt des Faches abgedeckt. Zum anderen haben sie aber auch verstanden, die Beiträge stark untereinander zu vernetzen und aufeinander abzustimmen. (...) Man kann das Handbuch daher flexibel einsetzen. (...) Zusammenfassend läßt sich sagen, dass hier ein Handbuch aus einem Guss entstanden ist, das ich nachhaltig allen an der Computerlinguistik Interessierten als Einführungs- und Nachschlagewerk empfehlen möchte.Zeitschrift für Sprachwissenschaft
About the Author
Dr. Ralf Klabunde ist Professor am Sprachwissenschaftlichen Institut der Ruhr-Universität Bochum. Die Mitherausgeber (Dr. Kai-Uwe Carstensen, Dr. Christian Ebert, Dr. Cornelia Ebert, Prof. Dr. Susanne Jekat, Dr. habil. Hagen Langer) und Autoren sind Dozenten und wissenschaftliche Mitarbeiter an den Computerlinguistik-Abteilungen der Universitäten Bielefeld, Bochum, Bonn, Bremen, Darmstadt, Erlangen, Hamburg, Indiana University (Bloomington), Konstanz, Leipzig, München, Osnabrück, Saarbrücken, Stuttgart, Tübingen und Zürich. Einzelne Autoren arbeite(te)n bei den folgenden Firmen/Forschungseinrichtungen: AIDOS, Bell Labs, DaimlerChrysler, DfKI, EML, ICT (Australien), Kofax (USA), Lernout & Hauspie, Siemens und vionto .
Table of Contents
1 Computerlinguistik - Was ist das? 1.1 Aspekte der Computerlinguistik 1.1.1 Computerlinguistik: Die Wissenschaft 1.1.2 Computerlinguistik und ihre Nachbardisziplinen 1.1.3 Teilbereiche der Computerlinguistik 1.1.4 Theoretische Computerlinguistik 1.1.5 Wissensbereiche 1.1.6 Industrielle Anwendungen 1.1.7 Berufsfelder für Computerlinguisten 1.1.8 Literaturhinweise 1.2 Zur Geschichte der Computerlinguistik 1.2.1 Die Ursprünge 1.2.2 Symbolische Sprachverarbeitung 1.2.3 Korpusstatistische Verfahren 1.2.4 Anwendungen der Computerlinguistik 2 Formale Grundlagen 2.1 Mengenlehre und Logik 2.1.1 Mengenlehre 2.1.2 Aussagenlogik 2.1.3 Prädikatenlogik 2.1.4 Typenlogik 2.1.5 Der Lambda-Kalkül 2.1.6 Literaturhinweise 2.2 Automatentheorie und Formale Sprachen 2.2.1 Grundlegende Definitionen 2.2.2 Grammatiken 2.2.3 Endliche Automaten, einseitig-lineare Grammatiken und reguläre Sprachen 2.2.4 Kontextfreie Sprachen und Grammatiken 2.2.5 Nicht-kontextfreie Sprachen und Grammatiken 2.2.6 Komplexitäts- und Entscheidbarkeitseigenschaften 2.2.7 Zusammenfassung 2.2.8 Literaturhinweise 2.3 Graphentheorie und Merkmalsstrukturen 2.3.1 Graphen und Bäume 2.3.2 Merkmalsstrukturen 2.3.3 Unifikation 2.3.4 Generalisierung 2.3.5 Typisierte Merkmalsstrukturen 2.3.6 Literaturhinweise 2.4 Statistische Grundlagen 2.4.1 Wahrscheinlichkeitstheoretische Grundlagen 2.4.2 Hidden-Markov-Modelle 2.4.3 Evalutation und Optimierung statistischer Modelle 2.4.4 Literaturhinweise 2.5 Texttechnologische Grundlagen 2.5.1 HTML - Hypertext Markup Language 2.5.2 XML - Extensible Markup Language 2.5.3 Verarbeitung XML-annotierter Daten 2.5.4 Texttechnologie und Computerlinguistik 2.5.5 Literaturhinweise 3 Methoden 3.1 Phonetik und Phonologie 3.1.1 Grundlagen der Computerphonologie 3.1.2 Empirische Methoden 3.1.3 Formale Methoden 3.1.4 Zusammenfassung und weitergehende Lektüre 3.2 Verarbeitung gesprochener Sprache 3.2.1 Spracherkennung 3.2.2 Sprachsynthese 3.2.3 Gemeinsamkeiten und Unterschiede 3.2.4 Literaturhinweise 3.3 Morphologie 3.3.1 Überblick 3.3.2 Grundbegriffe und -probleme 3.3.3 Modelle aus der Generativen Linguistik 3.3.4 Morphologie mit endlichen Automaten 3.3.5 Default-Vererbungsnetze: DATR 3.3.6 Erweiterte Finite-State-Ansätze 3.3.7 Morphologie und generative Kapazität 3.3.8 Zusammenfassung und Ausblick 3.3.9 Literaturhinweise 3.4 Flache Satzverarbeitung 3.4.1 Tokenisierung 3.4.2 Wortart-Tagging 3.4.3 Chunk-Parsing 3.4.4 Literaturhinweise 3.5 Syntax und Parsing 3.5.1 Syntax 3.5.2 Parsing 3.5.3 Literaturhinweise 3.6 Semantik 3.6.1 Grundlagen der natürlichsprachlichen Semantik 3.6.2 Formale Semantik 3.6.3 Diskursrepräsentationstheorie 3.6.4 Ansätze zur Unterspezifikation 3.6.5 Lexikalische Semantik 3.6.6 Literaturhinweise 3.7 Pragmatik 3.7.1 Text, Diskurs und Dialog 3.7.2 Anaphernresolution 3.7.3 Implikaturen und Präsuppositionen 3.7.4 Benutzermodellierung 3.8 Textgenerierung 3.8.1 Aufgaben der Planung und Umsetzung 3.8.2 Funktionalität des Planungsprozesses 3.8.3 Methoden zur Diskursplanung 3.8.4 Satzplanungsverfahren 3.8.5 Verfahren zur Oberflächenrealisierung 3.8.6 Linguistische Theorien zur Generierung 3.8.7 Ausblick 3.8.8 Literaturhinweise 3.9 Programmiersprachen in der Computerlinguistik 3.9.1 Die Anfänge: Hochsprachen und symbolische Sprachverarbeitung 3.9.2 C/C++ 3.9.3 Programmierarchitekturen: Java und .Net 3.9.4 Dynamische Sprachen: Perl und Python 3.9.5 Von der Desktop- zur Web-Applikation 4 Ressourcen 4.1 Korpora 4.1.1 Aufbau eines Korpus 4.1.2 Typologie 4.1.3 Anwendungen 4.1.4 Weiterführende Informationen 4.2 Baumbanken 4.2.1 Zentrale Eigenschaften 4.2.2 Die wichtigsten Baumbanken 4.2.3 Suche in Baumbanken 4.2.4 Literaturhinweise 4.3 Lexikalisch-semantische Ressourcen 4.3.1 Lexikalisch-semantisches Wortnetze 4.3.2 FrameNet 4.3.3 Literaturhinweise 4.4 Lexika für multimodale Systeme 4.4.1 Grundlagen 4.4.2 Die Lexikographie 4.4.3 Lexikalische Struktur- und Informationstypen 4.4.4 Literaturhinweise 4.5 Sprachdatenbanken 4.5.1 Definition 4.5.2 Primärdaten 4.5.3 Sekundärdaten 4.5.4 Tertiärdaten 4.5.5 Software 4.5.6 Anwendungsgebiete 4.5.7 Literaturhinweise 4.6 Nicht-sprachliches Wissen 4.6.1 Die Relevanz nicht-sprachlichen Wissens für die CL 4.6.2 Was ist „Wissen" (nicht)? 4.6.3 Wissen und Wissensrepräsentation 4.6.4 Aspekte der Wissensrepräsentation 4.6.5 Wissensrepräsentation für die CL 4.6.6 Literaturhinweise 4.7 Das World Wide Web als computerlinguistische Ressource 4.7.1 Einleitung 4.7.2 Aspekte des Web als Korpus 4.7.3 Sozio-Semantisches Web 4.7.4 Sprachverarbeitungsanwendungen mit Nutzung des World Wide Web als Ressource 4.7.5 Computerlinguistik und Sprachtechnologie für das Web 4.7.6 Literaturhinweise 5 Anwendungen 5.1 Korrektursysteme 5.1.1 Korrektur von Nichtwörtern 5.1.2 Kontextabhängige Korrektur 5.1.3 Rechtschreibkorrektur für Suchmaschinen 5.1.4 Grammatikkorrektur 5.1.5 Perspektiven 5.1.6 Literaturhinweise 5.2 Computergestützte Lexikographie 5.2.1 Lexikographie und Terminologie 5.2.2 Die Teilbereiche im Überblick 5.2.3 Akquisition von lexikalischem Wissen 5.2.4 Verwaltung und Repräsentation lexikalischen Wissens 5.2.5 Nutzung von lexikalischem Wissen 5.2.6 Computerlinguistische Unterstützung lexikographischer Arbeit 5.2.7 Literaturhinweise 5.3 Text-basiertes Informationsmanagement 5.3.1 Überblick 5.3.2 Information Retrieval 5.3.3 Informationsextraktion 5.3.4 Domänenoffene Fragebeantwortung 5.3.5 Textzusammenfassung 5.3.6 Multilinguales und sprachübergreifendes TIM 5.3.7 Perspektiven 5.3.8 Literaturhinweise 5.4 Sprachein- und -ausgabe 5.4.1 Spracheingabe 5.4.2 Sprachausgabe 5.4.3 Literaturhinweise 5.5 (Multimodale) Dialogsysteme 5.5.1 Multimodale Kommunikation 5.5.2 Sprachdialogsysteme 5.5.3 Struktur eines multimodalen Dialogsystems 5.5.4 Modellierung und Repräsentation 5.5.5 Literaturhinweise 5.6 Angewandte natürlichsprachliche Generierungs- und Auskunftsysteme 5.6.1 Was ist angewandte NLG? 5.6.2 Beispiele für angewandte NLG-Systeme 5.6.3 Mechanismen und Methoden 5.6.4 Perspektiven 5.6.5 Literaturhinweise 5.7 Maschinelle und computergestützte Übersetzung 5.7.1 Einleitung 5.7.2 MÜ-Ansätze 5.7.3 Regel-basierte Systeme 5.7.4 Statistische Maschinelle Übersetzung 5.7.5 Evalution von MÜ-Systemen 5.7.6 Computergestützte Übersetzung - CAT 5.7.7 Aktueller Stand und Perspektiven 5.7.8 Literaturhinweise 6 Evaluation von sprachverstehenden und -generierenden Systemen 6.1. Einführung 6.1.1 Warum wird evaluiert? 6.1.2 Wann und wie wird evaluiert? 6.1.3 Was wird evaluiert? 6.2 Evaluationskriterien für sprachverarbeitende Systeme 6.2.1 Spracherkennungssysteme 6.2.2 Evaluation von Dialogsystemen 6.2.3 Informationssuchsysteme 6.2.4 Sprachsynthesesysteme 6.2.5 Maschinelle Übersetzung 6.2.6 Fazit 6.2.7 Literaturhinweise Literaturverzeichnis Index Die Autorinnen und Autoren