Das Internet in seiner Gesamtheit enthält gegenwärtig fast das gesamte
gesammelte Wissen der Menschheit. Sicherlich sind nicht alle Bereiche frei
zugänglich und nur ein Bruchteil aller, jemals in Buchform veröffentlichten
Werke, ist mittlerweile digital verfügbar. Dennoch lassen sich zu jedem
Wissensgebiet Informationen finden. Wäre es möglich, diese Informationen
frei zu rekonfigurieren und strukturiert abzufragen, könnte man die Möglichkeiten
nach “Dingen” im Internet zu suchen wesentlich verbessern.
Die Nutzungsmöglichkeiten darartiger ’Informationsschnittstellen’ wären mit
hoher Sicherheit sehr groß und in eine Unzahl von Anwendungsgebieten übertragbar.
Dabei stellt sich die Frage nach dem Aufbau der in diesen Wissensquellen enthaltenen
Dokumenten: Das World Wide Web besteht im Allgemeinen aus Dokumenten, die in HTML
erstellt wurden. Doch ist zu berücksichtigen, dass in den letzten Jahren eine starke Tendenz
dahingehend zu verzeichnen war, dass die Entwickler von Webapplikationen immer
häufiger Skriptsprachen verwenden, die dynamisch HTML erzeugen. Welchen Einfluss
haben folglich dynamische Skriptsprachen und wie sehr ist HTML zur semantischen
Informationsextraktion geeignet?
HTML ist eine Auszeichnungssprache zur Strukturierung von Medieninhalten.
Sie besteht aus einer Menge von Auszeichnungssymbolen, deren
Zweck es ist, Informationen für die spätere Darstellung zu strukturieren
und enthält nur wenige Elemente, die es erleichtern, Aussagen über die
Bedeutung ihres Inhalts zu treffen. Ein Beispiel für Metainformationen aus
dem deutschsprachigen PHP-Handbuch zeigt nur sehr vage, worum es in
dem Dokument eigentlich geht:
NAME="GENERATOR"
CONTENT="Modular DocBook HTML Stylesheet Version 1.7">
REL="HOME"
TITLE="PHP Handbuch"
HREF="index.html">
REL="UP"
TITLE="FAQ: Frequently Asked Questions"
Die Informationsstrukturierung in HTML-Dokumenten ist layout-orientiert
und dafür gedacht, durch HMTL-Browser (zum Beispiel Internet Explorer,
Opera oder Mozilla Firefox) verarbeitet und dargestellt zu werden. Die Sprache
wurde für den menschlichen Gebrauch geschaffen. Menschen können
problemlos Webseiten lesen und verstehen, aber die inhärente Bedeutung,
der in Webseiten enthaltenen Information, kann – zumindest durch automatisierte
Verfahren – nur schwer interpretiert werden. HTML-Dokumente lassen
sich somit nur unter dem Aspekt der Darstellung als strukturiert bezeichnen.
Die in ihnen enthaltene Information ist jedoch unstrukturiert.
Das nachfolgende Codefragment zeigt beispielhaft einen Ausschnitt aus
einer typischen Webseite:
Tante Emmas Fotoshop
Willkommen auf der Seite von Tante Emmas Fotoshop.
Sind Sie auf der Suche nach Kameras, Linsen oder Kamerazubehör?
Dann ist ihre Suche nun beendet. Wir führen alle Produkte,
die ihr Herz begeht.
Sie können selbstverständlich auch vor Ort
unser reichhaltiges Produktsortiment testen:
Unsere Adresse:
Tante Emmas Fotoladen
Universitätstrasse 35
93053 Regensburg
Öffnungszeiten:
Mo 11 - 19 Uhr
Di 11 - 19 Uhr
Mi 15 - 19 Uhr
Do 11 - 19 Uhr
Fr 11 - 14 Uhr
Aufgrund von Umbauarbeiten ändern sich jedoch unsere
Öffnungszeiten regelmäßig, da der Zugang zu unseren Räumlichkeiten
nicht mehr möglich ist. Geplante Umbaumaßnahmen finden sich
auf den Internetseiten des städtischen Bauamts...
Für Menschen stellt es kein Problem dar, die Öffnungszeiten im obigen Beispiel
herauszufinden. Sie verstehen die Verbindung zwischen den Schlüsselbegriffen
„Öffnungszeit“ und „Umbaumaßnahme“, was jedoch Maschinen
große Probleme bereitet. Menschen wissen auch, dass bei einem Tante-
Emma-Laden das Sortiment eingeschränkt ist und Linsen im Kontext von
Kameras und Kamerazubehör keine Lebensmittel sind.
Gängige Softwareverfahren sind durch Satz- und Wortsegmentierung, Stoppwortentfernung,
Grundformreduktion, Kompositazerlegung und letztlich der Erstellung eines
Index über gefundene Terme zwar in der Lage, einzelne Schlüsselwörter
aus Texten zu extrahieren, in diesem Zusammenhang wird aber nicht die
Bedeutung der Zusammenhänge in HTML-Texten berücksichtigt.
Das fundamentale Problem ist eng verbunden mit der klassischen Problematik
zwischen Information und Wissen. Das Wissen, welches im heutigen
Web bereits hinterlegt ist, findet sich im Wesentlichen in einer großen
unstrukturierten Sammlung von Fakten. Obwohl diese Fakten in den letzten
Jahren durch die fortschreitende Entwicklung und den Einsatz von dynamischen
Skriptsprachen und auf relationalen Datenbanken basierenden
Applikationen immer besser aufbereitet werden („Information als Wissen
in Aktion“), fehlt die Verbindung zur Erschließung der Bedeutsamkeit dieser
Fakten, welcher bei semantischer Annotation von Fotografien durch
Informationsextraktion aus Hypertextdokumenten essentiell ist.
Die semantische Lücke tritt in Erscheinung!
Related posts:
- Wissensabfrage
- Semantische Desktopsuche mit Aduna AutoFocus
- Das Semantic Web
- 6 Werkzeuge zur (semantischen) Suche nach Bildern im Internet







