Automatisierte Multimediale Wissensextraktion aus Publikationen am Beispiel von Strukturgleichungsmodellen

Das Ziel des Projektes war die Entwicklung einer Plattform, welche eine effektive Extraktion, Exploration, und Aggregation von Wissen aus wissenschaftlichen Publikationen ermöglicht. Im Fokus der geförderten Aktivität stand in einem ersten Schritt die Wissensextraktion. Unter Verfolgung eines multimodalen Ansatzes sollten die in den Publikationen enthaltenen Informationen (sowohl in Text- als auch in Bild-Form) extrahiert werden. Mittels überwachter maschinellen Lernverfahren wurden dabei spezifische Klassifikatoren trainiert, um die zeitintensive Aufgabe der Wissensextraktion weitestgehend zu automatisieren.

Ein zentraler Meilenstein war die Bereitstellung eines umfangreichen annotierten Datensatzes für Strukturgleichungsmodelle. Dieser Datensatz ist ein wichtiger Grundstein für die Anwendung überwachter multimodaler Extraktionsverfahren. Weiterhin wurde eine Generatorsoftware für sogenannte synthetische Datensätze in diesem Kontext erstellt.

Im späteren Verlauf des Projekts lag der Fokus vor allem auf der Erweiterung der Anwendungsdomänen. Hierbei wurde mit der Erstellung eines weiteren Datensatzes von strukturellen Formeln in der Chemie begonnen. Aufbauend auf existierenden, textuellen Repräsentationen dieser Moleküle (SMILES, InChI), kann hier semi-automatisiert ein sehr großer Datensatz von Bilddaten und den zugehörigen Labels zusammengetragen werden. So konnten wir dien Automatisierungsgrad bei der Annotation im Anwendungsfall der chemischen Strukturformeln auf quasi Null senken.

Der zentrale Impact der Aktivität war es, die Zusammenarbeit zwischen den beiden Forschungsgruppen Mädche und Stiefelhagen zu initiieren. Im Rahmen der Zusammenarbeit wurde erfolgreich demonstriert, dass es möglich ist die Extraktion von hochwertigen Metadaten aus Bildern in Publikationen zu automatisieren.