Smart Multimedia Information Retrieval

Wagenpfeil, Stefan

The area of MultiMedia Information Retrieval (MMIR) is very broad and of increasing importance. Professional products in the medical or creative area, consumer products and devices, and the area of Social Media contribute requirements and solutions to MMIR. The vastly increasing number of Multi- media objects and the increasing Level-Of-Detail of all these objects leads to some general challenges in the problem areas of Integration, Scalability, and Semantic, which are addressed by this thesis. A novel approach, implemen- tation, and experimentation is presented, which answers research questions corresponding to these problem areas. The area of Integration, in which features, object types, and analysis meth- ods have to be made interoperable and compatible, is addressed by the intro- duction of a Generic Multimedia Analysis Framework (GMAF), which em- ploys a plugin architecture to support feature extraction for various multime- dia object types and provides a foundation for feature fusion in the form of a MultiMedia Feature Graph (MMFG) and the corresponding algorithms. However, working with graphs is quite resource consuming and not efficient in terms of Scalability. Therefore, a new calculation model named Graph Code is defined to address this area. Graph Codes are 2d projections of MMFGs into matrix spaces, which allow efficient and effective calculations. Special metrics for the calculation of similarity and recommendations are introduced, and a distribution model for such calculations including GPU-hardware par- allelization is provided. The area of Semantic is addressed by a formal semantic annotation and the introduction of Phrase-Structure grammars for the construction of human- understandable explanations of MMIR processing steps and MMIR elements. This leads to explainable MMIR and provides a significant benefit for MMIR applications. This thesis is aligned with the problem solving approach of Nunamaker and outlines the current state of the art and related work as a foundation in the form of Observation research goals. A detailed Theory Building is de- fined and formally introduced, including the GMAF, MMFG, Graph Codes, and Explainability in correspondence to the research questions. The Imple- mentation chapter of this thesis gives details about the implementation of the model, which is mostly done in Java. But also Objective-C (for IOS), and C++/CUDA programming (for the parallel GPU processing on NVIDIA cards) is shown to verify the technical implementation. In the Evaluation section, qualitative, quantitative, and cognitive experiments are conducted to confirm the results of the implementation compared to the theoretical expec- tations. Thus, all Nunamaker phases (Observation, Theory Building, Imple- mentation, and Experiment ) are addressed. This approach guarantees a formal anchoring in existing research methodology and ensures, that the definitions and modeling of this thesis can be employed for further research. The results of this thesis show, that by introducing these three novel components (i.e., the GMAF, Graph Codes, and Explainability), significant improvements in the area of MMIR can be achieved. Furthermore, current MMIR is extended in a smart way to provide semantic, explainable, human- understandable, effective, efficient, interoperable, and integrated solutions. This new kind of MMIR can be called Smart Multimedia Information Re- trieval.

MultiMedia Information Retrieval (MMIR) ist ein sehr breites Gebiet von zunehmender Wichtigkeit. Professionelle Produkte aus dem medizinischen oder kreativen Bereich, Produkte oder Geräte für Endbenutzer, oder auch die gesamte Social Media Bewegung stellen Anforderungen an MMIR und fordern Lösungen. Die schnell wachsende Zahl an Multimedia Objekten und der zunehmende Detailgrad dieser Objekte führen zu einer Reihe allgemeiner Herausforderungen in den Bereichen Integration, Skalierung und Semantik, die im Rahmen dieser Arbeit adressiert werden. Hierfür wird in dieser Arbeit ein neuartiger Ansatz vorgestellt. Die zugehörigen Implementierungen, sowie belegende Experimente beantworten die Forschungsfragen zu den folgenden Problembereichen. Im Bereich Integration müssen Merkmale, Objekttypen und Analysemethoden interoperabel und kompatibel gestaltet werden. Hierfür wird ein allgemeines Rahmenwerk – das Generic Multimedia Analysis Framework (GMAF) – eingeführt, welches eine erweiterbare und flexible Architektur für die Merkmalsextraktion von verschiedenen Multimedia Objekttypen bietet und somit die Basis für die Integration dieser Merkmale in Form eines MultiMedia Feature Graphen (MMFG) und der zugehörigen Algorithmik bereitstellt. Die Arbeit mit Graphen ist jedoch sehr Ressourcen-intensiv und im Sinne der Skalierbarkeit nicht effizient. Daher wird zur Lösung der Herausforderungen in diesem Bereich ein neues Berechnungsmodell, sog. Graph Codes eingeführt. Graph Codes sind 2d Projektionen von MMFGs in einen Matrix-Raum, in dem effiziente und effektive Berechnungen durchgeführt werden können. Es werden spezielle Metriken zur Berechnung von Ähnlichkeiten oder Empfehlungen definiert, die auch im Rahmen von Verteilungsmodellen, z.B. parallelisiert auf GPU-Hardware, genutzt werden können. Für den Bereich Semantik wird eine formale semantische Annotation zusammen mit einer Phrasenstruktur Grammatik eingeführt, die es ermöglicht, natursprachliche, menschen- verständliche Erklärungen von MMIR Verarbeitungsschritten und MMIR Elementen zu erzeugen. Dies führt zu erklärbarem MMIR und stellt somit eine signifikante Verbesserung für jede Art MMIR Anwendung dar. These Arbeit baut auf dem Problemlösungsansatz von Nunamaker auf und fasst zunächst den aktuellen Stand der Wissenschaft und Technik in Form von Beobachtungs-Zielen zusammen und stellt somit eine solide Basis für die Modellierung der Theoriebildungs-Ziele dar. Hierbei werden das GMAF, MMFG, Graph Codes und Erklärbarkeit definiert und eingeführt, um die entsprechenden Forschungsfragen zu beantworten. Das Implementierungs-Kapitel dieser Arbeit zeigt Details der Umsetzung des Modells, meist mittels der Programmiersprache Java. Darüber hinaus wird auch Objective-C (für IOS), C++/CUDA für die parallele Bearbeitung auf NVIDIA GPUs verwendet, um die technische Umsetzung zu belegen. Um die vorgestellte Lösung zu evaluieren, werden qualitative, quantitative und kognitive Experimente durchgeführt. Somit sind alle Nunamaker-Phasen (Beobachtung, Theoriebildung, Implementierung und Experiment) bearbeitet und garantieren eine formale Verankerung dieser Arbeit in bewährten Methodiken. Dies stellt auch sicher, dass die hier vorgestellten Lösungen künftig für wissenschaftliche Zwecke weiterverwendet werden können. Die Ergebnisse zeigen, dass durch die Einführung der drei neuartigen Komponenten GMAF, Graph Codes und Erklärbarkeit eine signifikante Verbesserung von MMIR erreicht werden kann. Darüber hinaus kann aktuelles MMIR auf „smarte“ Art und Weise erweitert werden, um erklärbare, menschen-verständliche, effektive, effiziente, interoperable und integrierte Lösungen zu ermöglichen. Diese neue Art MMIR kann Smart Multimedia Information Retrieval genannt werden.

Vorschau

Zitieren

Zitierform:

Wagenpfeil, Stefan: Smart Multimedia Information Retrieval. Hagen 2022. FernUniversität in Hagen.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export

powered by MyCoRe