Supporting Information Retrieval of Emerging Knowledge and Argumentation

Nawroth, Christian

In research-oriented domains, e.g., the medical domain, new or emerging knowledge is permanently created through research and scientific discourse. This fact is, e.g., reflected by a permanent increase in scientific publications over the years. This overall increase and permanent creation of new knowledge make it hard for domain experts to find the right and relevant recent knowledge for a given task. In the medical domain, this could be the use of emerging knowledge in medical argumentation use cases, e.g., for or against a particular therapy. Supporting medical argumentation through textual evidence, in general, is the aim of the DFG-funded project RecomRatio, to which this thesis relates to. Hence, this work intends to make emerging knowledge in large medical document corpora available for evidence-based medical argumentation use cases. Therefore, it utilizes methods from the computer science subdomains of Information Retrieval, Natural Language Processing and Named Entity Recognition, Machine Learning, and Argumentation Mining to support evidence-based medical argumentation. The thesis introduces the motivation and challenges as addressed above, the research method, the research goal, research questions and objectives, and an outline of the thesis. The second chapter covers state-of-the-art research of the relevant fields in science and technology, i.e., Informational Behaviour and Information Retrieval, Vocabularies and Corpora, Machine Learning, Evaluation Methodologies, Natural Language Processing, Emerging Entities, and Argumentation Mining. Comparing state-of-the-art in these fields and the research objectives, the remaining research challenges are identified. These will be addressed in the following chapters. The third chapter conceptual design starts with different quantitative and qualitative studies that reveal the relevance of emerging knowledge in medical Information Retrieval and medical argumentation. Based on these insights, an innovative system is designed that integrates and adapts state-of-the-art approaches from Information Retrieval, Natural Language Processing, Machine Learning, and Argumentation Mining. The system’s core contribution is the design of a hybrid approach combining Natural Language Processing with Machine Learning on corpus-related features to extract emerging knowledge. In the system design, three real-world applications are conceptually designed that will be used for evaluation. In the following chapter, the conceptual system design is implemented prototypically using different technologies, i.e., Apache Solr (Java-based) and Python with the frameworks spaCy and Scispacy, sckikit-learn, and Keras/TensorFlow. The following evaluation covers the technical evaluation of the emerging knowledge extraction using a specifically designed evaluation strategy. Furthermore, a user-based evaluation of the system’s usefulness and usability is conducted. Also, an expert interview on the argumentation support’s outcome utilizing emerging knowledge is conducted. Overall, the evaluation concludes that the prototypical system is technically capable of extracting and utilizing emerging knowledge from medical document corpora using the hybrid approach of Natural Language Processing and Machine Learning on corpus related features. The user evaluation and the expert interview reveal that the system also fulfills users’ requirements regarding the support of emerging knowledge for medical Information Retrieval and argumentation. Hence, the conceptual design and the prototype could be used as an initial step for a real-world system. The thesis finishes with a summary of the contributions and an outline of future work.

In forschungsorientierten Bereichen, wie zum Beispiel der Medizin, wird permanent neues oder emergentes Wissen durch wissenschaftliche Forschung und wissenschaftlichen Diskurs erzeugt. Das spiegelt sich zum Beispiel darin wider, dass die Anzahl wissenschaftlicher Publikationen über die Jahre massiv anwächst. Dieser Anstieg von wissenschaftlichen Publikationen und die permanente Erzeugung von neuem Wissen bringt für Domänenexperten die Herausforderung mit sich, das richtige und relevante Wissen für eine bestimmte Aufgabe zu finden und anzuwenden. Ein Beispiel aus dem medizinischen Bereich ist die Verwendung von emergentem Wissen zur Unterstützung medizinischer Argumentationen, zum Beispiel für oder gegen eine bestimmte Therapie. Die Unterstützung von medizinischer Argumentation im Allgemeinen durch textbasierte Evidenz ist das Ziel des DFG geförderten Projektes RecomRatio, an welches diese Arbeit angelehnt ist. Somit ist das Hauptziel dieser Arbeit, emergentes Wissen – repräsentiert durch emergente Eigennamen (emerging Named Entities) aus großen medizinischen Literaturkorpora zu extrahieren und es zur Unterstützung von Anwendungsfällen im Rahmen medizinischer Argumentation verfügbar zu machen. Dazu werden in dieser Arbeit Methoden aus verschiedenen Bereichen der Informatik angewendet. Dabei handelt es sich in erster Linie um die Bereiche Information Retrieval, Natural Language Processing, Named Entity Recognition, maschinelles Lernen und Argumentation Mining. Dazu wird im ersten Kapitel zunächst auf die zuvor geschilderten Herausforderungen hingeführt und daraus die Motivation der Arbeit abgeleitet. Weiterhin wird die Forschungsmethodik, das übergeordnete Forschungsziel, die Forschungsfragen und die damit verknüpften Forschungsteilziele herausgearbeitet. Basierend darauf wird die Struktur der weiteren Arbeit abgeleitet. Das zweite Kapitel umfasst einen Überblick über den aktuellen Stand von Wissenschaft und Technik in den Bereichen Informational Behavior, Information Retrieval, Vokabulare und Textkorpora, maschinelles Lernen, Evaluationsmethoden, Natural Language Processing, Emerging Entities und Argumentation Mining. Dieser Analyse des Standes von Wissenschaft und Technik werden die Forschungsteilziele gegenübergestellt und die verbleibenden Herausforderungen der Arbeit identifiziert, die in den folgenden Kapiteln adressiert werden. Das dritte Kapitel umfasst das konzeptuelle Design einer Lösung. Es beginnt mit vier verschiedenen quantitativen und qualitativen Vorstudien. Im Rahmen dieser Vorstudien wird die Relevanz von emergentem Wissen für medizinisches Information Retrieval und medizinische Argumentation gezeigt. Auf Basis dieser Vorstudien wird ein innovatives Systemdesign hergeleitet, welches aktuelle Erkenntnisse aus Wissenschaft und Technik adaptiert und in einem Gesamtsystem integriert. Dies umfasst Ansätze und Technologien aus den Bereichen Information Retrieval, Natural Language Processing, Machine Learning, und Argumentation Mining. Ein Hauptbeitrag des Systems ist das Design eines hybriden Ansatzes in welchem Natural Language Processing und Machine Learning auf Basis sprachlicher und zeitlicher Eigenschaften genutzt werden, um damit emergentes Wissen aus medizinischen Literatur Corpora zu extrahieren und dieses für nachgelagerte Information Retrieval und Argument Retrieval Verfahren nutzbar zu machen. Im Rahmen des Systemdesigns werden weiterhin verschiedene Anwendungsfälle konzeptuell entworfen, die im Weiteren für die prototypische Implementierung und die Evaluation verwendet werden. Im folgenden Kapitel wird dieses Design prototypisch implementiert. Dabei werden verschiedene Technologien, wie zum Beispiel Apache Solr (Java-basiert), Python mit den Frameworks spaCy und Scispacy, sckikit-learn, sowie Keras/TensorFlow eingesetzt. Die sich anschließende Evaluation umfasst dabei zunächst die technische Evaluation der Extraktion von emergentem Wissen / emergenten Eigennamen mithilfe einer eigens entworfenen Evaluationsstrategie. Neben der technischen Evaluation wird eine Nutzerstudie zur Benutzungsfreundlichkeit und zur allgemeinen Nützlichkeit des Systems durchgeführt. Weiterhin wird ein Interview mit einem medizinischen Experten durchgeführt, um die Argumentationsunterstützung mithilfe von emergentem Wissen durch das entworfene und implementierte System zu evaluieren. Insgesamt führen diese verschiedenen Evaluationen zu der Erkenntnis, dass das entworfene und prototypische umgesetzte System technisch in der Lage ist, emergentes Wissen aus medizinischen Literaturkorpora zu extrahieren und dieses im Rahmen von Argumentationsunterstützung und Information Retrieval für medizinische Fachexperten nutzbar zu machen. Die Nutzerstudie und das Experteninterview zeigen weiterhin, dass auch die Anforderungen der Nutzer hinsichtlich Argumentationsunterstützung und Information Retrieval durch emergentes Wissen erfüllt werden. Insgesamt wird somit gezeigt, dass der Systementwurf und die prototypische Implementierung als Basis für ein entsprechendes Produktivsystem genutzt werden könnten. Die Arbeit schließt mit einer zusammenfassenden Darstellung und Bewertung der erreichten Forschungsteilziele, einer Zusammenfassung der Beiträge der Arbeit zum wissenschaftlichen Diskurs und einem Ausblick auf zukünftige Forschungsarbeiten, die sich an dieser Arbeit anschließen könnten.

Vorschau

Zitieren

Zitierform:

Nawroth, Christian: Supporting Information Retrieval of Emerging Knowledge and Argumentation. Hagen 2021. FernUniversität in Hagen.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export

powered by MyCoRe