Bootstrapping Explainable Text Categorization in Emergent Knowledge-Domains

Eljasik-Swoboda, Tobias

Text Categorization (TC) is the act of assigning text documents to predefined categories. For instance, to distinguish between pro- and contra arguments for a specific topic. The automation of TC can either be done by using fixed rules or by machine learning. The difference between machine learning and programming is, that in machine learning, the machine creates its own program based on sample data. In the context of TC, these are example assignments of documents to categories called Target Function. Machine Learning based Text Categorization (MLTC) can be used for many different applications. One such application is Argument Mining (AM), the finding of pro- and contra arguments in large text corpora. Other examples include the assignment of news articles to specific categories, spam filtering, detection of offensive language in internet communications or the detection of user intent when interacting with a voice assistant like Amazon’s Alexa or Apple’s Siri. MLTC is already widely applied. However, whenever a new application is developed that requires MLTC features, four fundamental problem fields arise. Firstly, the technical integration effort is high. This means that multiple prerequisites must be available, and the programmer needs to be familiar with details about the MLTC process. Secondly, the high effort required for the collection of examples for the MLTC process to learn from as well as providing manually crafted resources such as lists of relevant words for specific topics. Thirdly, according to the GDRP, MLTC systems operated in the EU that impact European citizens must be explainable. Generating explanations for the behavior of machine learning is no trivial task and an area of active research. A fourth problem field is semantic shift and the emergence of new knowledge. Previous resources and examples can become obsolete with future developments. To overcome these problem fields, this dissertation combines two research frameworks, the Design-oriented Information Systems Research methodology (DIRS) and the Research Framework for Information Systems Research (RFISR) to create insight into the problem fields and create artifacts that can overcome these problems. After assessing the state of the art in relevant areas of science and technology, a formal problem model is constructed. Capitalizing on recent trends in information technology, such as Big Data and Cloud Computing, a microservice ori-ented application to quickly provide explainable MLTC is designed and prototypically implemented. This prototype can even function without a target function by using word embeddings, and other recently emerged technologies. The created system is evaluated in five different applications that apply MLTC. Even though the evaluation shows slightly inferior effectiveness to technologies that are fine tuned for their specific problems, the created system can be applied to these different problems in two different natural languages in a matter of minutes. Different to the existing most effective applications, the created system also generates explanations for its decisions. A qualitative evaluation and subsequent survey have shown that the explanations are of a high quality and understood by a majority of survey participants. The developed prototype also possesses the ability to create new categories to organize documents when new knowledge emerges.

Text Categorization (TC) ist der Akt des zuordnen von Textdokumenten beliebiger Länge zu vorab definierten Kategorien. Die Automatisierung von TC kann entweder mit fix programmierten Regeln oder durch den Einsatz von maschinellen Lernverfahren (machine learning) geschehen. Der Unterschied zwischen maschinellen Lernverfahren und der Programmierung ist, dass beim ersten die Maschine ihr eigenes Programm basierend auf Beispieldaten erzeugt. Im Kontext von TC sind dies Beispielzuordnungen von Dokumenten zu Kategorien die in ihrer Summe auch als Zielfunktion (target function) bezeichnet werden. Machine Learning basierte Text Categorization (MLTC) kann für viele unterschiedliche Anwendungen eingesetzt werden. Eine solche Anwendung ist Argument Mining (AM), welche als das Finden von Pro- und Kontraargumenten in großen Dokumentensammlungen definiert ist. Andere Beispielanwendungen sind das zuordnen von Nachrichtenartikeln zu Kategorien, Spam Filter, die Feststellung von beleidigender Sprache auf Internetseiten oder die Detektion von Benutzerwünschen in Sprachassistenten wie Amazons Alexa oder Apples Siri. MLTC wird bereits großflächig eingesetzt. Trotzdem treten bei jeder Implementierung einer MLTC verwendenden Applikation vier fundamentale Problemfelder auf. (1) Der technische Integrationsaufwand ist hoch. Das heißt, dass mehrere Voraussetzungen erfüllt sein müssen und Programmierer*innen sich mit dem MLTC Prozess auskennen müssen. (2) Die Sammlung notwendiger Beispielordnungen erzeugt einen großen Aufwand. Das gleiche gilt für die Erstellung weiterer Ressourcen wie Listen relevanter Wörter für bestimmte Themengebiete. (3) Laut DSGVO müssen in der EU betriebene MLTC Systeme deren Ergebnisse EU-Bürger betreffen erklärbar sein. Die Generierung von Erklärungen für maschinelle Lernverfahren ist eine nicht-triviale Aufgabe und ein derzeit aktives Forschungsfeld der Informatik. (4) Semantische Verschiebung und das Auftreten neuen Wissens kann vorherige Beispielzuordnungen und Ressourcen obsolet machen. Um diese Problemfelder zu adressieren kombiniert diese Dissertation zwei Forschungsmethoden miteinander: Die Design-oriented Information Systems Research methodology (DISR) und das Research Framework for Information Systems Research (RFISR). Durch die kombinierte Methode werden Einblicke in die Problemfelder erzeugt und Artefakte generiert, welche die Probleme prototypisch lösen. Nach einer Analyse des Stands der Wissenschaft und Technik in problemrelevanten Feldern wird ein Problemmodell konstruiert. Aufbauend auf den letzten Trends in der Informationstechnologie wie Big Data oder Cloud Computing wird eine Microservice-orientierte Applikation zur schnellen Bereitstellung von erklärbaren MLTC entworfen und prototypisch implementiert. Durch die Verwendung von word embeddings kann der Prototyp komplett ohne Zielfunktion agieren. Das erzeugte MLTC System wird in fünf verschiedenen Anwendungen getestet. Obwohl die Tests zeigen, dass das entwickelte MLTC System eine etwas geringere Präzision als individuell für die jeweiligen Anwendung entwickelte Systeme hat, kann der entwickelte Prototyp in zwei unterschiedlichen natürlichen Sprachen in verschiedenen Problemen nach Minuten statt Tagen der Entwicklung eingesetzt werden. Anders als die meisten existierenden Systeme generiert der entwickelte Prototyp Erklärungen für seine Kategorisierungsentscheidungen. Eine qualitative Evaluation gefolgt von einer Umfrage haben gezeigt, dass die erzeugten Erklärungen von hoher Qualität sind und von der Mehrheit der Umfrageteilnehmer verstanden wird. Der entwickelte Prototyp besitzt außerdem die Fähigkeit neue Dokumentenkategorien zu erzeugen, wenn neues Wissen entsteht.

Vorschau

Zitieren

Zitierform:

Eljasik-Swoboda, Tobias: Bootstrapping Explainable Text Categorization in Emergent Knowledge-Domains. Hagen 2021. FernUniversität in Hagen.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export

powered by MyCoRe