A Taxonomy Management System Supporting Crowd-based Taxonomy Generation, Evolution, and Management

Vu, Binh

Information overload continues to be a challenge. With the growth of the internet and the birth of social media, the volume of information increases exponentially. By dividing the material into many small subsets, data, information, and content classification based on a taxonomy makes information exploration and retrieval faster and more accurate. Instead of having to know the exact keywords that describe the knowledge resource, users can browse and search for them by selecting the descriptive categories that the resource most likely belong to. Furthermore, a taxonomy supports consistency in classification and navigation in complex websites. Nevertheless, developing taxonomies is not an easy task. It requires authors to have a certain amount of knowledge in the domain. The workload will always increase as any new taxonomy needs to be frequently updated to remain relevant and useful. The collaboration process, where many people work together in the development, evolution, and management of taxonomy, will potentially generate problems as working in a group requires soft skills and patience. While growing, a taxonomy needs more computing time, memory, and persistent storage space. Without an effective and efficient method, suitable representation models, and a good user interface, a taxonomy cannot be easily modified, quickly processed, and well represented. To combat these problems, many approaches were introduced in several scientific disciplines. A common approach is to use social tagging, document keywords, or words that are used frequently in documents, to form a term corpus. Then applying some types of hierarchical clustering algorithms or machine learning to organize this corpus into hierarchical subgroups. While these methods provide many advantages and good results in building a taxonomy, they also have their disadvantages and prerequisites in order to work properly. In this dissertation, a new method using collaboration, crowdsourcing, and crowdvoting has been proposed. With support of crowdsourcing, not only experts and knowledge workers but also normal users can participate in the development, evolution, and management of taxonomy. This helps reducing the maintenance cost of taxonomy. Furthermore, a version control component has been developed to support users in these processes. The user-centered design with four steps has been applied to design a conceptual system. From user requirements and use case diagrams, five components have been introduced. Their purposes are to enables the crowd to create, edit, upgrade, and vote for taxonomies in an easy-to-use, effective, and efficient manner. A prototype has been developed as an open-source web application based on client-server architecture and integrated into the Content and Knowledge Management Ecosystem Portal. Finally, two evaluations have been organized in the context of EU-funded R&D projects. The first evaluation asked experts and the crowd to do similar tasks. The results then were compared to validate if the crowd has really done a similar good or even better job in taxonomy development than the experts. The second evaluation asked two groups of participants to complete an assignment and answer a questionnaire. Both evaluations produced a good result, which, on one hand, demonstrated the feasibility of the approach and the usability of the initial prototype, and on the other hand, validated the quality and effectiveness of the chosen method. Furthermore, the implemented prototype has been productively applied in different application domains with different requirements in the context of several scientific and technical projects, which have been funded by the European Commission. This proofed the generality and adaptability of the developed system prototype to new application and knowledge domains.

Informationsüberflutung bleibt eine Herausforderung. Mit dem Wachstum des Internets und der Geburt der sozialen Medien steigt das Informationsvolumen exponentiell an. Durch die Aufteilung des Materials in viele kleine Untergruppen wird durch die Klassifizierung anhand einer Taxonomie sowie das Durchsuchen und Abrufen von Daten schneller und genauer. Anstatt die genauen Schlüsselwörter zu kennen, die die Wissensressource beschreiben, können Benutzer sie explorativ durchstöbern und gezielt suchen, indem sie die Kategorien auswählen, zu denen die Ressource am wahrscheinlichsten gehört. Darüber hinaus unterstützt eine Taxonomie die Konsistenz bei der Klassifizierung von Inhalten und Navigation in komplexen Websites. Dennoch ist die Entwicklung von Taxonomien keine leichte Aufgabe. Autoren müssen über ein bestimmtes Wissen in der Domäne verfügen. Die Arbeitsbelastung wird immer größer, da jede neue Taxonomie häufig aktualisiert werden muss, um relevant und nützlich zu bleiben. Der Kollaborationsprozess, in dem viele Menschen bei der Entwicklung, Weiterentwicklung und Verwaltung der Taxonomie zusammenarbeiten, kann Probleme verursachen, da die Arbeit in einer Gruppe soziale Fähigkeiten und Geduld erfordert. Während eine Taxonomie wächst, benötigt sie mehr Rechenressourcen, wie z.B. Rechenzeit und Speicherplatz. Ohne einen effektiven und effizienten Repräsentations- und Verwaltungsalgorithmus, geeignete Verarbeitungsmethoden und eine gute Benutzungsoberfläche kann eine Taxonomie nicht einfach geändert, schnell verarbeitet und gut dargestellt werden. Um diese Probleme zu bekämpfen, wurden in mehreren wissenschaftlichen Disziplinen viele Ansätze eingeführt. Ein gängiger Ansatz ist die Verwendung von Social Tagging, Dokumentschlagwörter oder Wörtern, die in Dokumenten häufig verwendet werden, um einen Korpus von Termen zu bilden. Anschließend wenden diese Ansätze einige Arten hierarchischer Clustering-Algorithmen oder maschinellem Lernen an, um einen Korpus in hierarchische Untergruppen zu organisieren. Während diese Methoden viele Vorteile und gute Ergebnisse beim Aufbau einer Taxonomie bieten, haben sie auch ihre Nachteile und erfordern bestimmte Voraussetzungen, um richtig zu funktionieren. In dieser Dissertation wurde eine neue Methode vorgeschlagen, die Kollaboration, Crowdsourcing, und Crowdvoting verwendet. Mit Unterstützung von Crowdsourcing können nicht nur Experten und Wissensarbeiter, sondern auch normale Benutzer an der Entwicklung, Evolution, und Verwaltung der Taxonomie teilnehmen. Dies hilft, die Wartungskosten der Taxonomie zu senken. Darüber hinaus wurde eine Versionskontrollkomponente entwickelt, um Benutzer bei diesen Prozessen zu unterstützen. Das User-Centered Design mit vier Schritten wurde angewendet, um ein konzeptionelles System zu entwerfen. Aus den Benutzeranforderungen und Anwendungsfalldiagrammen wurden fünf Komponenten eingeführt. Sie sollen die Crowd ermöglichen, Taxonomien auf benutzerfreundliche, effektive und effiziente Weise zu erstellen, zu bearbeiten, zu erweitern, und für sie zu stimmen. Ein Prototyp wurde als Open-Source-Webanwendung entwickelt, die auf der Client-Server-Architektur basiert und in das Content and Knowledge Management-Ökosystemportal integriert. Schließlich wurden zwei Evaluierungen im Rahmen von EU-finanzierten FuE-Projekten organisiert. Bei der ersten Evaluierung wurden Experten und die Crowd gebeten, ähnliche Aufgaben zu erledigen Die Ergebnisse wurden dann verglichen, um zu bestätigen, ob die Crowd in der Taxonomieentwicklung wirklich ähnlich gute oder sogar bessere Arbeit geleistet hat als die Experten. Bei der zweiten Evaluierung wurden zwei Teilnehmergruppen gebeten, eine Aufgabe auszufüllen und einen Fragebogen zu beantworten.

Vorschau

Zitieren

Zitierform:

Vu, Binh: A Taxonomy Management System Supporting Crowd-based Taxonomy Generation, Evolution, and Management. Hagen 2020. FernUniversität in Hagen.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export

powered by MyCoRe