Thai Language Segmentation by Automatic Ranking Trie with Misspelling Correction

Tapsai, Chalermpol

The objective of this research is to present a high-performance word segmentation algorithm named "Thai Language Segmentation by Automatic Ranking Trie with Misspelling Correction (TLS-ART-MC)," which will be contributed to advanced Natural Language Processing for practical use. New techniques named "Automatic Ranking Trie (ART)" and "Completed Soundex" are proposed to improve the segmentation efficiency and solve the crucial problems of Thai word segmentation that occur with previous algorithms. Automatic Ranking Trie is a new algorithm that reorganized the structure of Traditional Trie to reduce the number of vocabularies and comparison tasks used in the segmentation process. By using the actual Word Usage Frequency (WUF) analyzed from a text corpus cover 14 types of contents, words with higher frequency are placed at the beginning of Trie that can be found and segmented more quickly. Results from each segmentation will also be used to update the frequency of words. Hence, the structure of Trie has improved relevant to the actual usage of each user automatically. Completed Soundex is another new techniques related to the coding system of spelling-sound applied to overcome the problem of misspelling words, and multiple spelling forms of specific names and foreign vocabularies. With a new code structure and encoding rules, Completed Soundex encoded all components of a word to represent more precise pronunciation sound, which solved the errors that occurred with misspelling correction by Traditional Soundex. For the compound word problem, the segmentation process of TLS-ART-MC divided into two steps. In the first step, a text message will be segmented into base-words by parsing with the Automatic Ranking Trie. Then, in the second step, all base-words are analyzed and formed to be compound words based on rules created from Thai grammar. The performance evaluation was performed comparing with the state of the art algorithms. For the first time, the TLS-ART-MC algorithm able to fix the problem of compound words, as well as misspelling, and multiple spelling forms of specific names and foreign words spelling, with a high level of accuracy and efficiency. The accuracy, precision, and recall values are hereby at the same level as comparable, state of the art algorithms.

Das Ziel dieser Forschung ist es, einen leistungsstarken Wortsegmentierungsalgorithmus mit dem Namen "Thailändische Sprachsegmentierung durch Rank Trie mit Rechtschreibfehlerkorrektur (TLS-ART-MC)" vorzustellen, der für die praktische Anwendung zur fortgeschrittenen Verarbeitung natürlicher Sprachen beitragen wird. Es werden die neuen Techniken "Automatic Ranking Trie (ART)" und "CompletedSoundex" vorgeschlagen, um die Segmentierungseffizienz zu verbessern und die entscheidenden Probleme der thailändischen Wortsegmentierung zu lösen, die bei den vorherigen Algorithmen auftreten. Automatic Ranking Trie ist ein neuer Algorithmus, der die Struktur von Traditional Trie neu organisiert hat, um die Anzahl der im Segmentierungsprozess verwendeten Vokabeln und Vergleichsaufgaben zu reduzieren. Durch die Verwendung der tatsächlichen Wortgebrauchshäufigkeit (WUF), die aus einem Textkorpus analysiert wurde, werden 14 Arten von Inhalten an den Anfang von Trie gestellt, die schneller gefunden und segmentiert werden können. Die Ergebnisse jeder Segmentierung werden auch verwendet, um die Häufigkeit von Wörtern zu aktualisieren. Daher verbessert sich die Struktur von Trie in Bezug auf die tatsächliche Nutzung für jeden Benutzer automatisch von selbst. CompletedSoundex ist eine weitere neue Technik im Zusammenhang mit dem Kodierungssystem für Rechtschreibfehler, das angewendet wird, um das Problem von falsch geschriebenen Wörtern und mehrfachen Rechtschreibformen bestimmter Namen und Fremdvokabeln zu überwinden. Mit einer neuen Codestruktur und Kodierungsregeln hat CompletedSoundex alle Bestandteile eines Wortes kodiert, um einen präziseren Aussprache-Sound darzustellen, wodurch die Fehler behoben wurden, die bei der Rechtschreibfehlerkorrektur von Traditional Soundex auftraten. Für das zusammengesetzte Wortproblem wurde der Segmentierungsprozess von TLS-ART-MC in zwei Schritte unterteilt. Im ersten Schritt wird eine Textnachricht durch Parsen mit dem Automatic Ranking Trie in Basiswörter unterteilt. Dann werden im zweiten Schritt alle Basiswörter analysiert und zu zusammengesetzten Wörtern auf der Grundlage von Regeln gebildet, die aus der thailändischen Grammatik erstellt wurden. Die Leistungsbewertung wurde im Vergleich zu den neuesten Algorithmen durchgeführt. Zum ersten Mal ist der TLS-ART-MC-Algorithmus in der Lage, das Problem von zusammengesetzten Wörtern sowie Rechtschreibfehlern und mehrfachen Schreibweisen bestimmter Namen und Fremdwörter mit einem hohen Maß an Genauigkeit und Effizienz zu beheben. Die Genauigkeits-, Präzisions- und Recallwerte entsprechen dabei denen der neuesten, vergleichbaren Algorithmen.

Vorschau

Zitieren

Zitierform:

Tapsai, Chalermpol: Thai Language Segmentation by Automatic Ranking Trie with Misspelling Correction. Hagen 2020. FernUniversität in Hagen.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Grafik öffnen

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export

powered by MyCoRe