Mit dem Abschluss der ersten Projektphase ist ein wichtiger Zwischenschritt erreicht. In dieser Phase ging es ausdrücklich noch nicht um die Fertigstellung oder Veröffentlichung eines obersorbischen Sprachmodells, sondern um die systematische Entwicklung und Überprüfung eines belastbaren Vorgehensmodells zur Entwicklung großer Sprachmodelle für Minderheitensprachen. Am Beispiel des Obersorbischen wurde untersucht, welche Schritte notwendig sind, um trotz sehr begrenzter Datenlage perspektivisch ein funktionierendes Sprachmodell entwickeln zu können.
Im Mittelpunkt der ersten Phase stand daher die Frage, ob und wie ein solcher Entwicklungsprozess grundsätzlich umsetzbar ist.
Dazu wurden vorhandene obersorbische Datenquellen gesichtet, technisch analysiert und hinsichtlich ihrer Eignung für maschinelles Lernen bewertet. Parallel dazu wurde geprüft, welche bestehenden Methoden aus der KI Forschung sich auf Minderheitensprachen übertragen lassen und an welchen Stellen Anpassungen erforderlich sind. Ziel war es nicht, ein fertiges Modell zu trainieren, sondern einen nachvollziehbaren und wiederholbaren Weg zu definieren, der eine spätere Modellentwicklung überhaupt erst ermöglicht.
Im Rahmen dieser Arbeiten wurden unterschiedliche Datentypen betrachtet, ihre Qualität überprüft und typische Probleme identifiziert, die bei kleinen Sprachen besonders stark auftreten. Dazu zählen unter anderem die geringe Textmenge, eine starke thematische Verzerrung der vorhandenen Inhalte sowie fehlerhafte oder vermischte Sprachdaten in öffentlich zugänglichen Quellen. Durch gezielte Tests und Experimente konnte gezeigt werden, dass diese Herausforderungen zwar erheblich sind, aber mit geeigneten methodischen Entscheidungen adressiert werden können. Insbesondere die Kombination aus sorgfältiger Datenbereinigung, technischer Vorstrukturierung und der Nutzung bestehender mehrsprachiger Basismodelle erwies sich als tragfähiger Ansatz.
Ein zentrales Ergebnis der ersten Phase ist somit kein fertiges Sprachmodell, sondern ein validiertes Vorgehensmodell. Dieses beschreibt, welche Schritte in welcher Reihenfolge notwendig sind, welche technischen Entscheidungen sinnvoll sind und wo besondere Sorgfalt erforderlich ist. Damit wurde ein verlässlicher Rahmen geschaffen, auf dessen Grundlage ein obersorbisches Sprachmodell künftig gezielt entwickelt werden kann. Gleichzeitig ist dieses Vorgehensmodell auch auf andere Minderheitensprachen übertragbar, die vor ähnlichen strukturellen Herausforderungen stehen.
Der nächste Projektschritt baut bewusst auf diesen Ergebnissen auf. In der folgenden Phase steht nicht mehr die methodische Erprobung im Vordergrund, sondern das strukturierte Einbinden von Muttersprachlerinnen und Muttersprachlern. Sie werden eine zentrale Rolle beim Anlernen, Überprüfen und Korrigieren des Modells übernehmen. Erst durch diese enge Zusammenarbeit kann sichergestellt werden, dass sprachliche Feinheiten, kulturelle Kontexte und reale Sprachpraxis korrekt abgebildet werden. Auf dieser Grundlage soll das Modell schrittweise finalisiert, stabilisiert und anschließend veröffentlicht werden.
Die abgeschlossene erste Phase markiert damit keinen Endpunkt, sondern die Voraussetzung für die eigentliche Modellarbeit. Sie zeigt, dass ein fundierter, verantwortungsvoller Weg zur Entwicklung eines obersorbischen Sprachmodells möglich ist und legt die technische und methodische Basis für die kommenden Schritte.
Wir bei SupraTix begrüßen kontroverse Diskussionen und einen offenen Austausch von Ideen und Meinungen. Wir möchten jedoch betonen, dass wir beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge nicht tolerieren. Wir bitten dich, beim Verfassen von Kommentaren und Beiträgen darauf zu achten, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast.
Ebenso möchten wir darauf hinweisen, dass die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites nur dann zulässig ist, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird.
Wir behalten uns vor, Beiträge, die gegen diese Regeln verstoßen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Dennoch ermutigen wir dich, deine Meinung zu äußern, andere Perspektiven einzubringen und durch weiterführende Informationen zum Wissensaustausch beizutragen. Wir sind immer auf der Suche nach spannenden und interessanten Beiträgen und freuen uns darauf, mit dir in einen konstruktiven Dialog zu treten.
Das SupraTix-Team




