
MAINZ – Sprachmodelle haben erhebliche Schwierigkeiten, den Mainzer Dialekt korrekt zu verstehen. Zu diesem Ergebnis kommt eine Studie eines Forschungsteams der Johannes Gutenberg-Universität Mainz (JGU), das erstmals untersucht hat, wie gut künstliche Intelligenz mit Meenzerisch umgehen kann. Der Dialekt prägt die regionale Sprachkultur bis heute und ist durch die Büttenreden der Mainzer Fastnacht auch über die Region hinaus bekannt. Die Ergebnisse erschienen im Rahmen der Language Resources and Evaluation Conference (LREC 2026) in Palma de Mallorca (Spanien).
Dialekte als Teil kultureller Identität
„Sprachvarianten wie Meenzerisch sind ein wichtiger Teil kultureller Identität, verschwinden jedoch zunehmend aus dem Alltag“, erklärt Minh Duc Bui vom Institut für Informatik der JGU, der die Untersuchung gemeinsam mit Prof. Dr. Katharina von der Wense leitete. In der digitalen Sprachforschung würden regionale Dialekte bislang kaum berücksichtigt. Sprachtechnologische Werkzeuge könnten jedoch dazu beitragen, sie sichtbarer zu machen und langfristig zu bewahren.
Für die Untersuchung erstellte das Forschungsteam, an dem auch ein Wissenschaftler der Philipps-Universität Marburg beteiligt war, zunächst einen Datensatz zum Mainzer Dialekt. Grundlage bildete ein Wörterbuch aus dem Jahr 1966, das digitalisiert wurde. Daraus entstand ein maschinenlesbares Lexikon mit 2.351 Dialektwörtern und den entsprechenden Definitionen in Standardsprache. Solche Ressourcen hätten für Meenzerisch bislang gefehlt, erläutert Katharina von der Wense, Leiterin der Arbeitsgruppe Sprachverarbeitung an der JGU.
Maschinenlesbares Lexikon als Grundlage
Anschließend untersuchten die Forschenden erstmals systematisch, wie große Sprachmodelle mit dem Dialekt umgehen. Mehrere Open-Source-Modelle unterschiedlicher Größe mussten die Bedeutung von Dialektwörtern erklären und umgekehrt aus standarddeutschen Definitionen passende Begriffe im Mainzer Dialekt erzeugen.
Die Ergebnisse fielen eindeutig aus. Die getesteten Modelle scheiterten sowohl beim Verstehen als auch beim Produzieren des Dialekts. Beim Erklären von Wörtern erreichten sie durchschnittlich eine Trefferquote von 4,24 Prozent. Selbst die leistungsfähigsten Modelle erzielten nur geringe Werte. Noch schwächer schnitten die Systeme bei der umgekehrten Aufgabe ab: Beim Erzeugen eines Dialektwortes aus einer Definition lag die Genauigkeit bei lediglich 0,56 Prozent. Zusätzliche Hilfen wie Beispiele oder automatisch abgeleitete Regeln verbesserten die Ergebnisse kaum. Die Trefferquote blieb in allen Versuchen unter zehn Prozent.
Sprachmodelle mit deutlichen Schwächen
„Die Resultate zeigen sehr deutlich, dass heutige Sprachmodelle Meenzerisch bislang kaum verstehen“, sagt Ko-Autor Prof. Dr. Peter Herbert Kann von der Universität Marburg, der den Mainzer Dialekt selbst spricht. Die Ergebnisse seien technisch interessant, zeigten aber zugleich, wie schnell kleinere Sprachformen in digitalen Anwendungen an Sichtbarkeit verlieren könnten. Nach Einschätzung des Forschungsteams könnte ein Grund darin liegen, dass Dialekte überwiegend gesprochen werden und deshalb nur wenige Textdaten vorliegen.
Gefahr digitaler Unsichtbarkeit
Langfristig seien Modelle erforderlich, die nicht nur Standardsprachen, sondern auch regionale und kulturell bedeutsame Sprachvarianten verarbeiten können, so Bui. Künftige Sprachtechnologien könnten dazu beitragen, Dialekte digital zu dokumentieren und zugänglich zu machen. Die von der Carl-Zeiss-Stiftung im Rahmen des Forschungsprojekts TOPML geförderte Studie sei dafür ein erster Schritt. Für die weitere Entwicklung seien jedoch gezielte Datensätze und neue Trainingsmethoden notwendig, um sprachliche und kulturelle Vielfalt dauerhaft auch im digitalen Raum abzubilden.
red
Hier der Link zur Veröffentlichung.
M. D. Bui et al., Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect,Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026), Mai 2026, DOI: 10.63317/4foh8f7kygj8.
























