Es ist Freitagabend, 19.20 Uhr. Sie erhalten eine wichtige Nachricht eines Zulieferers aus Graubünden. Sie können kein Rätoromanisch; Ihre Kolleg:innen, die diese Sprache beherrschen, sind schon im wohlverdienten Wochenende. Es handelt sich um sensible Informationen, die Sie nicht mit Dritten teilen dürfen. Sie können also nicht einfach jene Tools öffnen, mit denen Sie normalerweise andere Mails, die Sie in einer Fremdsprache brauchen oder mit denen Sie Texte in Ihrer Freizeit übersetzen. Dennoch: Sie müssen bis 20.00 Uhr Ihrem Zulieferer antworten. Sie scrollen durch das firmeninterne Adressbuch und fragen sich: Wer kann Rätoromanisch?
Bild: Textshuttle
Die einfache Antwort lautet: Es gibt Software, die Rätoromanisch kann. Die kompliziertere Antwort: Maschinen können kein Rätoromanisch, sind aber in der Lage, aus einem Text einer beinahe beliebigen Sprache einen inhaltlich identischen Text in einer anderen Sprache zu generieren. Das kennen Sie von ChatGPT, GoogleTranslate oder DeepL oder eben: Textshuttle. Das Beispiel zeigt einen Use Case für unternehmenseigene Übersetzungssoftware. Während die grossen Internetkonzerne insbesondere frei verfügbare, nicht personalisierte Übersetzungssoftware anbieten, entwickelt Textshuttle, ein Start-up und Spin-off der Universität Zürich, Software, die maschinell übersetzt und sich an die Anforderungen von Unternehmen anpassen lässt. Zudem lassen sich auch sensible Informationen maschinell übersetzen. Denn die Obhut der jeweiligen Daten verbleibt im Unternehmen oder auf Servern in der Schweiz. Dabei funktioniert die Übersetzungssoftware von Textshuttle wie jene Tools, die frei im Netz verfügbar sind, auf neuronalen Netzen und maschinellem Lernen. Das ist seit etwa fünf bis sechs Jahren Standard in allen Anwendungen, die natürliche Sprache verarbeiten (Natural Language Processing). Und dennoch gibt es einige Unterschiede zu den im Netz frei verfügbaren Tools. Im Mai 2023 lancierte Textshuttle eine Plattform für Privatpersonen, die frei verfügbare Übersetzungen – angepasst an die sprachlichen Eigenheiten der Schweiz – anbietet. So wird etwa das Eszett als Doppel-S ausgegeben, zudem kann in alle Landessprachen, darunter auch rätoromanisch und nach Schweizerdeutsch übersetzt werden.
Das eingangs geschilderte Beispiel deckt einen Use Case ab, der die Problematik rund um den Schutz sensibler Daten verdeutlicht. Ein anderer Use Case maschineller Übersetzungssysteme betrifft die professionelle Übersetzungsarbeit. Samuel Läubli, Mitgründer und CTO von Textshuttle, verdeutlicht es so: «Der Unterschied zwischen personalisierten und nicht personalisierten Übersetzungssystem gleicht jenem, den Sie erleben, wenn Sie mit einem Hund spazieren gehen, den Sie schon lange kennen, und einem Hund, den Sie lediglich für einen Spaziergang ausführen. Gerade wenn es bei diesem Spaziergang um Finessen geht, um gegenseitige Rücksichtnahme oder um Vertrauen, wird es darauf ankommen, ob und wie lange Sie den Hund kennen».
Viele Organisationen haben einen eigenen Sprachgebrauch. Sie nutzen etwa Wendungen, die in verschiedenen Sprachen definiert sind. Das kann ein Claim, können Produktnamen oder sehr technische Begriffe sein, bei denen – Menschen und Maschinen – erst dann den Sachverhalt richtig übersetzen, wenn Sie mit dem zu übersetzenden Sachverhalt resp. den damit zusammenhängenden sprachlichen Finessen vertraut sind. Professionelle Übersetzer:innen und Unternehmen nutzen dazu digitale Wörterbücher, ähnlich einem Sprachleitfaden. Im Gegensatz zu den allgemeinverfügbaren Übersetzungssystemen können unternehmenseigene Lösungen an Translation Memories – unternehmenseigene Datenbanken zur Standardisierung von Übersetzungen – angeschlossen werden. Zudem kann die unternehmenseigene Übersetzungssoftware an branchenspezifischen oder unternehmenseigenen Texten trainiert werden.
Microsoft Research veröffentlichte 2018 einen Artikel, in dem die Autor:innen proklamieren, dass ihr maschinelles Übersetzungssystem bei Übersetzungen von Chinesisch nach Englisch dieselbe Qualität erreicht wie menschliche Übersetzer:innen. Diese Aussage basiert auf einer Studie, in der Menschen mit Englisch und Chinesisch als Muttersprache die Übersetzungsqualität jeweils einzelner Sätze bewertet haben. Bei Bewertungen von einzelnen Sätzen kann keine statistisch signifikante Abweichung in der Bewertung von menschen- und maschinengemachten Übersetzungen festgestellt werden. Läubli winkt ab und legt dar, dass dies zwar ein gängiges Verfahren sei, um die Qualität von Übersetzungen zu messen, aber eigentlich zu stark verkürzt sei. Denn Texte müssen als Ganzes – und nicht auf Ebene einzelner Sätze – stimmig sein. Legt man nämlich einen ganzen Text zur Bewertung vor, werden automatisch übersetzte Texte noch immer und durchgängig als signifikant schlechter bewertet. Florian Schottmann, Head of Research, doppelt nach. Das Messen der Qualität einer Übersetzung sei eigentlich etwas Unmögliches, wenn man bedenkt, wie viele korrekte Übersetzungen schon ein simpler Satz hat. Ein ganzer Text hat zumindest potenziell unendlich viele valable Übersetzungen, «das illustrieren die literarischen Werke von Georges Perec und Raymond Queneau», so Läubli.
Der Gewinn maschineller Übersetzungssysteme liegt nicht primär darin, dem Menschen die Übersetzungstätigkeit wegzunehmen. Vielmehr besteht das zentrale Argumente für maschinelle Übersetzungssysteme darin, dass sie in den Sprachendiensten zu einer Effizienzsteigerung in der Übersetzungsarbeit führen. Je nach Anwendungsfall und Branche liegt diese bei 40 bis 60 Prozent.
Die hohen Erwartungen an die maschinelle Sprachverarbeitung, vermittelt durch öffentlichkeitswirksame Anwendungen, grosse Sprachmodelle wie ChatGPT oder das zuvor genannte Paper von Microsoft Research treiben die Branche an und führen zu einer hohen Dynamik. Allerdings gehen diese Erwartungen auch mit Herausforderungen einher, gerade wenn die Erwartungen zu hoch sind. Einerseits führen diese zu einer Hype-Dynamik, die dann wiederum zu Enttäuschungen führt; Übersetzer:innen fühlen sich bedroht und sehen als Folge in maschinellen Übersetzungen lediglich Fehler oder Unsinnigkeiten – und nicht die tatsächlichen Chancen einer digitalen Übersetzungsbranche. Umgekehrt sieht das Management nur das Potenzial, Kosten einzusparen und nicht, dass solche Systeme effizientere Prozesse, qualitativ hochwertigere Übersetzungen als die vergleichbaren Gratistools und neue Geschäftsmodelle ermöglichen. Beide Positionen, Abwehr und Überhöhung, sind im Extrem letztlich falsch, weil es nach wie vor Sprachdienstleister:innen benötigen wird. Und weil die Digitalisierung so oder so stattfinden und damit alle Branchen grundlegend verändern wird.
Nach den Herausforderungen gefragt, antwortet Schottmann: Im Umgang mit Daten sei noch vieles unklar. Was heisst es, Trainingsdaten zu löschen, wenn anhand derer ein neuronales Modell trainiert wurde? Diese Frage sei weder theoretisch noch juristisch gelöst.
Weitere Schwierigkeiten seien das Beschaffungsrecht, das bei öffentlichen Ausschreibungen zur Anwendung kommt. Läubli und Schottmann sind sich einig, dass das Beschaffungsrecht und das darin vorgeschriebene Vorgehen für viele Bereiche sinnvoll sein mag, aber nicht der Art und Weise entspricht, wie digitale Projekte, geschweige denn KI-Projekte realisiert werden.
Daneben gibt es eine Reihe von kleinen, aber nicht weniger gravierenden Herausforderungen, etwa das Fehlen von industrieweiten Standards zur Weitergabe und Aufzeichnung von Daten. Fehlende Standards und Dateiformate machen es schwierig, Schnittstellen zu anderen Applikationen, etwa Übersetzungssoftware, zu entwickeln.
Bei den Grossunternehmen sei heute die automatische Übersetzung gesprochener Sprache wahrscheinlich das grössere Thema als die Übersetzung geschriebener Texte. Aktuell beschäftigt die Forschung im Bereich der maschinellen Übersetzungssysteme für geschriebene Texte, wie der Fokus der Übersetzung vom Satz zum Dokument zur Dokumentenbibliothek geweitet werden kann. Eine weitere Herausforderung ist das Implementieren von inklusiver Sprache oder verschiedenen Tonalitäten, zum Beispiel, ob ein Text formell oder salopp vorübersetzt werden soll.