Moderner Arbeitsplatz mit Mikrofon und Laptop – DSGVO-konforme Spracherkennung mit Whisper in ALBERT | AI

Neues Feature im Plugin Manager Was bedeutet DSGVO-konforme Spracherkennung in ALBERT | AI?

DSGVO-konforme Spracherkennung bezeichnet die Verarbeitung von Sprachdaten auf einer Infrastruktur, die der Verantwortliche selbst kontrolliert – ohne dass Audiodaten ein fremdes Netzwerk durchqueren. Genau das liefert die neue Whisper-Integration in <a href="/albert-ki-universum">ALBERT | AI: Tonspuren aus dem Chat werden nicht mehr im Browser transkribiert, sondern von einem Whisper-Server verarbeitet, den der Administrator des Kunden konfiguriert.

Die Erweiterung steht ab sofort über den Plugin Manager in ALBERT | AI zur Verfügung. Kunden und Partner können sie eigenständig aktivieren.

Drei Veränderungen ergeben sich aus dem Wechsel auf einen Whisper-Server:

  • Die Transkription erfolgt in der Regel mit höherer Genauigkeit, insbesondere bei Fachbegriffen, Eigennamen und Fremdsprachen. Das tatsächliche Ergebnis hängt vom eingesetzten Modell ab.
  • Die Audiodaten werden an den vom Administrator konfigurierten Whisper-Server gesendet.
  • Wird ein selbst gehosteter Whisper-Server eingesetzt, verlassen die Audiodaten das Netzwerk des Unternehmens nicht.

Für die Mitarbeitenden ändert sich an der täglichen Arbeitsweise nichts. Der Unterschied zeigt sich allein an der verbesserten Transkription.

Sprachdaten innerhalb eines geschützten Netzwerks – self-hosted Whisper hält Audiodaten lokal

Warum bleibt die Sprach­erkennung mit self-hosted Whisper datensouverän?

Self-hosted Whisper bedeutet: Der Whisper-Server steht in der Infrastruktur, die der Kunde selbst kontrolliert. Die Audiodaten verlassen dieses Netzwerk nicht. Damit ist die Verarbeitung dieser personenbeziehbaren Daten an einem Ort möglich, der vollständig unter der eigenen Kontrolle liegt – inklusive Berechtigungen, Protokollierung und physischem Zugriff.

Der entscheidende Punkt: Tonspuren enthalten typischerweise Stimme, Inhalt und Kontext einer Person. Sobald sie an einen fremden Cloud-Dienst übertragen werden, greifen die Anforderungen der DSGVO (Verordnung (EU) 2016/679), insbesondere zu Datenübermittlung, Auftragsverarbeitung und – bei Drittstaaten – zu zusätzlichen Schutzmaßnahmen. Mit einem selbst gehosteten Whisper-Server entfällt diese Übertragung an Dritte.

Whisper ist ein Open-Source-Spracherkennungsmodell von OpenAI, das unter der MIT-Lizenz veröffentlicht wurde. Genau diese Lizenzierung macht es möglich, das Modell auf eigener Hardware zu betreiben – und damit eine Verarbeitung aufzusetzen, bei der weder Modellbetreiber noch Cloud-Anbieter Zugriff auf die Tonspuren erhalten.

Für agorum® passt das nahtlos zur bestehenden Architekturlogik. agorum core pro ist von Grund auf so gebaut, dass sensible Daten dort liegen, wo der Kunde es entscheidet: on-premises, in der eigenen Cloud oder in der agorum® Cloud. Die Whisper-Integration erweitert dieses Prinzip auf die Spracherkennung.

Wie verbessert ein Whisper-Server die Transkriptionsqualität im Vergleich zum Browser?

Browserbasierte Spracherkennung greift in der Regel auf Schnittstellen zurück, die im jeweiligen Browser hinterlegt sind. Die Qualität variiert je nach Browser, Betriebssystem und Endgerät – und sie ist für die spezifische Sprache eines Unternehmens nicht angepasst. Genau hier liegt der praktische Vorteil eines dedizierten Whisper-Servers: Das Modell verarbeitet die Tonspur in einer kontrollierten Umgebung, mit der Modellgröße und Konfiguration, die der Administrator des Kunden gewählt hat.

Aus dem Wechsel auf einen Whisper-Server ergibt sich – modellabhängig – eine in der Regel höhere Genauigkeit. Das zeigt sich besonders in drei Bereichen:

  • Fachbegriffe, die in der Allgemeinsprache selten vorkommen und im Browser oft falsch transkribiert werden.
  • Eigennamen von Personen, Produkten, Standorten oder internen Bezeichnungen.
  • Fremdsprachige Passagen, die im gemischtsprachigen Geschäftsalltag häufig vorkommen.

Die Folge: Sprachgesteuerte Eingaben im ALBERT-Chat treffen das tatsächliche Anliegen präziser. Nachträgliche Korrekturen werden seltener. Das spart nicht spektakulär viel Zeit pro Einzelfall – aber konstant, jeden Tag, bei jeder Spracheingabe.

Lokaler Whisper-Server im Unternehmensrechenzentrum – On-Premise KI-Spracherkennung

Welche Voraus­setzungen braucht ein lokaler Whisper-Server im Unternehmen?

Die Whisper-Erweiterung in ALBERT | AI wird über den Plugin Manager aktiviert. Welcher Whisper-Server angesprochen wird, entscheidet der Administrator des Kunden. Damit liegt die Hoheit über Modellwahl, Hosting-Ort und Betriebsverantwortung beim Unternehmen selbst – nicht beim Plattformanbieter.

Zwei grundsätzliche Betriebsmodelle sind möglich:

  • Selbst gehosteter Whisper-Server in der eigenen Infrastruktur. Die Audiodaten verlassen das Netzwerk nicht. Das ist der Ausgangspunkt für eine vollständig lokale, DSGVO-konforme Verarbeitung.
  • Extern gehosteter Whisper-Server, sofern der Administrator dies bewusst konfiguriert. In diesem Fall richtet sich die Datenverarbeitung nach dem jeweiligen Hosting-Vertrag und den entsprechenden DSGVO-Anforderungen an die Auftragsverarbeitung.

Welcher Weg im konkreten Fall sinnvoll ist, hängt vom Schutzbedarf der verarbeiteten Daten, vom internen Compliance-Rahmen und von der vorhandenen Infrastruktur ab. Für regulierte Branchen – etwa Recht, Gesundheitswesen, öffentliche Verwaltung oder Finanzdienstleistung – ist die selbst gehostete Variante in vielen Fällen die einzige tragfähige Option.

Die Whisper-Integration fügt sich technisch in die bestehende Architektur ein: ALBERT | AI arbeitet unter den Berechtigungen der Mitarbeitenden, die ihn nutzen. Die Whisper-Komponente verändert daran nichts – sie ergänzt nur die Modalität, über die ALBERT angesprochen wird.

Plugin-Architektur in ALBERT | AI – Whisper-Integration über den Plugin Manager

Keine Änderung der Arbeitsweise

Für die Mitarbeitenden, die ALBERT | AI per Sprache nutzen, ändert sich an der täglichen Arbeitsweise nichts. Die Aufzeichnung erfolgt wie bisher im ALBERT-Chat. Der Unterschied liegt ausschließlich in der Verarbeitung im Hintergrund: Statt der Browser-Schnittstelle wird der vom Administrator konfigurierte Whisper-Server angesprochen.

Der praktisch spürbare Effekt für User:

  • Spracheingaben werden präziser erkannt, besonders bei Fachbegriffen und Eigennamen.
  • Fremdsprachige Passagen werden besser transkribiert, abhängig vom eingesetzten Modell.
  • Die gewohnten Funktionen, Berechtigungen und Workflows bleiben unverändert.
  • Bei einem selbst gehosteten Whisper-Server verlassen die Audiodaten das Unternehmensnetzwerk nicht.

Für den Vertrieb und für Partner ist genau dieser Punkt der entscheidende Hebel: ALBERT | AI verarbeitet nun auch Tonspuren auf einer Infrastruktur, die der Kunde selbst kontrolliert – ohne dass an der Bedienoberfläche etwas verändert werden müsste.

Warum passt self-hosted Whisper zur agorum® Architektur?

Die Whisper-Integration ist kein isoliertes Feature. Sie folgt der gleichen Logik, auf der agorum core pro insgesamt aufgebaut ist: Daten liegen dort, wo der Kunde es entscheidet. Modelle sind austauschbar. Die Plattform bleibt.

Konkret heißt das:

  • Das Whisper-Modell ist über den Plugin Manager konfigurierbar. Wird ein besseres Modell verfügbar, wechselt das Modell – nicht die Plattform.
  • Die Datensouveränität wird nicht versprochen, sondern strukturell geliefert: Der Audio-Datenstrom geht an genau die Adresse, die der Administrator konfiguriert.
  • Die Spracherkennung integriert sich in das vorhandene Berechtigungsmodell. Was ALBERT | AI per Sprachbefehl tut, geschieht im Rechtekontext derjenigen, die den Befehl gegeben haben.
  • Eingaben, Verarbeitung und Folgehandlungen sind nachvollziehbar – ein Punkt, der für die Anforderungen aus Revisionssicherheit in vielen Branchen unverzichtbar ist.

Im Zusammenspiel mit NORA | 360° entsteht so eine Spracheingabe, die nicht nur transkribiert, sondern in einen Kontext eingebettet wird: Der gesprochene Satz wird zu einer Frage an deine Daten – nicht zu einem Text, der irgendwo verarbeitet wird.

Was bedeutet die Whisper-Integration für dein Unternehmen?

DSGVO-konforme Spracherkennung ist keine Compliance-Funktion, die man nachträglich draufschraubt. Sie wird genau dann tragfähig, wenn die Verarbeitung der Audiodaten dort stattfindet, wo das Unternehmen ohnehin die Kontrolle hat: in der eigenen Infrastruktur, unter eigenen Berechtigungen, mit eigener Protokollierung.

Drei Punkte zum Mitnehmen:

  1. Die Transkription wandert vom Browser auf einen Whisper-Server, den der Administrator konfiguriert.
  2. In der Regel höhere Genauigkeit, insbesondere bei Fachbegriffen, Eigennamen und Fremdsprachen – modellabhängig.
  3. Bei einem selbst gehosteten Whisper-Server verlassen die Audiodaten das Netzwerk nicht. Die Verarbeitung wird damit lokal und DSGVO-konform.

Die Erweiterung ist bereits veröffentlicht und steht Kunden und Partnern über den Plugin Manager in ALBERT | AI zur Verfügung. Für Mitarbeitende ändert sich an der Arbeitsweise nichts – sie werden den Unterschied nur an der verbesserten Transkription bemerken.

Über den Autor: Oliver Schulze ist Teil des Kernteams bei agorum® und begleitet die technische Entwicklung von ALBERT | AI. Stand: 27. Mai 2026.

FAQ Häufige Fragen zur DSGVO-konformen Spracherkennung mit Whisper

Vom Plugin zur Plattform Sieh dir ALBERT | AI live an

Du willst sehen, wie ALBERT | AI auf einem strukturierten, datensouveränen Fundament arbeitet? In einer Demo zeigen wir dir die Spracherkennung im Zusammenspiel mit agorum core pro, ALBERT | AI und NORA | 360° – inklusive der Frage, wann ein selbst gehosteter Whisper-Server für dein Unternehmen sinnvoll ist.

Jetzt Demo vereinbaren
Bitmi