Whisper-Spracherkennung einrichten

Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.

ALBERT | AI bietet zwei Modi für die Spracheingabe im Chat:

Browsernative Spracherkennung: Standardmäßig aktiv, erfordert keine zusätzliche Konfiguration. Der gesprochene Text wird in Echtzeit im Chat-Eingabefeld angezeigt.
Whisper-Spracherkennung: Verwendet einen externen, OpenAI-kompatiblen Whisper-Server für die Transkription. Die Spracheingabe wird aufgenommen und nach dem Beenden der Aufnahme an den Server gesendet. Dieser Modus bietet in der Regel eine höhere Erkennungsgenauigkeit und bessere Mehrsprachigkeit.

Wenn Sie die Whisper-Spracherkennung konfigurieren und aktivieren, wird automatisch der Whisper-Modus für alle Benutzer im Chat verwendet. Andernfalls bleibt die browsernative Spracherkennung aktiv.

Voraussetzungen

Das Plugin ALBERT | AI ist installiert und lizenziert.
Ein OpenAI-kompatibler Whisper-Server ist verfügbar und über das Netzwerk erreichbar. Kompatible Server sind z. B.:
- faster-whisper
- whisper.cpp
- OpenAI Whisper API
- Andere Server, die den Endpoint /v1/audio/transcriptions bereitstellen

Whisper-Spracherkennung konfigurieren

Gehen Sie wie folgt vor, um die Whisper-Spracherkennung in ALBERT | AI einzurichten:

Öffnen Sie in der Kopfleiste ☰ > Administration > Konfiguration > Whisper Spracherkennung.

Ergebnis: Das Fenster Whisper Spracherkennung öffnet sich.
Konfigurieren Sie die Verbindungseinstellungen:
Klicken Sie auf Verbindung testen, um die Erreichbarkeit des Whisper-Servers zu überprüfen.

Ergebnis: Bei erfolgreicher Verbindung erhalten Sie eine Bestätigung. Bei einem Fehler überprüfen Sie die Server-URL und ggf. den API-Key.
Klicken Sie auf Speichern.

Ergebnis: Die Whisper-Spracherkennung ist konfiguriert. Wenn die Checkbox Aktiviert gesetzt ist, verwenden alle Benutzer im ALBERT-Chat ab sofort automatisch den Whisper-Modus für die Spracheingabe.

Konfiguration der Whisper-Einstellungen für die Spracheingabe im Chat

Hinweis: Die Whisper-Konfiguration betrifft ausschließlich die Spracheingabe im Chat (Mikrofon-Symbol). Für die Transkription von Audio- und Videodateien, die in agorum core gespeichert sind, verwenden Sie das KI-Tool whisper_transcribe. Dieses Tool wird separat in den KI-Voreinstellungen konfiguriert.

Verbindungseinstellungen

Einstellung	Beschreibung
Aktiviert	Aktiviert oder deaktiviert die Whisper-Spracherkennung. Wenn aktiviert, wird in ALBERTs Chat automatisch der Whisper-Modus für die Spracheingabe verwendet. Wenn deaktiviert, wird die Browser-native Spracherkennung verwendet.
Server-URL	Die URL des Whisper-Servers. Geben Sie entweder eine Basis-URL an (z. B. `http://10.0.0.22:8010`), in diesem Fall wird automatisch der Standard-Endpoint `/v1/audio/transcriptions` angehängt, oder eine vollständige Endpoint-URL (z. B. `https://llm-api.example.com/cohere-transcribe/v1/audio/transcriptions`). Hinweis: Falls eine vollständige URL gesetzt wird, wird diese genommen, ohne das Anhängen des Pfades.
API-Key	Optionaler API-Schlüssel. Wenn angegeben, wird er als `Authorization: Bearer <apiKey>` Header an den Whisper-Server gesendet. Lassen Sie das Feld leer, wenn Ihr Whisper-Server keine Authentifizierung erfordert.
Sprache des Benutzers verwenden	Wenn aktiviert, wird automatisch die Systemsprache des aktuellen Benutzers aus den Benutzereinstellungen (z. B. `de`, `en`) an den Whisper-Server gesendet. Das manuell eingetragene Sprachfeld wird in diesem Fall ignoriert.
Sprache	Manuell festgelegter Sprachcode (z. B. `de`, `en`, `fr`). Wird nur verwendet, wenn Sprache des Benutzers verwenden deaktiviert ist. Lassen Sie das Feld leer, um die automatische Spracherkennung des Whisper-Servers zu nutzen.
Modell	Name des Whisper-Modells, das auf dem Server verwendet werden soll (z. B. `large-v3`). Optional, abhängig von der Konfiguration Ihres Whisper-Servers. Lassen Sie das Feld leer, um das Standardmodell des Servers zu verwenden.
Max. Aufnahmedauer (Sekunden)	Maximale Dauer einer einzelnen Sprachaufnahme im Chat in Sekunden. Nach Ablauf dieser Zeit wird die Aufnahme automatisch beendet und zur Transkription gesendet. Standard: `60` Sekunden. Hinweis: Der Text wird auch bei einer kurzen Sprechpause zur Transkription übermittelt.

Funktionsweise

Automatische Modus-Umschaltung

Ist die Whisper-Spracherkennung konfiguriert und aktiviert, wird im Chat automatisch der Whisper-Modus verwendet. Andernfalls greift die Browser-native Spracherkennung. Alle bestehenden Chat-Funktionen (Sprachbefehle, Mikrofon-Toggle, Absenden per Sprachkommando „ALBERT“) funktionieren in beiden Modi identisch.

Audio-Aufnahme im Whisper-Modus

Im Whisper-Modus wird die MediaRecorder-API des Browsers genutzt, um Audio im Format WebM/Opus aufzunehmen. Die Aufnahme erfolgt in Chunks, sodass auch bei längeren Aufnahmen keine Daten verloren gehen. Nach dem Beenden der Aufnahme werden die Audiodaten an das Backend gesendet und dort über die Whisper-Bibliothek transkribiert.

Tipp: Die Whisper-Spracherkennung liefert in der Regel genauere Ergebnisse als die browsernative Spracherkennung, insbesondere bei Fachbegriffen, Eigennamen und mehrsprachigen Eingaben. Wenn Sie einen eigenen Whisper-Server betreiben, verlassen die Audiodaten Ihr Netzwerk nicht.