Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core Module und Plugins > ALBERT | AI


Whisper-Spracherkennung einrichten

Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.

ALBERT | AI bietet zwei Modi für die Spracheingabe im Chat:

Wenn Sie die Whisper-Spracherkennung konfigurieren und aktivieren, wird automatisch der Whisper-Modus für alle Benutzer im Chat verwendet. Andernfalls bleibt die browsernative Spracherkennung aktiv.

Voraussetzungen

Whisper-Spracherkennung konfigurieren

Gehen Sie wie folgt vor, um die Whisper-Spracherkennung in ALBERT | AI einzurichten:

  1. Öffnen Sie in der Kopfleiste ☰ > Administration > Konfiguration > Whisper Spracherkennung.

    Ergebnis: Das Fenster Whisper Spracherkennung öffnet sich.

  2. Konfigurieren Sie die Verbindungseinstellungen:
  3. Klicken Sie auf Verbindung testen, um die Erreichbarkeit des Whisper-Servers zu überprüfen.

    Ergebnis: Bei erfolgreicher Verbindung erhalten Sie eine Bestätigung. Bei einem Fehler überprüfen Sie die Server-URL und ggf. den API-Key.
  4. Klicken Sie auf Speichern.

    Ergebnis: Die Whisper-Spracherkennung ist konfiguriert. Wenn die Checkbox Aktiviert gesetzt ist, verwenden alle Benutzer im ALBERT-Chat ab sofort automatisch den Whisper-Modus für die Spracheingabe.

 

Konfiguration der Whisper-Einstellungen für die Spracheingabe im Chat

 

Hinweis: Die Whisper-Konfiguration betrifft ausschließlich die Spracheingabe im Chat (Mikrofon-Symbol). Für die Transkription von Audio- und Videodateien, die in agorum core gespeichert sind, verwenden Sie das KI-Tool whisper_transcribe. Dieses Tool wird separat in den KI-Voreinstellungen konfiguriert.

Verbindungseinstellungen

Einstellung Beschreibung
Aktiviert Aktiviert oder deaktiviert die Whisper-Spracherkennung. Wenn aktiviert, wird in ALBERTs Chat automatisch der Whisper-Modus für die Spracheingabe verwendet.
Wenn deaktiviert, wird die Browser-native Spracherkennung verwendet.
Server-URL Die URL des Whisper-Servers. Geben Sie entweder eine Basis-URL an (z. B. http://10.0.0.22:8010), in diesem Fall wird automatisch der Standard-Endpoint /v1/audio/transcriptions angehängt, oder eine vollständige Endpoint-URL (z. B. https://llm-api.example.com/cohere-transcribe/v1/audio/transcriptions).

Hinweis: Falls eine vollständige URL gesetzt wird, wird diese genommen, ohne das Anhängen des Pfades.
API-Key Optionaler API-Schlüssel. Wenn angegeben, wird er als Authorization: Bearer <apiKey> Header an den Whisper-Server gesendet. Lassen Sie das Feld leer, wenn Ihr Whisper-Server keine Authentifizierung erfordert.
Sprache des Benutzers verwenden Wenn aktiviert, wird automatisch die Systemsprache des aktuellen Benutzers aus den Benutzereinstellungen (z. B. de, en) an den Whisper-Server gesendet. Das manuell eingetragene Sprachfeld wird in diesem Fall ignoriert.
Sprache Manuell festgelegter Sprachcode (z. B. de, en, fr). Wird nur verwendet, wenn Sprache des Benutzers verwenden deaktiviert ist. Lassen Sie das Feld leer, um die automatische Spracherkennung des Whisper-Servers zu nutzen.
Modell Name des Whisper-Modells, das auf dem Server verwendet werden soll (z. B. large-v3). Optional, abhängig von der Konfiguration Ihres Whisper-Servers. Lassen Sie das Feld leer, um das Standardmodell des Servers zu verwenden.
Max. Aufnahmedauer (Sekunden) Maximale Dauer einer einzelnen Sprachaufnahme im Chat in Sekunden. Nach Ablauf dieser Zeit wird die Aufnahme automatisch beendet und zur Transkription gesendet. Standard: 60 Sekunden.

Hinweis: Der Text wird auch bei einer kurzen Sprechpause zur Transkription übermittelt. 

Funktionsweise

Automatische Modus-Umschaltung

Ist die Whisper-Spracherkennung konfiguriert und aktiviert, wird im Chat automatisch der Whisper-Modus verwendet. Andernfalls greift die Browser-native Spracherkennung. Alle bestehenden Chat-Funktionen (Sprachbefehle, Mikrofon-Toggle, Absenden per Sprachkommando „ALBERT“) funktionieren in beiden Modi identisch.

Audio-Aufnahme im Whisper-Modus

Im Whisper-Modus wird die MediaRecorder-API des Browsers genutzt, um Audio im Format WebM/Opus aufzunehmen. Die Aufnahme erfolgt in Chunks, sodass auch bei längeren Aufnahmen keine Daten verloren gehen. Nach dem Beenden der Aufnahme werden die Audiodaten an das Backend gesendet und dort über die Whisper-Bibliothek transkribiert.

Tipp: Die Whisper-Spracherkennung liefert in der Regel genauere Ergebnisse als die browsernative Spracherkennung, insbesondere bei Fachbegriffen, Eigennamen und mehrsprachigen Eingaben. Wenn Sie einen eigenen Whisper-Server betreiben, verlassen die Audiodaten Ihr Netzwerk nicht.