Durchsuchbare Dokumentation aufrufen | Zurück zur Dokumentationsübersicht

Navigation: Dokumentationen agorum core > agorum core Module und Plugins > ALBERT | AI Agents


Dokumente mit OCR im Chat analysieren

Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.

ALBERT | AI Agents erlaubt, Dokumente (PDFs und Bilder) direkt im Chat per OCR (Optical Character Recognition) zu analysieren. Die KI erkennt dabei Text, Tabellen, Layoutstrukturen und weitere Elemente und gibt das Ergebnis zurück. Das Ergebnis ist sofort bereit zur Weiterverarbeitung, Zusammenfassung oder Datenextraktion.

Je nach Konfiguration stehen Ihnen verschiedene OCR-Anbieter zur Verfügung. Welche Tools in Ihrem Chat aktiv sind, legt Ihr Administrator fest.

Voraussetzungen

Dokument per OCR analysieren

Gehen Sie wie folgt vor, um ein Dokument im Chat per OCR zu analysieren:

  1. Öffnen Sie ALBERTs Chat.
  2. Wählen Sie eine KI-Voreinstellung, in der mindestens ein OCR-Tool aktiviert ist.
  3. Fügen Sie das Dokument (PDF oder Bild), dessen Text erkannt werden soll, zum Chat hinzu. Sie haben dafür mehrere Möglichkeiten:
    • Klicken Sie auf das Plus-Symbol und wählen Sie die Datei in agorum core aus.
    • Klicken Sie auf das Symbol zum Hochladen und wählen Sie die Datei auf dem von Ihnen verwendeten Gerät aus. 

    Ergebnis: Das Dokument wird als Kontext an die KI übergeben.
  4. Geben Sie Ihre Anweisung ein, z. B.:
    • "Lies den Text aus diesem Dokument per OCR“
    • "Analysiere das Layout und die Tabellen in diesem PDF“
    • "Extrahiere alle Textinhalte aus diesem gescannten Bild“
    • "Führe OCR auf diesem Dokument durch und fasse den Inhalt zusammen“
  5. Senden Sie die Nachricht ab.

    Ergebnis: Die KI wählt automatisch das passende OCR-Tool aus, sendet das Dokument zur Erkennung und zeigt Ihnen das Ergebnis im Chat an.

Tipp: Sie müssen sich nicht um die Wahl des OCR-Tools kümmern – die KI entscheidet anhand der verfügbaren Tools automatisch. Wenn Sie ein bestimmtes Tool bevorzugen, können Sie dies in Ihrer Anweisung angeben, z. B.: „Analysiere dieses Dokument mit PaddleOCR“ oder „Verwende Mistral OCR für dieses PDF“.

Unterstützte Dateiformate

Kategorie Formate
PDF PDF-Dokumente (auch mehrseitig). Große PDFs werden je nach Tool automatisch in Abschnitte aufgeteilt und seitenweise verarbeitet.
Bilder JPG, JPEG, PNG, GIF, BMP, TIF, TIFF, WebP, AVIF

Was passiert bei großen PDFs?

Je nach OCR-Tool werden große PDFs unterschiedlich behandelt:

In beiden Fällen müssen Sie nichts Besonderes tun. Die Verarbeitung erfolgt im Hintergrund.

Ergebnisformat

Das Ergebnisformat hängt vom verwendeten OCR-Tool ab:

Tool Format Besonderheiten
PaddleOCR HTML Tabellen als <table>-Markup, Formeln mit <sup>/<sub>, strukturierte Layoutblöcke
Mistral OCR Markdown Text, Tabellen, eingebettete Bilder als Markdown-Syntax

Unabhängig vom Format kann die KI das Ergebnis direkt weiterverarbeiten, z. B. um Tabellen zu extrahieren, Inhalte zusammenzufassen oder Daten zu analysieren.

Verfügbare OCR-Tools im Überblick

ALBERT | AI Agents unterstützt mehrere OCR-Anbieter. Welche in Ihrem Chat verfügbar sind, hängt von der Konfiguration durch Ihren Administrator ab.

Merkmal PaddleOCR Mistral OCR
Betriebsmodell Self-Hosted (eigener Server) Cloud-Dienst (Mistral API)
Datenschutz Dokumente verlassen nicht Ihr Netzwerk Dokumente werden an Mistral-Server gesendet
Ergebnisformat HTML (strukturiert mit Tabellen-Markup) Markdown
Einrichtung PaddleOCR-VL-Server muss bereitgestellt werden Nur API-Key erforderlich
Große PDFs Automatisches Chunking (10er-Batches) Verarbeitung aller Seiten in einem Aufruf
Layout-Erkennung Tabellen, Formeln, Diagramme, Layoutblöcke Text, Tabellen, Bilder
Ideal für Datenschutzsensible Umgebungen, On-Premises-Betrieb Schnelle Einrichtung ohne eigene Infrastruktur

Tipps und Tricks

Tipps:

  • Für beste Ergebnisse sollten gescannte Dokumente eine möglichst hohe Auflösung und gute Qualität aufweisen.
  • Sie können die KI bitten, das OCR-Ergebnis weiterzuverarbeiten, z. B.: „Extrahiere die Tabelle aus dem OCR-Ergebnis und gib sie als CSV aus“.
  • Wenn das Ergebnis unvollständig erscheint, versuchen Sie es mit einem einzelnen Bild oder einer einzelnen PDF-Seite, um die Erkennung zu testen.
  • Das Tool funktioniert am besten mit klar strukturierten Dokumenten (Rechnungen, Formulare, Berichte, Tabellen).
  • Wenn beide OCR-Tools verfügbar sind, können Sie in Ihrer Anweisung gezielt eines benennen. Ansonsten wählt die KI automatisch.