Dokumente mit OCR im Chat analysieren

Hinweis: Diese Dokumentation bezieht sich auf die aktuellste Version des Plugins ALBERT | AI Agents. Aktualisieren Sie das hier beschriebene Plugin, um die Dokumentation verwenden zu können.

ALBERT | AI Agents erlaubt, Dokumente (PDFs und Bilder) direkt im Chat per OCR (Optical Character Recognition) zu analysieren. Die KI erkennt dabei Text, Tabellen, Layoutstrukturen und weitere Elemente und gibt das Ergebnis zurück. Das Ergebnis ist sofort bereit zur Weiterverarbeitung, Zusammenfassung oder Datenextraktion.

Je nach Konfiguration stehen Ihnen verschiedene OCR-Anbieter zur Verfügung. Welche Tools in Ihrem Chat aktiv sind, legt Ihr Administrator fest.

Voraussetzungen

Ihr Administrator hat mindestens ein OCR-Tool eingerichtet und in Ihrer KI-Voreinstellung aktiviert.
Sie haben Zugriff auf ALBERTs Chat.
Das zu analysierende Dokument ist in agorum core gespeichert.

Dokument per OCR analysieren

Gehen Sie wie folgt vor, um ein Dokument im Chat per OCR zu analysieren:

Öffnen Sie ALBERTs Chat.
Wählen Sie eine KI-Voreinstellung, in der mindestens ein OCR-Tool aktiviert ist.
Fügen Sie das Dokument (PDF oder Bild), dessen Text erkannt werden soll, zum Chat hinzu. Sie haben dafür mehrere Möglichkeiten:
• Klicken Sie auf das Plus-Symbol und wählen Sie die Datei in agorum core aus.
• Klicken Sie auf das Symbol zum Hochladen und wählen Sie die Datei auf dem von Ihnen verwendeten Gerät aus.

Ergebnis: Das Dokument wird als Kontext an die KI übergeben.
Geben Sie Ihre Anweisung ein, z. B.:
• "Lies den Text aus diesem Dokument per OCR“
• "Analysiere das Layout und die Tabellen in diesem PDF“
• "Extrahiere alle Textinhalte aus diesem gescannten Bild“
• "Führe OCR auf diesem Dokument durch und fasse den Inhalt zusammen“
Senden Sie die Nachricht ab.

Ergebnis: Die KI wählt automatisch das passende OCR-Tool aus, sendet das Dokument zur Erkennung und zeigt Ihnen das Ergebnis im Chat an.

Tipp: Sie müssen sich nicht um die Wahl des OCR-Tools kümmern – die KI entscheidet anhand der verfügbaren Tools automatisch. Wenn Sie ein bestimmtes Tool bevorzugen, können Sie dies in Ihrer Anweisung angeben, z. B.: „Analysiere dieses Dokument mit PaddleOCR“ oder „Verwende Mistral OCR für dieses PDF“.

Unterstützte Dateiformate

Kategorie	Formate
PDF	PDF-Dokumente (auch mehrseitig). Große PDFs werden je nach Tool automatisch in Abschnitte aufgeteilt und seitenweise verarbeitet.
Bilder	JPG, JPEG, PNG, GIF, BMP, TIF, TIFF, WebP, AVIF

Was passiert bei großen PDFs?

Je nach OCR-Tool werden große PDFs unterschiedlich behandelt:

PaddleOCR: PDFs mit mehr als 10 Seiten werden automatisch in 10er-Batches aufgeteilt und stückweise verarbeitet. Das Ergebnis aller Abschnitte wird zu einem Gesamtergebnis zusammengeführt.
Mistral OCR: Alle Seiten werden in einem einzigen Aufruf verarbeitet.

In beiden Fällen müssen Sie nichts Besonderes tun. Die Verarbeitung erfolgt im Hintergrund.

Ergebnisformat

Das Ergebnisformat hängt vom verwendeten OCR-Tool ab:

Tool	Format	Besonderheiten
PaddleOCR	HTML	Tabellen als `<table>`-Markup, Formeln mit `<sup>`/`<sub>`, strukturierte Layoutblöcke
Mistral OCR	Markdown	Text, Tabellen, eingebettete Bilder als Markdown-Syntax

Unabhängig vom Format kann die KI das Ergebnis direkt weiterverarbeiten, z. B. um Tabellen zu extrahieren, Inhalte zusammenzufassen oder Daten zu analysieren.

Verfügbare OCR-Tools im Überblick

ALBERT | AI Agents unterstützt mehrere OCR-Anbieter. Welche in Ihrem Chat verfügbar sind, hängt von der Konfiguration durch Ihren Administrator ab.

Merkmal	PaddleOCR	Mistral OCR
Betriebsmodell	Self-Hosted (eigener Server)	Cloud-Dienst (Mistral API)
Datenschutz	Dokumente verlassen nicht Ihr Netzwerk	Dokumente werden an Mistral-Server gesendet
Ergebnisformat	HTML (strukturiert mit Tabellen-Markup)	Markdown
Einrichtung	PaddleOCR-VL-Server muss bereitgestellt werden	Nur API-Key erforderlich
Große PDFs	Automatisches Chunking (10er-Batches)	Verarbeitung aller Seiten in einem Aufruf
Layout-Erkennung	Tabellen, Formeln, Diagramme, Layoutblöcke	Text, Tabellen, Bilder
Ideal für	Datenschutzsensible Umgebungen, On-Premises-Betrieb	Schnelle Einrichtung ohne eigene Infrastruktur

Tipps und Tricks

Tipps:

Für beste Ergebnisse sollten gescannte Dokumente eine möglichst hohe Auflösung und gute Qualität aufweisen.
Sie können die KI bitten, das OCR-Ergebnis weiterzuverarbeiten, z. B.: „Extrahiere die Tabelle aus dem OCR-Ergebnis und gib sie als CSV aus“.
Wenn das Ergebnis unvollständig erscheint, versuchen Sie es mit einem einzelnen Bild oder einer einzelnen PDF-Seite, um die Erkennung zu testen.
Das Tool funktioniert am besten mit klar strukturierten Dokumenten (Rechnungen, Formulare, Berichte, Tabellen).
Wenn beide OCR-Tools verfügbar sind, können Sie in Ihrer Anweisung gezielt eines benennen. Ansonsten wählt die KI automatisch.