Zum Inhalt

PDF-Text extrahieren

Der Service Task „PDF Text extrahieren“ ermöglicht es, automatisiert den Text aus einer einseitigen PDF-Datei zu extrahieren. Der extrahierte Inhalt wird strukturiert zurückgegeben und kann anschließend für weitere Prozessschritte verwendet werden. Intern wird dieser Task über die AWS Textract API durchgeführt.

Input-Parameter

Die folgenden Felder werden als Eingabe für den Task benötigt:

{
  "fileReference": "string"
}

Erläuterung:

  • fileReference: Eine Referenz auf die PDF-Datei, die analysiert werden soll. Dies kann ein Dateipfad oder eine ID in einem Speicher sein.

Output

Der Task gibt ein Ergebnis zurück, das den extrahierten Text sowie zusätzliche Informationen über das Dokument enthält.

{
  "status": 200,
  "response": {
    "Blocks": [
      {
        "BlockType": "LINE",
        "Text": "Beispieltext",
        "Confidence": 99.5
      }
    ]
  }
}

Erläuterung:

  • status: Der Status des Vorgangs (z. B. 200 für erfolgreich).
  • Blocks: Eine Liste der erkannten Textblöcke im Dokument.
  • BlockType: Gibt an, um welche Art von Block es sich handelt (z. B. LINE für eine Textzeile).
  • Text: Der erkannte Text.
  • Confidence: Die Zuverlässigkeit der Texterkennung in Prozent.

JSONata-Beispiele

Beispielausdruck, wie die extrahierten Daten verarbeitet werden können:

$map(response.Blocks[BlockType="LINE"], $.Text)

Hinweise

  • Dieser Task unterstützt derzeit nur einseitige PDF-Dateien.
  • Stelle sicher, dass die fileReference gültig ist und auf eine existierende PDF-Datei verweist.
  • Die Ergebnisse können mit JSONata-Ausdrücken weiterverarbeitet werden.

Tipp

Um komplexe JSONata-Ausdrücke zu testen, kannst du den JSONata Playground verwenden.