PDF-Text extrahieren
Der Service Task „PDF Text extrahieren“ ermöglicht es, automatisiert den Text aus einer einseitigen PDF-Datei zu extrahieren. Der extrahierte Inhalt wird strukturiert zurückgegeben und kann anschließend für weitere Prozessschritte verwendet werden. Intern wird dieser Task über die AWS Textract API durchgeführt.
Input-Parameter
Die folgenden Felder werden als Eingabe für den Task benötigt:
{
"fileReference": "string"
}
Erläuterung:
fileReference
: Eine Referenz auf die PDF-Datei, die analysiert werden soll. Dies kann ein Dateipfad oder eine ID in einem Speicher sein.
Output
Der Task gibt ein Ergebnis zurück, das den extrahierten Text sowie zusätzliche Informationen über das Dokument enthält.
{
"status": 200,
"response": {
"Blocks": [
{
"BlockType": "LINE",
"Text": "Beispieltext",
"Confidence": 99.5
}
]
}
}
Erläuterung:
status
: Der Status des Vorgangs (z. B.200
für erfolgreich).Blocks
: Eine Liste der erkannten Textblöcke im Dokument.BlockType
: Gibt an, um welche Art von Block es sich handelt (z. B.LINE
für eine Textzeile).Text
: Der erkannte Text.Confidence
: Die Zuverlässigkeit der Texterkennung in Prozent.
JSONata-Beispiele
Beispielausdruck, wie die extrahierten Daten verarbeitet werden können:
$map(response.Blocks[BlockType="LINE"], $.Text)
Hinweise
- Dieser Task unterstützt derzeit nur einseitige PDF-Dateien.
- Stelle sicher, dass die
fileReference
gültig ist und auf eine existierende PDF-Datei verweist. - Die Ergebnisse können mit JSONata-Ausdrücken weiterverarbeitet werden.
Tipp
Um komplexe JSONata-Ausdrücke zu testen, kannst du den JSONata Playground verwenden.