PDF-Text extrahieren (Rechnung)
Der Service Task „PDF Text extrahieren (Rechnung)“ ermöglicht es, automatisiert den Text sowie strukturierte Inhalte
von Rechnungsdokumenten aus einer einseitigen PDF-Datei zu extrahieren. Der Task nutzt die AWS Textract API
AnalyzeExpense
, um Rechnungsdetails wie Rechnungsbetrag, Lieferant, Rechnungsdatum und weitere relevante Felder
strukturiert zurückzugeben.
Input-Parameter
Die folgenden Felder werden als Eingabe für den Task benötigt:
{
"fileReference": "string"
}
Erläuterung:
fileReference
: Eine Referenz auf die PDF-Datei, die analysiert werden soll. Dies kann ein Dateipfad oder eine ID in einem Speicher sein.
Output
Der Task gibt ein Ergebnis zurück, das die extrahierten Rechnungsdaten sowie zusätzliche Informationen über das Dokument enthält.
{
"status": 200,
"response": {
"Expenses": [
{
"ExpenseType": "INVOICE",
"SummaryFields": [
{ "Type": "VENDOR_NAME", "Value": "Pantarey GmbH" },
{ "Type": "INVOICE_DATE", "Value": "2024-12-22" },
{ "Type": "TOTAL_AMOUNT", "Value": "499.99" }
]
}
]
}
}
Erläuterung:
status
: Der Status des Vorgangs (z. B.200
für erfolgreich).Expenses
: Eine Liste der erkannten Rechnungsblöcke im Dokument.SummaryFields
: Eine Liste der extrahierten Felder und deren Werte.Type
: Der erkannte Feldtyp (z. B.VENDOR_NAME
,INVOICE_DATE
,TOTAL_AMOUNT
).Value
: Der erkannte Wert des jeweiligen Feldes.
JSONata-Beispiele
Beispielausdruck, wie die extrahierten Daten verarbeitet werden können:
$map(response.Expenses[].SummaryFields[], {
"type": Type.Text,
"value": Value.Text
})
Hinweise
- Dieser Task unterstützt derzeit nur einseitige PDF-Dateien.
- Stelle sicher, dass die
fileReference
gültig ist und auf eine existierende PDF-Datei verweist. - Der Task ist speziell für Rechnungsdokumente optimiert. Für allgemeine PDF-Textextraktionen nutze den Service PDF-Text extrahieren.
Tipp
Nutze den JSONata Playground, um komplexe JSONata-Ausdrücke zu testen und die extrahierten Rechnungsdaten gezielt zu verarbeiten.