Zum Inhalt

PDF-Text extrahieren (Rechnung)

Der Service Task „PDF Text extrahieren (Rechnung)“ ermöglicht es, automatisiert den Text sowie strukturierte Inhalte von Rechnungsdokumenten aus einer einseitigen PDF-Datei zu extrahieren. Der Task nutzt die AWS Textract API AnalyzeExpense, um Rechnungsdetails wie Rechnungsbetrag, Lieferant, Rechnungsdatum und weitere relevante Felder strukturiert zurückzugeben.

Input-Parameter

Die folgenden Felder werden als Eingabe für den Task benötigt:

{
  "fileReference": "string"
}

Erläuterung:

  • fileReference: Eine Referenz auf die PDF-Datei, die analysiert werden soll. Dies kann ein Dateipfad oder eine ID in einem Speicher sein.

Output

Der Task gibt ein Ergebnis zurück, das die extrahierten Rechnungsdaten sowie zusätzliche Informationen über das Dokument enthält.

{
  "status": 200,
  "response": {
    "Expenses": [
      {
        "ExpenseType": "INVOICE",
        "SummaryFields": [
          { "Type": "VENDOR_NAME", "Value": "Pantarey GmbH" },
          { "Type": "INVOICE_DATE", "Value": "2024-12-22" },
          { "Type": "TOTAL_AMOUNT", "Value": "499.99" }
        ]
      }
    ]
  }
}

Erläuterung:

  • status: Der Status des Vorgangs (z. B. 200 für erfolgreich).
  • Expenses: Eine Liste der erkannten Rechnungsblöcke im Dokument.
  • SummaryFields: Eine Liste der extrahierten Felder und deren Werte.
  • Type: Der erkannte Feldtyp (z. B. VENDOR_NAME, INVOICE_DATE, TOTAL_AMOUNT).
  • Value: Der erkannte Wert des jeweiligen Feldes.

JSONata-Beispiele

Beispielausdruck, wie die extrahierten Daten verarbeitet werden können:

$map(response.Expenses[].SummaryFields[], {
  "type": Type.Text,
  "value": Value.Text
})

Hinweise

  • Dieser Task unterstützt derzeit nur einseitige PDF-Dateien.
  • Stelle sicher, dass die fileReference gültig ist und auf eine existierende PDF-Datei verweist.
  • Der Task ist speziell für Rechnungsdokumente optimiert. Für allgemeine PDF-Textextraktionen nutze den Service PDF-Text extrahieren.

Tipp

Nutze den JSONata Playground, um komplexe JSONata-Ausdrücke zu testen und die extrahierten Rechnungsdaten gezielt zu verarbeiten.