PDFmdx – Dokumente erkennen, Splitten und Metadaten extrahieren

PDFmdx ist eine Anwendung um PDF Dokumente auf Grund von definierten Bedingungen und Inhalten zu erkennen, zu klassifizieren sowie Gesamtdokumentenpackages in Einzeldokumente aufzusplitten.

 

Aus den klassifizierten und gesplitteten Einzeldokumenten werden an Hand von vordefinierten Feldtemplates die gewünschten Inhalte (Metadaten) ausgelesen und für die Weiterverarbeitung in eine Indexdatei geschrieben.

 

Auf diese Art und Weise lassen sich sowohl PDF Dokumente die direkt aus einer beliebigen Anwendung heraus z.B.: per PDF-Druckertreiber erzeugt, aber auch eingescannte Dokumente die per OCR Vorgang in durchsuchbare PDF´s (Image im Vordergrund und Text im Hintergrund) konvertiert wurden verarbeiten.

 

Neben der Erkennung, Aufteilung und Extraktion von Bereichsinhalten verfügt PDFmdx auch über weiterverarbeitende Funktionen zur Automatisierung von Abläufen.