You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

19 lines
663 B
Markdown

# ocr_document_scanner
Python basiertes, optical character recognition Skript zur Auto-Verarbeitung von Dokumenten und Speicherung in SMB Ordner.
Install Guide:
1) Install Tesseract OCR je nach OS (https://tesseract-ocr.github.io/tessdoc/Installation.html)
2) Sprachpakete Installieren oder manuel in C:\Program Files\Tesseract-OCR\tessdata hineinkopieren (herunterladen @ https://github.com/tesseract-ocr/tessdata_fast)
3) Umgebungsvariable TESSDATA_PREFIX zum Sprachpaket Ordner setzen (z.b. C:\Program Files\Tesseract-OCR\tessdata)
4) Config anpassen
5) Zu scannende Bilder in Input Ordner Packen
6) Skript auführen
7) Output Ordner Inhalt extrahieren