ocr_document_scanner/README.md

# ocr_document_scanner

Python basiertes, optical character recognition Skript zur Auto-Verarbeitung von Dokumenten und Speicherung in SMB Ordner.

Install Guide:

1) Install Tesseract OCR je nach OS (https://tesseract-ocr.github.io/tessdoc/Installation.html)

2) Sprachpakete Installieren oder manuel in C:\Program Files\Tesseract-OCR\tessdata hineinkopieren (herunterladen @ https://github.com/tesseract-ocr/tessdata_fast)

3) Umgebungsvariable TESSDATA_PREFIX zum Sprachpaket Ordner setzen (z.b. C:\Program Files\Tesseract-OCR\tessdata)

4) Config anpassen

5) Zu scannende Bilder in Input Ordner Packen

6) Skript auführen

7) Output Ordner Inhalt extrahieren