You cannot select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
19 lines
663 B
Markdown
19 lines
663 B
Markdown
# ocr_document_scanner
|
|
|
|
Python basiertes, optical character recognition Skript zur Auto-Verarbeitung von Dokumenten und Speicherung in SMB Ordner.
|
|
|
|
Install Guide:
|
|
|
|
1) Install Tesseract OCR je nach OS (https://tesseract-ocr.github.io/tessdoc/Installation.html)
|
|
|
|
2) Sprachpakete Installieren oder manuel in C:\Program Files\Tesseract-OCR\tessdata hineinkopieren (herunterladen @ https://github.com/tesseract-ocr/tessdata_fast)
|
|
|
|
3) Umgebungsvariable TESSDATA_PREFIX zum Sprachpaket Ordner setzen (z.b. C:\Program Files\Tesseract-OCR\tessdata)
|
|
|
|
4) Config anpassen
|
|
|
|
5) Zu scannende Bilder in Input Ordner Packen
|
|
|
|
6) Skript auführen
|
|
|
|
7) Output Ordner Inhalt extrahieren |