target · phutelmyer · Jul 10, 2023 · Jun 27, 2023 · Jun 27, 2023 · Jun 27, 2023
diff --git a/configs/python/backend/backend.yaml b/configs/python/backend/backend.yaml
@@ -445,11 +445,14 @@ scanners:
           - 'image/x-ms-bmp'
           - 'bmp_file'
           - 'image/webp'
+          - 'application/pdf'
+          - 'pdf_file'
       priority: 5
       options:
         extract_text: False
         split_words: True
         tmp_directory: '/dev/shm/'
+        pdf_to_png: True
   'ScanOle':
     - positive:
         flavors:

diff --git a/src/python/strelka/scanners/scan_ocr.py b/src/python/strelka/scanners/scan_ocr.py
@@ -1,3 +1,4 @@
+import fitz
 import os
 import subprocess
 import tempfile
@@ -20,6 +21,11 @@ def scan(self, data, file, options, expire_at):
         extract_text = options.get("extract_text", False)
         split_words = options.get("split_words", True)
         tmp_directory = options.get("tmp_directory", "/tmp/")
+        pdf_to_png = options.get("pdf_to_png", False)
+
+        if pdf_to_png and "application/pdf" in file.flavors.get("mime", []):
+            doc = fitz.open(stream=data, filetype="pdf")
+            data = doc.get_page_pixmap(0).tobytes("png")
 
         with tempfile.NamedTemporaryFile(dir=tmp_directory) as tmp_data:
             tmp_data.write(data)