Text aus Bild-PDFs extrahieren: So geht’s ohne Abtippen

(C) 107er BLOG

Manchmal bekommt man ein PDF und möchte den Text daraus verwenden, aber die ganze Seite ist ein Bild und der Text kann dadurch nicht ausgewählt werden. So kommt man an den Text ohne Abtippen!

Es ist ein bekanntes Ärgernis: Man erhält ein PDF, möchte Text daraus kopieren, doch die Seiten bestehen lediglich aus Bildern. Das manuelle Abtippen ist zeitaufwendig und mühsam. Glücklicherweise gibt es mittlerweile effiziente Lösungen, um dieses Problem zu umgehen.

Moderne Technologien zur Texterkennung (OCR)

Normalerweise gibt es dafür Programme, die aus diesen Bilder den Text heraus holen, sogenannte OCR Programme. Herkömmliche OCR-Programme (Optical Character Recognition) sind oft kostenpflichtig und erfordern eine Installation.

  • Online-OCR-Dienste:
    Zahlreiche Online-Tools bieten kostenlose oder kostenpflichtige OCR-Funktionen.
    Beispiele: Adobe Acrobat Online, PDF2Go, iLovePDF, OnlineOCR.net.
    Achten Sie bei der Nutzung von Online-Diensten auf den Datenschutz.
  • Desktop-OCR-Software:
    Für häufige OCR-Aufgaben sind Programme wie Adobe Acrobat Pro oder ABBYY FineReader empfehlenswert.

Doch dank neuer Technologien stehen inzwischen weitere Alternativen zur Verfügung, wovon eine schon auf vielen Computern installiert ist!

Text extrahieren mit Hilfe von KI

Als exemplarisches Beispiel habe ich hier Gemini von Google verwendet. Einfach das PDF auf den Text „Gemini fragen“ ziehen, und danach den Text „kannst du mir den Text aus dem PDF extrahieren?“ eingeben. Dann startet Gemini die Analyse und extrahiert den Text. Gemini versucht auch handschriftliche Wörter und Notizen in Text umzuwandeln.

Auch wenn die Handschrifterkennung nicht zu 100% passt, kann es doch eine sehr große Hilfe sein, wenn schon ein großer Teil vorhanden ist.

Chrome PDF Viewer extrahiert Text

Der Google Chrome Browser verfügt über eine integrierte Funktion zur Texterkennung in PDFs. Beim Öffnen eines Bild-PDFs erscheint ein Hinweis  „Text wird aus PDF extrahiert…“

Anschließend können Sie den Text, einschließlich handschriftlicher Notizen, auswählen und kopieren.

Tipps

Wenn standardmäßig ein anderes Programm für das Anzeigen von PDFs ausgewählt ist, dann besteht die Möglichkeit über

  • rechte Maustaste über PDF Icon
  • Öffnen mit
  • Google Chrome

Ein- und Ausschalten ist derzeit noch nicht sehr komfortabel, aber es geht über „flags“.

Fazit

Dank moderner Technologien ist das Extrahieren von Text aus Bild-PDFs einfacher denn je. Ob mit KI-gestützten Lösungen oder dem Chrome PDF Viewer – das manuelle Abtippen gehört der Vergangenheit an.

 

 

Einen Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht.


*


19 − 10 =