articles utiles

Comment créer une archive interrogeable de fichiers PDF?

Dans la rubrique des conseils techniques de cette semaine sur Goldavelez.com - répondez à vos questions, nous aidons un lecteur qui a trop de documents importants qui doivent faire une transition magique vers le monde numérique. Au moins, cela semble beaucoup plus excitant que la «Reconnaissance optique de caractères», qui ne déroule pas vraiment la langue.

Le lecteur de Goldavelez.com, Phil, écrit:

Merci pour les bons mots, Phil! Je suis heureux d'aider - pas à cause de la flatterie, mais parce que votre question est une question à laquelle beaucoup de lecteurs ont probablement pensé (y compris moi-même). J'ai tout un tas de choses que j'aimerais passer du monde physique au monde numérique, pour que je puisse ensuite faire parvenir à Marie Kondo les documents et les photos d'origine dans l'oubli. Les piles de papier ne m'apportent pas de joie.

Vous avez quelques options que vous pouvez essayer. Je commencerais par une évidence: Google. En supposant que vous créiez des fichiers PDF, téléchargez vos fichiers sur Google Drive. Cliquez avec le bouton droit de la souris sur un PDF individuel, passez votre souris sur «Ouvrir avec» et sélectionnez «Google Documents». Google tentera alors d'exécuter une OCR sur votre PDF et vous pourrez enregistrer le fichier obtenu sous forme de document. Vous pouvez ensuite rechercher dans ce document (et dans tout autre document converti) via Drive lui-même.

Plus j'y pense, cependant, cette solution semble un peu peu élégante compte tenu du nombre de fichiers sur lesquels vous devez travailler. Au lieu de cela, je pourrais essayer un logiciel comme TesseractStudio.Net, ou juste Tesseract OCR, si vous ne craignez pas la ligne de commande. Vous devriez pouvoir l'utiliser pour créer des données OCR à partir de vos fichiers, puis les rechercher directement via Windows ou macOS. OCRmyPDF est une autre option similaire à Tesseract OCR, mais, encore une fois, vous utiliserez des commandes dactylographiées pour appliquer l’OCR à vos fichiers. Il n'y a pas d'interface graphique ni de support Windows (direct).

Il y a aussi Paperwork, un outil de catalogage de documents open source fourni avec OCR, que je considérerais certainement, étant donné qu'il est conçu pour être un logiciel tout-en-un destiné à l'archivage, au tri et à la recherche de documents. Cela ressemble à ce que vous recherchez peut-être.

Je n'ai pas utilisé PDF-XChange Viewer, mais d'autres l'ont recommandé en option. La version gratuite laissera tomber des filigranes dans vos PDF, mais elle peut créer des PDF à partir d’images et, si je ne me trompe pas, ajouter de l’OCR à tous vos PDF existants. Cela vaut la peine d’être exploré, même si ce n’est pas la solution idéale (gratuite). De même, FreeOCR peut prendre vos images ou vos PDF, appliquer l’OCR et exporter les résultats sous forme de fichiers de texte brut ou de documents Word. Si cela ne vous dérange pas de parcourir vos archives de cette façon, c'est une option.

En ce qui concerne les solutions payantes, il y a toujours Adobe Acrobat Pro ou Foxit PhantomPDF . Les deux vous permettront d'ajouter l'OCR aux fichiers PDF et vous devriez pouvoir traiter tous vos documents comme un gros lot (ou créer un script qui le fait avec le contenu d'un dossier). Vous pourriez même être en mesure de faire tout cela lors des essais gratuits des applications, si elles ne limitent pas leurs capacités de ROC. J'ai également vu d'autres personnes aux prises avec votre problème particulier trouver du succès en utilisant une application telle que PDF OCR, qui pourrait être une alternative moins chère.

C'est tout ce que je peux penser à mon esprit (et avec un peu de recherche). Espérons qu'une de ces solutions fonctionne pour vous, sans vous coûter une petite fortune. Écris-moi et fais-moi savoir quelle application a fonctionné le mieux pour toi!

Tech 911 Avez-vous une question technique vous empêchant de dormir la nuit? Nous aimerions y répondre! Email avec "Tech 911" dans la ligne d'objet.