užitečné články

Jak vytvořím prohledávatelný archiv PDF?

V tomto týdenním sloupci s technickými radami na webu Goldavelez.com - vaše otázky přicházejí, lidi! - pomáháme čtenáři, který má příliš mnoho důležitých článků, které potřebují k magickému přechodu do digitální říše. Přinejmenším to zní mnohem vzrušivěji než „Optické rozpoznávání znaků“, což ve skutečnosti jazyk nezavrhne.

Čtečka Goldavelez.com Phil píše:

Díky za laskavá slova, Phili! Jsem rád, že vám mohu pomoci - ne kvůli lichocení, ale proto, že vaše otázka je taková, o které si hodně čtenářů pravděpodobně myslelo (včetně mě). Mám celou hromadu věcí, které bych ráda přesunula z fyzického světa do digitálního světa, takže můžu Marie Kondo původní dokumenty a fotografie zapomenout. Stohy papíru mi nepřinášejí radost.

Můžete vyzkoušet několik možností. Začal bych zřejmým: Google. Za předpokladu, že vytváříte soubory PDF, nahrajte své soubory na Disk Google. Klepněte pravým tlačítkem myši na jednotlivé soubory PDF, umístěte kurzor myši na „Otevřít pomocí“ a vyberte „Dokumenty Google“. Google se poté pokusí spustit ve vašem PDF nějaký OCR a výsledný soubor byste měli mít možnost uložit jako dokument. Tento dokument pak můžete prohledávat (a všechny ostatní konvertované) přes samotný Disk.

Čím více o tom však přemýšlím, zdá se, že toto řešení se zdá být trochu nevhodné vzhledem k počtu souborů, se kterými musíte pracovat. Místo toho bych mohl vyzkoušet kus softwaru, jako je TesseractStudio.Net - nebo jen Tesseract OCR, pokud se nebojíte příkazového řádku. Měli byste být schopni použít k vytváření dat OCR ze svých souborů a poté je můžete vyhledat přímo prostřednictvím Windows nebo MacOS. OCRmyPDF je další možnost, která se podobá OCR Tesseract, ale znovu si budete hrát s typickými příkazy pro použití OCR na vaše soubory. Neexistuje GUI ani (přímá) podpora Windows.

K dispozici je také papírování, nástroj pro katalogizaci dokumentů s otevřeným zdrojovým kódem, který je dodáván se zabudovaným OCR, což bych určitě zvážil vzhledem k tomu, že je navržen jako software typu vše v jednom pro archivaci, třídění a vyhledávání dokumentů. To zní, jako by to mohlo být právě to, co hledáte.

Nepoužil jsem prohlížeč PDF-XChange Viewer, ale jiní jej doporučili jako možnost. Bezplatná verze přetáhne vodoznaky do vašich PDF, ale může vytvářet PDF z obrázků a pokud mám pravdu, přidejte OCR k těmto existujícím PDF, které máte. Stojí za to prozkoumat, i když to není ideální (bezplatné) řešení. Podobně může FreeOCR pořizovat vaše obrázky nebo PDF, používat OCR a exportovat výsledky jako prosté textové soubory nebo dokumenty Word. Pokud vám to nevadí vyhledávání v archivech tímto způsobem, je to možnost.

Pokud jde o placená řešení, vždy existuje Adobe Acrobat Pro nebo Foxit PhantomPDF . Obě vám umožní přidat OCR do PDF a měli byste být schopni zpracovat všechny své dokumenty jako velkou dávku (nebo vytvořit skript, který to provede s obsahem složek v hodnotě). Možná to budete moci zvládnout i během bezplatných testů aplikací, pokud nebudou omezovat možnosti OCR. Také jsem viděl další s vaším konkrétním problémem najít úspěch pomocí aplikace, jako je PDF OCR, což by mohla být levnější alternativa.

To je všechno, na co si vzpomenu z hlavy (a s trochou výzkumu). Doufejme, že jedno z těchto řešení pro vás přijde - aniž by vás to stálo malé jmění. Napište nám a dejte mi vědět, která aplikace pro vás fungovala nejlépe!

Tech 911 Máte technickou otázku, která vás udržuje v noci? Rádi bychom na to odpověděli! E-mail - s „Tech 911“ v řádku předmětu.