Dokument

Metódy extrahovania textu zo súboru PDF

Môže prísť čas, keď budete musieť extrahovať text zo súboru PDF. Možno ho chcete skopírovať a vložiť do dokumentu na spracovanie textu, alebo možno chcete archivovať text pre budúce použitie.

Niekedy to však môže byť frustrujúci proces. Väčšina súborov PDF je určená na zobrazenie na obrazovke alebo na vytlačenie tak, ako je. Ak sa pokúsite vybrať len požadovaný text, často sa vyberie príliš veľa alebo príliš málo. A ak chcete uložiť text ako iný formulár, nemôžete to urobiť priamo z prehliadača PDF ako Edge.

Našťastie existuje niekoľko metód, ktoré môžete použiť na extrahovanie textu zo súboru PDF a značne zjednodušiť proces.

Ako extrahovať text z PDF?

  1. Použite Adobe Acrobat Pro

Adobe Acrobat Pro, platený program, je jednou z najpopulárnejších dostupných čítačiek PDF a má tiež niektoré výkonné funkcie extrakcie textu. Stačí otvoriť súbor PDF v aplikácii Adobe Acrobat a prejsť na „Nástroje“ > „Exportovať PDF“. Existuje niekoľko formátov, ktoré si môžete vybrať na exportovanie PDF, vrátane Word, Rich Text, Excel, PowerPoint a Image.

Môžete tiež pridať viacero súborov PDF a exportovať ich všetky naraz, takže nemusíte prechádzať procesom jeden po druhom.

Ak chcete extrahovať konkrétnu frázu alebo časť textu (napríklad tabuľku s údajmi) z PDF, jednoducho vyberte oblasť a potom ju exportujte kliknutím pravým tlačidlom myši.

Prípadne môžete využiť PDFelement ak Adobe Acrobat nie je vaša vec.

  1. Použite online prevodník PDF

Ak si do počítača nechcete inštalovať žiadny softvér, existuje množstvo online prevodníkov PDF, ktoré vám pomôžu extrahovať text zo súboru PDF. Nájdite ten, ktorý podporuje formát, v ktorom ho chcete exportovať, a nahrajte svoj PDF.

Aj keď niektoré z týchto služieb je možné používať zadarmo, väčšina z nich má určité obmedzenia, ako napríklad obmedzenie veľkosti súboru, obmedzenie strany alebo vodoznak na výstupnom dokumente.

  1. Použite službu Dokumenty Google

Dokumenty Google možno použiť aj na extrahovanie textu z PDF. Ak chcete vykonať túto úlohu, jednoducho nahrajte súbor PDF na svoj Disk Google a potom ho otvorte v Dokumentoch Google.

Po otvorení PDF prejdite na „Súbor“ > „Stiahnuť“ a vyberte jeden z cieľových formátov. Súbor sa stiahne do vášho počítača, kde ho potom môžete upravovať podľa svojich predstáv.

Ako môžem extrahovať text z naskenovaného PDF?

Ak sa pokúšate extrahovať text z naskenovaného PDF, bude to zložitejšie, pretože súbor PDF je v podstate obrazom textu. V tomto prípade budete musieť na extrahovanie textu použiť nástroj optického rozpoznávania znakov (OCR).

Jeden výkonný OCR program je Icecream PDF Converter . Dokáže zmeniť naskenované súbory PDF na upraviteľné textové súbory pomocou niekoľkých kliknutí.

Použite Icecream PDF Converter na extrahovanie textu z obrázkového PDF

Funguje to takto:

  1. Nainštalujte a otvorte Icecream PDF Converter na počítači so systémom Windows (pre Mac použite Rovnaký prevodník PDF OCR ).
  2. Kliknite na „Z PDF“ a vyberte naskenovaný súbor PDF, ktorý chcete previesť.
  3. Vyberte výstupný formát pre nový súbor a kliknite na „Konvertovať“.

Po dokončení konverzie sa súbor uloží do vášho počítača.

Icecream PDF Converter podporuje viac ako 12 jazykov OCR a dokáže previesť PDF do DOC, DOCX, HTML, ODT, RTF, TXT atď.

Dokumenty Google, ktoré sme už spomenuli, majú tiež funkciu OCR, ktorú možno použiť na konverziu naskenovaných súborov PDF na upraviteľné textové dokumenty. Aj keď to nie je také komplexné ako Icecream PDF Converter alebo Cisdem PDF Converter OCR, vo väčšine prípadov to zvládne.

Ako extrahovať text z chráneného PDF?

Niektoré súbory PDF sú uzamknuté heslom na úpravu alebo majú zavedené iné bezpečnostné opatrenia, ktoré vám bránia v extrahovaní textu. Ak potrebujete extrahovať text z chráneného PDF, budete musieť použiť program na odomknutie PDF, napr Passper pre PDF .

Passper for PDF je výkonný program, ktorý dokáže zo súborov PDF odstrániť heslá na úpravu a ďalšie bezpečnostné obmedzenia, ako sú obmedzenia tlače, obmedzenia kopírovania a ďalšie. Proces prevodu je jednoduchý a rýchly, takže na to nemusíte byť počítačový mág.

Jednoducho si stiahnite a nainštalujte softvér do počítača a potom otvorte zabezpečený súbor PDF v aplikácii Passper for PDF.

Odstráňte obmedzenia PDF pomocou Passper pre PDF

Kliknite na tlačidlo „Odstrániť obmedzenia“ a program začne odstraňovať ochranu zo súboru PDF. Po dokončení budete môcť otvoriť súbor PDF v Edge, PDFelement, Google Docs alebo akomkoľvek inom programe na prezeranie PDF a extrahovať text.

Chránené PDF sa stáva nechráneným, takže môžete voľne extrahovať text z PDF

Extrahovanie textu zo súboru PDF nemusí byť náročný proces. So správnymi nástrojmi môžete ľahko extrahovať text aj z najviac chránených súborov PDF.

Fotografia Susanny

Susanna

Susanna je manažérka obsahu a spisovateľka Filelem. Už mnoho rokov je skúsenou editorkou a dizajnérkou rozloženia kníh a má záujem skúšať a testovať rôzne softvéry na zvýšenie produktivity. Je tiež veľkým fanúšikom Kindle, ktorý používa Kindle Touch už takmer 7 rokov a nosí Kindle takmer všade, kam ide. Nie je to tak dávno, čo bolo zariadenie na konci svojej životnosti, a tak si Susanna s radosťou kúpila Kindle Oasis.

Súvisiace články

Tlačidlo Späť na začiatok