Dokument

Meetodid teksti ekstraktimiseks PDF-failist

Võib tulla aeg, mil peate PDF-failist teksti välja võtma. Võib-olla soovite selle kopeerida ja kleepida tekstitöötlusdokumenti või arhiveerida teksti edaspidiseks kasutamiseks.

Siiski võib see mõnikord olla masendav protsess. Enamik PDF-faile on mõeldud ekraanil vaatamiseks või sellisel kujul välja printimiseks. Kui proovite valida ainult soovitud teksti, siis valitakse sageli liiga palju või liiga vähe. Ja kui soovite teksti salvestada erineva vormina, ei saa te seda teha otse PDF-vaaturist nagu Edge.

Õnneks on PDF-failist teksti eraldamiseks ja protsessi palju lihtsamaks muutmiseks mõned meetodid.

Kuidas PDF-ist teksti ekstraktida?

  1. Kasutage Adobe Acrobat Pro

Tasuline programm Adobe Acrobat Pro on üks populaarsemaid saadaolevaid PDF-lugejaid ja sellel on ka mõned võimsad teksti ekstraheerimise funktsioonid. Lihtsalt avage PDF-fail Adobe Acrobatis ja minge jaotisse "Tööriistad" > "Ekspordi PDF". PDF-i eksportimiseks on mitu vormingut, sealhulgas Word, Rich Text, Excel, PowerPoint ja Image.

Samuti saate lisada mitu PDF-faili ja eksportida need kõik korraga, et te ei peaks protsessi ükshaaval läbima.

Konkreetse fraasi või tekstiosa (nt andmetabeli) eraldamiseks PDF-ist valige lihtsalt ala ja seejärel paremklõpsake selle eksportimiseks.

Teise võimalusena võite kasutada PDFelement kui Adobe Acrobat pole teie asi.

  1. Kasutage veebipõhist PDF-muundurit

Kui te ei soovi oma arvutisse tarkvara installida, on mitmeid veebipõhiseid PDF-muundureid, mis aitavad teil PDF-failist teksti eraldada. Otsige üles üks, mis toetab vormingut, milles soovite selle eksportida, ja laadige oma PDF üles.

Kuigi mõned neist teenustest on tasuta kasutatavad, on enamikul neist mingid piirangud, nagu failisuuruse piirang, leheküljepiirang või vesimärk väljunddokumendil.

  1. Kasutage Google Docsi

Google Docsi saab kasutada ka PDF-failist teksti eraldamiseks. Selle ülesande täitmiseks laadige PDF-fail lihtsalt üles oma Google Drive'i ja avage see Google Docsiga.

Kui PDF on avatud, minge jaotisse „Fail” > „Laadi alla” ja valige üks sihtvormingutest. Fail laaditakse alla teie arvutisse, kus saate seejärel oma südameasjaks muuta.

Kuidas saan skannitud PDF-failist teksti eraldada?

Kui proovite skannitud PDF-failist teksti eraldada, on see keerulisem, kuna PDF-fail on sisuliselt teksti kujutis. Sel juhul peate teksti eraldamiseks kasutama optilise märgituvastuse (OCR) tööriista.

Üks võimas OCR-programm on Icecream PDF Converter . See võib muuta skannitud PDF-failid redigeeritavateks tekstifailideks vaid mõne klõpsuga.

Pildi PDF-ist teksti eraldamiseks kasutage Icecream PDF Converterit

See toimib järgmiselt.

  1. Installige ja avage oma Windowsi arvutisse Icecream PDF Converter (Maci jaoks kasutage Sama PDF Converter OCR ).
  2. Klõpsake "PDF-ist" ja valige skannitud PDF, mida soovite teisendada.
  3. Valige uue faili väljundvorming ja klõpsake nuppu "Teisenda".

Kui teisendamine on lõppenud, salvestatakse fail teie arvutisse.

Icecream PDF Converter toetab enam kui 12 OCR-keelt ja saab teisendada PDF-faile DOC-, DOCX-, HTML-, ODT-, RTF-, TXT- jne.

Varem mainitud Google Docsil on ka OCR-funktsioon, mida saab kasutada skannitud PDF-ide teisendamiseks redigeeritavateks tekstidokumentideks. Kuigi see pole nii kõikehõlmav kui Icecream PDF Converter või Cisdem PDF Converter OCR, saab see enamikul juhtudel siiski töö tehtud.

Kuidas kaitstud PDF-ist teksti ekstraktida?

Mõned PDF-failid on lukustatud redigeerimisparooliga või on rakendatud muid turvameetmeid, mis takistavad teil teksti väljavõtmist. Kui teil on vaja kaitstud PDF-failist teksti eraldada, peate kasutama PDF-i avamisprogrammi, näiteks Passper PDF-i jaoks .

Passper for PDF on võimas programm, mis võib eemaldada PDF-failidelt redigeerimisparoolid ja muud turvapiirangud, nagu printimispiirangud, kopeerimispiirangud ja palju muud. Teisendusprotsess on lihtne ja kiire, seega ei pea te selle tegemiseks olema arvutinõustaja.

Lihtsalt laadige tarkvara alla ja installige oma arvutisse, seejärel avage turvaline PDF-fail rakenduses Passper for PDF.

Eemaldage PDF-i piirangud Passperi PDF-i jaoks

Klõpsake nuppu "Eemalda piirangud" ja programm hakkab PDF-faililt kaitset eemaldama. Kui see on tehtud, saate avada PDF-faili Edge'is, PDFelementis, Google Docsis või mõnes muus PDF-i vaatamise programmis ja teksti ekstraktida.

Kaitstud PDF muutub kaitsmata, nii et saate PDF-ist teksti vabalt välja tõmmata

PDF-failist teksti eraldamine ei pea olema keeruline protsess. Õigete tööriistade abil saate hõlpsalt teksti ekstraheerida isegi kõige kaitstud PDF-failidest.

Foto Susannast

Susanna

Susanna on Filelemi sisuhaldur ja kirjanik. Ta on olnud aastaid kogenud toimetaja ja raamatuküljendaja ning huvitatud erinevate produktiivsustarkvarade proovimisest ja testimisest. Ta on ka suur Kindle'i fänn, kes on Kindle Touchi kasutanud peaaegu 7 aastat ja kandnud Kindle'i peaaegu kõikjal, kuhu ta läheb. Mitte kaua aega tagasi oli seadme eluiga lõppemas, nii et Susanna ostis õnnelikult Kindle Oasis.

Seotud artiklid

Tagasi üles nupp