روش های استخراج متن از یک فایل PDF

ممکن است زمانی فرا برسد که نیاز به استخراج متن از یک فایل PDF داشته باشید. شاید بخواهید آن را کپی و در یک سند پردازش کلمه جایگذاری کنید، یا شاید بخواهید متن را برای ارجاع بعدی بایگانی کنید.
با این حال، گاهی اوقات ممکن است یک فرآیند خسته کننده باشد. بیشتر فایلهای پیدیاف باید روی صفحه نمایش داده شوند یا همانطور که هست چاپ شوند. تلاش برای انتخاب فقط متنی که میخواهید منجر به انتخاب خیلی زیاد یا خیلی کم میشود. و اگر می خواهید متن را به شکل دیگری ذخیره کنید، نمی توانید این کار را مستقیماً از نمایشگر PDF مانند Edge انجام دهید.
خوشبختانه، چند روش وجود دارد که می توانید از آنها برای استخراج متن از یک فایل PDF استفاده کنید و فرآیند را بسیار ساده تر کنید.
چگونه متن را از PDF استخراج کنیم؟
- از Adobe Acrobat Pro استفاده کنید
Adobe Acrobat Pro، یک برنامه پولی، یکی از محبوب ترین پی دی اف خوان های موجود است و همچنین دارای برخی ویژگی های قدرتمند استخراج متن است. فقط فایل PDF را در Adobe Acrobat باز کنید و به "ابزار" > "صادر کردن PDF" بروید. فرمت های مختلفی وجود دارد که می توانید برای صادرات PDF به صورت انتخاب کنید، از جمله Word، Rich Text، Excel، PowerPoint و Image.
شما همچنین می توانید چندین فایل PDF اضافه کنید و همه آنها را به یکباره صادر کنید تا مجبور نباشید این فرآیند را یکی یکی انجام دهید.
برای استخراج یک عبارت یا بخشی خاص از متن (مانند جدول داده ها) از PDF، کافی است ناحیه مورد نظر را انتخاب کنید و سپس برای صادر کردن آن کلیک راست کنید.
به طور متناوب، می توانید استفاده کنید عنصر PDF اگر Adobe Acrobat کار شما نیست.
- از یک مبدل PDF آنلاین استفاده کنید
اگر نمی خواهید نرم افزاری را روی رایانه خود نصب کنید، تعدادی مبدل پی دی اف آنلاین وجود دارد که می تواند به شما در استخراج متن از یک فایل PDF کمک کند. یکی را پیدا کنید که از فرمتی که می خواهید آن را به عنوان صادر کنید پشتیبانی کند و PDF خود را آپلود کنید.
اگرچه استفاده از برخی از این خدمات رایگان است، اما اکثر آنها دارای محدودیت هایی مانند محدودیت اندازه فایل، محدودیت صفحه یا واترمارک در سند خروجی هستند.
- از Google Docs استفاده کنید
Google Docs همچنین می تواند برای استخراج متن از PDF استفاده شود. به سادگی فایل PDF را در Google Drive خود آپلود کنید و سپس آن را با Google Docs باز کنید تا این کار را انجام دهید.
پس از باز شدن PDF، به «File» > «Download» بروید و یکی از قالبهای مورد نظر را انتخاب کنید. فایل در رایانه شما بارگیری می شود و سپس می توانید آن را به محتوای دلخواه خود ویرایش کنید.
چگونه می توانم متن را از PDF اسکن شده استخراج کنم؟
اگر می خواهید متن را از یک PDF اسکن شده استخراج کنید، کار دشوارتر خواهد بود زیرا فایل PDF اساساً تصویری از متن است. در این مورد، باید از ابزار تشخیص کاراکتر نوری (OCR) برای استخراج متن استفاده کنید.
یکی از برنامه های قدرتمند OCR است Icecream PDF Converter . می تواند PDF های اسکن شده را تنها با چند کلیک به فایل های متنی قابل ویرایش تبدیل کند.
در اینجا نحوه کار آن آمده است:
- Icecream PDF Converter را در رایانه ویندوزی خود نصب و باز کنید (برای Mac، استفاده کنید همون PDF Converter OCR ).
- روی "از PDF" کلیک کنید و پی دی اف اسکن شده ای را که می خواهید تبدیل کنید انتخاب کنید.
- یک فرمت خروجی برای فایل جدید انتخاب کنید و روی «تبدیل» کلیک کنید.
پس از تکمیل تبدیل، فایل در رایانه شما ذخیره می شود.
Icecream PDF Converter از بیش از 12 زبان OCR پشتیبانی می کند و می تواند PDF ها را به DOC، DOCX، HTML، ODT، RTF، TXT و غیره تبدیل کند.
Google Docs که قبلاً به آن اشاره کردیم همچنین دارای یک ویژگی OCR است که می تواند برای تبدیل PDF های اسکن شده به اسناد متنی قابل ویرایش استفاده شود. اگرچه به اندازه Icecream PDF Converter یا Cisdem PDF Converter OCR جامع نیست، اما همچنان می تواند کار را در بیشتر موارد انجام دهد.
چگونه متن را از PDF محافظت شده استخراج کنیم؟
برخی از فایلهای پیدیاف با رمز ویرایش قفل شدهاند یا اقدامات امنیتی دیگری در نظر گرفته شدهاند که مانع از استخراج متن میشوند. اگر نیاز به استخراج متن از یک PDF محافظت شده دارید، باید از یک برنامه باز کردن قفل PDF مانند استفاده کنید Passper برای PDF .
Passper for PDF یک برنامه قدرتمند است که می تواند رمزهای عبور ویرایش و سایر محدودیت های امنیتی را از فایل های PDF حذف کند، مانند محدودیت های چاپ، محدودیت های کپی و موارد دیگر. فرآیند تبدیل ساده و سریع است، بنابراین برای انجام آن نیازی نیست که یک جادوگر رایانه باشید.
به سادگی نرم افزار را دانلود و بر روی رایانه شخصی خود نصب کنید، سپس فایل PDF امن را در Passper برای PDF باز کنید.
بر روی دکمه "Remove Restrictions" کلیک کنید و برنامه شروع به حذف حفاظت از فایل PDF می کند. پس از انجام این کار، میتوانید فایل PDF را در Edge، PDFelement، Google Docs یا هر برنامه مشاهده PDF دیگری باز کنید و متن را استخراج کنید.
استخراج متن از یک فایل PDF نباید فرآیند دشواری باشد. با ابزار مناسب، می توانید به راحتی متن را حتی از محافظت شده ترین فایل های PDF استخراج کنید.