كيفية استخراج النص والبيانات والصور من ملف PDF
How to extract text, data and images from a PDF file
كيفية استخراج النص والبيانات والصور من ملف PDF: هل تريد أن تتعرف على كيفية استخراج البيانات والصور من مستند PDF لإعادة استخدامها، في هذه المقالة، سوف نشرح كيفية استخراج المعلومات من ملف PDF مع دليل مفصل، تابع معنا.
كيفية استخراج النص والبيانات والصور من ملف PDF
يتم حفظ العديد من التقارير والأوراق البحثية على هيئة ملفات PDF، يعد تصفح مئات الصفحات يدويًا للعثور على المعلومات المهمة أمرًا شاقًا للغاية ويستغرق وقتًا طويلاً، نعرض هنا بعض الطرق التي ستساعدك في استخراج البيانات من ملف PDF.
استخراج نص من صورة PDF بواسطة PDFgear
PDFgear هو محرر PDF مجاني يعمل بالذكاء الاصطناعي، ويقدم الكثير من أدوات تحرير PDF المتقدمة التي تسمح للمستخدمين باستبدال وإزالة وإضافة أي نص في ملف PDF.
وبفضل ميزة التعرف الضوئي على الحروف المضمنة فيه، يمكن لـ PDFgear مساعدتك في استخراج النص من ملفات PDF المستندة إلى الصور، حتى لو لم تتمكن من تحديده، وهو يعمل بأكثر من 10 لغات يمكنك أيضًا تحديد أي جزء من صفحة PDF لاستخراج النص باستخدام خاصية التعرف الضوئي على الحروف.
الخطوة 1. افتح مستندًا ممسوحًا ضوئيًا
افتح تطبيق PDFgear على حاسوبك، إذا لم تكن قد قمت بتثبيته بعد، فقم بتنزيل وتثبيت تطبيق PDFgear من موقعه الرسمي.
افتح ملف PDF باستخدام PDFgear
بمجرد تشغيل PDFgear، انقر على خيار “فتح ملف” في الواجهة الرئيسية، تصفح وحدد ملف PDF الذي يحتوي على صورة ممسوحة ضوئيًا لفتحه في PDFgear.
الخطوة 2. تفعيل ميزة التعرف الضوئي على الحروف
ابحث عن ميزة التعرف الضوئي على الحروف (OCR)، والتي توجد عادةً في علامة التبويب “الصفحة الرئيسية”.
افتح ميزة التعرف الضوئي على الحروف في PDFgear
انقر على ميزة “OCR” لتفعيل خاصية التعرف الضوئي على الحروف لتفعيل وظيفة التعرف على النصوص.
الخطوة 3. استخراج النص من الصورة
باستخدام الماوس، انقر واسحب لتمييز/تحديد مناطق النص داخل صورة PDF التي تريد استخراج النص منها.
حرر زر الفأرة بمجرد تحديد النص المطلوب. يجب تحديد النص المحدد أو تمييزه.
استخراج نص من صورة PDF
انقر على الزر “تم” أو خيار مماثل لتأكيد اختيارك للنص والمتابعة
الخطوة 4. نسخ النص المستخرج أو حفظه
بعد تحديد النص وتكوين إعدادات التعرّف الضوئي على الحروف (إن أمكن)، اختر الطريقة التي تريد التعامل بها مع النص المستخرج.
نسخ النص المستخرج أو حفظه
نسخ إلى الحافظة: انقر على زر “نسخ” لنسخ النص المستخرج إلى الحافظة، يمكنك بعد ذلك لصقه في محرر نصوص أو أي تطبيق آخر.
حفظ كملف نصي (TXT): إذا كنت تفضل حفظ النص المستخرج كملف منفصل، انقر على زر “حفظ”، حدد اسم الملف والموقع الذي تريد حفظ الملف النصي فيه، ثم، انقر فوق “حفظ” لحفظ النص المستخرج كملف TXT.
استخراج بيانات الفاتورة من ملف PDF عن طريق أداة Tabula
عند إدخال البيانات يدويًا في برنامج قاعدة بيانات الفواتير، يستغرق الأمر الكثير من الوقت، وقد تحدث بعض الأخطاء أثناء عملية إدخال البيانات.
Tabula هي أداة مصممة لاستخراج البيانات تلقائيًا من ملفات PDF باستخدام تقنية الذكاء الاصطناعي والتعرف الضوئي على الحروف (OCR)، وهي مصممة خصيصًا للتعامل مع الجداول داخل ملفات PDF، مما يجعلها خيارًا جيدًا لاستخراج البيانات المنظمة مثل تفاصيل الفواتير.
الخطوة 1. تحميل وتثبيت Tabula
انتقل إلى موقع Tabula على الويب وقم بتنزيل إصدار Tabula المتوافق مع نظام التشغيل الخاص بك (ويندوز، أو ماك، أو لينكس).
تنزيل وتثبيت Tabula
اتبع التعليمات التي تظهر على الشاشة لتثبيت Tabula على حاسوبك.
الخطوة 2. قم بتحميل ملف PDF الخاص بالفاتورة في Tabula
قم بتشغيل التطبيق: افتح Tabula. يتم تشغيله عادةً في متصفح الويب الخاص بك كخادم محلي.
انقر فوق تصفح في Tabula
ابحث عن خيار “تصفح” في الصفحة الرئيسية لـ Tabula، انقر فوق هذا الرمز، وابحث عن ملف فاتورة PDF الخاص بك، وقم بتحميله.
الخطوة 3. حدد البيانات المراد استخراجها
بمجرد تحميل ملف PDF الخاص بك، سيُظهر لك Tabula ما بداخله، ما عليك سوى استخدام الماوس لرسم مربع حول الجدول أو المعلومات التي تريدها من الفاتورة، إذا كانت الفاتورة في أكثر من صفحة، يمكنك اختيار ما تريده من كل صفحة.
بمجرد اختيارك، يمكنك التحقق من صحة المعلومات، يتيح لك Tabula الحصول على البيانات بطرق مختلفة، مثل CSV أو Excel، انقر على زر “استخراج البيانات” واختر التنسيق الذي تريده.
المعاينة والتصدير في Tabula
الخطوة 4. احفظ البيانات أو صدِّرها
بمجرد الاستخراج، يمكنك حفظ البيانات أو تصديرها إلى حاسوبك. إذا اخترت ملف CSV، يمكنك فتح الملف في أي تطبيق جداول بيانات مثل Microsoft Excel أو جداول بيانات Google لمزيد من المعالجة.
تعيين تنسيق التصدير
استخراج البيانات الوصفية من ملف PDF عن طريق Adobe Acrobat
تشير البيانات الوصفية لملف PDF إلى المعلومات المخزنة داخل ملف PDF والتي توضح تفاصيل المستند، مثل عنوانه ومؤلفه وموضوعه وكلماته الرئيسية.
يتيح لك Adobe Acrobat عرض البيانات الوصفية لملف PDF وأحيانًا تحريرها، هذه هي أبسط طريقة للمستخدمين للوصول إلى البيانات الوصفية بدون برمجة.
فيما يلي بعض الخطوات لاستخراج البيانات الوصفية لملف PDF:
الخطوة 1. افتح ملف PDF في Adobe Acrobat.
الخطوة 2. قم بالوصول إلى خصائص المستند عبر قائمة ملف.
افتح خصائص المستند في Adobe
الخطوة 3. اعرض البيانات الوصفية في علامة التبويب الوصف، حيث يمكنك رؤية حقول مثل العنوان والمؤلف والموضوع والكلمات الرئيسية.
عرض البيانات الوصفية لملف PDF
الخطوة 4. استخرج المعلومات المطلوبة عن طريق تحديد النص ونسخه.
احفظ البيانات الوصفية المستخرجة في مستند نصي أو تطبيق ملاحظات للرجوع إليها في المستقبل.
استخراج الصور من ملف PDF باستخدام PDF Candy
الصور المضمنة في ملفات PDF يمكنك استخراجها لاستخدامها في مكان آخر، سواء كنت بحاجة إلى صورة واحدة أو صور متعددة من مستند، يمكنك استخدام أدوات برمجية لاستخراجها بسهولة.
باستخدام مستخرج صور PDF، يتم استخراج الصور بتنسيقها الأصلي وجودتها الأصلية، ولا توجد علامات مائية مضافة إلى الصور المستخرجة.
اتبع هذه الخطوات لاستخراج الصور لملف PDF بشكل مجمّع:
الخطوة 1. افتح متصفح الويب الخاص بك وانتقل إلى صفحة استخراج الصور في PDF Candy.
الخطوة 2. يمكنك تحميل ملف PDF الذي تريد استخراج الصور منه بعدة طرق:
ما عليك سوى سحب ملف PDF من جهاز الكمبيوتر الخاص بك وإفلاته في المنطقة المخصصة على صفحة الويب.
إضافة ملف PDF إلى مستخرج الصور عبر الإنترنت
انقر على زر “إضافة ملف” لفتح مربع حوار الملف، ثم انتقل إلى ملف PDF الذي ترغب في استخدامه وحدده.
إذا كان ملف PDF الخاص بك مخزّنًا في Google Drive أو Dropbox، فيمكنك تحميله مباشرةً من هذه الخدمات بالنقر على الأيقونات المعنية.
الخطوة 3. بمجرد تحميل ملف PDF، سيبدأ PDF Candy تلقائيًا عملية استخراج الصور من مستند PDF، ليس عليك القيام بأي شيء خلال هذه الخطوة، فالأداة تتولى كل شيء.
الخطوة 4. بعد اكتمال عملية الاستخراج، ستزودك أداة PDF Candy بأرشيف مضغوط يحتوي على جميع الصور المستخرجة من ملف PDF.
تنزيل الصور المستخرجة عبر الإنترنت
انقر على زر “تنزيل” لحفظ ملف ZIP على جهاز الكمبيوتر الخاص بك.
إذا كنت تفضل ذلك، يمكنك أيضًا حفظ صور فردية عن طريق معاينتها واختيار صور معينة لتنزيلها.
خاتمة
تحدثنا في هذه المقالة عن كيفية استخراج النص والبيانات والصور من ملف PDF، تتضمن ملفات PDF نصوصًا وبيانات وصورًا قيّمة يمكن استخراجها باستخدام طرق مختلفة، تتضمن هذه المقالة مجموعة من الطرق لاستخراج المعلومات من ملفات PDF لاستخدامها في المستقبل.