বেহুদা লগ: বিজয় ফন্টে PDF বনাম Google OCR

ধারাবাহিক:  বেহুদা লগ —এর একটি পর্ব

  • বেহুদা লগ: বিজয় ফন্টে PDF বনাম Google OCR

মাঝে মাঝেই তথাকথিত বিভিন্ন ‘আকাম’ (?) করি। কখনও ফল পাই, কখনও পাইনা। এই ‘বেহুদা লগ’-গুলো তারই মীমাংসিত কিংবা অমীমাংসিত নথি। যেখানে সমস্যা সমাধানকল্পে আমার কাজের ধারা এবং কাঙ্ক্ষিত ফলাফল কিংবা হাল ছেড়ে দেয়ার মূহূর্ত পর্যন্ত পাওয়া তথ্য নথিবদ্ধ করা হয়েছে। এই তথ্যগুলো হয়তো ভবিষ্যত কোনো গবেষকের কাজে লাগবে – এই আশায় প্রকাশ করা হয়েছে।

বিজয়ের ফন্টে (ASCII, ANSI) লেখা PDF ফাইল Google Docs OCR ব্যবহার করে বাংলা ‘অক্ষরে’ রূপান্তর করতে গিয়ে বিচিত্র অভিজ্ঞতা হয়েছে:

সরকারি একটা কাজের জন্য আমাদেরকে বাংলাদেশ শ্রম বিধিমালাটা ঘাঁটাঘাটি করতে হচ্ছে। আইটি’র মানুষজন এখন আর পড়ে পড়ে কিংবা সূচিপত্র ঘেঁটে কিছু খুঁজে না, কথায় কথায় ‘সার্চ’ করে। সেই সহজায়নে উদ্যোগী হয়ে চিন্তা করলাম, পিডিএফ-টা গুগল ড্রাইভে আপ করে কনভার্ট করে নিলেই তো হলো, অন্তত কিছুটা হলেও তো সার্চ করে প্রয়োজনীয় বিষয়গুলো পাওয়া যাবে।

গুগল ড্রাইভে আপ করলাম, গুগল ডক-এ কনভার্ট করলাম, এবং যা পেলাম:
evsjv‡`k †M‡RU

বুঝতেই পারছেন, এটা আসকি-তে লেখা বিজয়ের টেক্সট। বিজয়ের একটা MJ ফন্ট বসিয়ে দিতেই সব ফকফকা।
কিন্তু এটা তো চাইনি। গুগল ওসিআর কেন আমাকে বিজয়ে কনভার্ট করে দিলো? কেন ইউনিকোডে না?

কারণ হলো, পিডিএফ-এ বিজয়ের বাংলা ফন্টটা এম্বেড করে দেয়া। এবং গুগল ওসিআর, কনভার্সনের সময় ফন্টের হিন্টটা কাজে লাগিয়েছে। ফলে সে ক্যারেক্টার কোড কাজে লাগিয়েছে – অক্ষরগুলোকে ছবি আকারে পড়েনি।

যেই ভাবা সেই কাজ। পুরো পিডিএফটাকে ছবিতে বদলে নিতে হবে, তাহলে ফন্টের হিন্ট হারিয়ে অক্ষরগুলো ‘ছবি’ হয়ে যাবে। অনলাইনে এমন ভুরিভুরি সার্ভিস আছে, একটা বিনামূল্য সার্ভিস ব্যবহার করে ৩৪৩ পৃষ্ঠার PDF-টার ৩৪৩টা ছবি তৈরি করে নিলাম। এবারে গুগল ওসিআর দিয়ে ‘কুট’ করে কনভার্ট করে ফেলা যাচ্ছে। কিন্তু তাতে আমার উদ্দেশ্য হাসিল হচ্ছে না। কারণ ১টা ছবি = ১টা গুগল ডক = ১টা এমএস ডকএক্স।
সুতরাং ছবিগুলোকে একত্র করে আবার আরেকটা পিডিএফ বানিয়ে নিতে হবে।

সহকর্মী শেলী ভাইয়ের সাথে যোগাযোগ করলাম। তিনি জানালেন, ফটোশপ ব্রিজ দিয়ে কাজটা অনায়াসে করা যায়। খুললাম ফটোশপ সিএস৬ এবং কুল্লু খালাস। কিন্তু একি, সব দেখি হরাইযন্টাল হয়ে গেলো। সেটআপে ভুল করেছি। আবার সময় নিয়ে ৯০ ডিগ্রী রোটেট করে পোর্টেট মোডে ছবিগুলো থেকে পিডিএফ বানিয়ে নিলাম।

খুশি মনে পিডিএফটা গুগল ড্রাইভে আপ করে কনভার্ট করতে দিলাম… ক্র্যাশ!
বলে কি,

দুঃখিত, পাসওয়ার্ড প্রোটেক্টেড ফাইল কনভার্ট করতে পারি না

অথচ নতুন বানানো পিডিএফটা পাসওয়ার্ড প্রোটেক্টেড না মোটেও, অনায়াসে পড়তে পারছি একাধিক ক্লায়েন্ট থেকে।

জানলাম, Windows 10 কাজে লাগিয়ে অনায়াসে ছবি থেকে পিডিএফ জেনারেট করা যায়। অফিসের Win10 একটা পিসিতে কাজটা করে দিলেন শেলী ভাই। এবার তো হবে…
আপ করলাম, কনভার্ট দিলাম, ক্র্যাশ!
একই বার্তা: পাসওয়ার্ড প্রোটেক্টেড…

ব্যাটা, পারবি না, বলে দিলেই হয়, বেহুদা কথা বলিস ক্যারে?

মেজাজ চরম খারাপ করে এই বেহুদা (!) কাজে ক্ষান্ত দিলাম।
কেউ সফল হলে পদ্ধতিসহ শেয়ার করলে উপকার হবে এবং আখেরাতে অনেক নেকী হাসিল হবে…

সংযুক্তি

  • বাংলাদেশ শ্রম বিধিমালা ২০১৫-এর পিডিএফ সংস্করণ (সংযোগ: https://goo.gl/oPLVj4)

মন্তব্য করুন