বেহুদা লগ: বিজয় ফন্টে PDF বনাম Google OCR

ধারাবাহিক:  বেহুদা লগ —এর একটি পর্ব

  • বেহুদা লগ: বিজয় ফন্টে PDF বনাম Google OCR

মাঝে মাঝেই তথাকথিত বিভিন্ন ‘আকাম’ (?) করি। কখনও ফল পাই, কখনও পাইনা। এই ‘বেহুদা লগ’-গুলো তারই মীমাংসিত কিংবা অমীমাংসিত নথি। যেখানে সমস্যা সমাধানকল্পে আমার কাজের ধারা এবং কাঙ্ক্ষিত ফলাফল কিংবা হাল ছেড়ে দেয়ার মূহূর্ত পর্যন্ত পাওয়া তথ্য নথিবদ্ধ করা হয়েছে। এই তথ্যগুলো হয়তো ভবিষ্যত কোনো গবেষকের কাজে লাগবে – এই আশায় প্রকাশ করা হয়েছে।

বিজয়ের ফন্টে (ASCII, ANSI) লেখা PDF ফাইল Google Docs OCR ব্যবহার করে বাংলা ‘অক্ষরে’ রূপান্তর করতে গিয়ে বিচিত্র অভিজ্ঞতা হয়েছে:

সরকারি একটা কাজের জন্য আমাদেরকে বাংলাদেশ শ্রম বিধিমালাটা ঘাঁটাঘাটি করতে হচ্ছে। আইটি’র মানুষজন এখন আর পড়ে পড়ে কিংবা সূচিপত্র ঘেঁটে কিছু খুঁজে না, কথায় কথায় ‘সার্চ’ করে। সেই সহজায়নে উদ্যোগী হয়ে চিন্তা করলাম, পিডিএফ-টা গুগল ড্রাইভে আপ করে কনভার্ট করে নিলেই তো হলো, অন্তত কিছুটা হলেও তো সার্চ করে প্রয়োজনীয় বিষয়গুলো পাওয়া যাবে।

গুগল ড্রাইভে আপ করলাম, গুগল ডক-এ কনভার্ট করলাম, এবং যা পেলাম:
evsjv‡`k †M‡RU

বুঝতেই পারছেন, এটা আসকি-তে লেখা বিজয়ের টেক্সট। বিজয়ের একটা MJ ফন্ট বসিয়ে দিতেই সব ফকফকা।
কিন্তু এটা তো চাইনি। গুগল ওসিআর কেন আমাকে বিজয়ে কনভার্ট করে দিলো? কেন ইউনিকোডে না?

কারণ হলো, পিডিএফ-এ বিজয়ের বাংলা ফন্টটা এম্বেড করে দেয়া। এবং গুগল ওসিআর, কনভার্সনের সময় ফন্টের হিন্টটা কাজে লাগিয়েছে। ফলে সে ক্যারেক্টার কোড কাজে লাগিয়েছে – অক্ষরগুলোকে ছবি আকারে পড়েনি।

যেই ভাবা সেই কাজ। পুরো পিডিএফটাকে ছবিতে বদলে নিতে হবে, তাহলে ফন্টের হিন্ট হারিয়ে অক্ষরগুলো ‘ছবি’ হয়ে যাবে। অনলাইনে এমন ভুরিভুরি সার্ভিস আছে, একটা বিনামূল্য সার্ভিস ব্যবহার করে ৩৪৩ পৃষ্ঠার PDF-টার ৩৪৩টা ছবি তৈরি করে নিলাম। এবারে গুগল ওসিআর দিয়ে ‘কুট’ করে কনভার্ট করে ফেলা যাচ্ছে। কিন্তু তাতে আমার উদ্দেশ্য হাসিল হচ্ছে না। কারণ ১টা ছবি = ১টা গুগল ডক = ১টা এমএস ডকএক্স।
সুতরাং ছবিগুলোকে একত্র করে আবার আরেকটা পিডিএফ বানিয়ে নিতে হবে।

সহকর্মী শেলী ভাইয়ের সাথে যোগাযোগ করলাম। তিনি জানালেন, ফটোশপ ব্রিজ দিয়ে কাজটা অনায়াসে করা যায়। খুললাম ফটোশপ সিএস৬ এবং কুল্লু খালাস। কিন্তু একি, সব দেখি হরাইযন্টাল হয়ে গেলো। সেটআপে ভুল করেছি। আবার সময় নিয়ে ৯০ ডিগ্রী রোটেট করে পোর্টেট মোডে ছবিগুলো থেকে পিডিএফ বানিয়ে নিলাম।

খুশি মনে পিডিএফটা গুগল ড্রাইভে আপ করে কনভার্ট করতে দিলাম… ক্র্যাশ!
বলে কি,

দুঃখিত, পাসওয়ার্ড প্রোটেক্টেড ফাইল কনভার্ট করতে পারি না

অথচ নতুন বানানো পিডিএফটা পাসওয়ার্ড প্রোটেক্টেড না মোটেও, অনায়াসে পড়তে পারছি একাধিক ক্লায়েন্ট থেকে।

জানলাম, Windows 10 কাজে লাগিয়ে অনায়াসে ছবি থেকে পিডিএফ জেনারেট করা যায়। অফিসের Win10 একটা পিসিতে কাজটা করে দিলেন শেলী ভাই। এবার তো হবে…
আপ করলাম, কনভার্ট দিলাম, ক্র্যাশ!
একই বার্তা: পাসওয়ার্ড প্রোটেক্টেড…

ব্যাটা, পারবি না, বলে দিলেই হয়, বেহুদা কথা বলিস ক্যারে?

মেজাজ চরম খারাপ করে এই বেহুদা (!) কাজে ক্ষান্ত দিলাম।
কেউ সফল হলে পদ্ধতিসহ শেয়ার করলে উপকার হবে এবং আখেরাতে অনেক নেকী হাসিল হবে…

সংযুক্তি

  • বাংলাদেশ শ্রম বিধিমালা ২০১৫-এর পিডিএফ সংস্করণ (সংযোগ: https://goo.gl/oPLVj4)

২ thoughts on “বেহুদা লগ: বিজয় ফন্টে PDF বনাম Google OCR

    1. আপনাকে পাঠানো তো সমাধান না, কাজটা কিভাবে হয় কিংবা হতে পারে, সেটা জানাটা মুখ্য। আপনি আপনার পদ্ধতিটা নিয়ে লিখুন, কিভাবে আপনি সমাধানটি করলেন – আমি এখানে এই উদ্দেশ্যেই সমস্যাটার নোট রেখেছি। তাহলে সেটা আরো অনেকের কাজে লাগবে। অবশ্য এটা যদি আপনার ব্যবসায়িক ট্রিক হয়ে থাকে, তাহলে অন্য কথা।

মন্তব্য করুন

আপনার ইমেইল প্রকাশ করা হবে না

আপনি এই HTML ট্যাগ এবং মার্কআপগুলো ব্যবহার করতে পারেন: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*