Post# 1455173802

11-Feb-2016 12:56 pm


বাংলা PDF বইগুলো OCR:

Tesseract দেখলাম। কাজ চলে। গতকাল আল বিদায়া ওয়ান্নিহায়া থেকে বড় একটা ব্লক টেক্সট পোস্ট করেছি। অবভিয়াসলি এটা কস্ট করে টাইপ করি নি। PDF টা নেট থেকে ডাউনলোড করে OCR চালিয়েছি। এবং চমৎকার রেজাল্ট। কিছু এডিটিং লাগছে। তবে এটা সময়ের সাথে ঠিক হয়ে যাবে, ইনশাল্লাহ।

Next. চিন্তে করছি ইসলামি যত PDF আছে নেটে সবগুলো OCR করে ওয়েবসাইটে দিয়ে দেবো। মানুষ সহজে পড়তে পারবে আর কপি-পেস্ট করে শেয়ার করতে পারবে।

Problem? Tesseract এ প্রচুর প্রোসেসিং পাওয়ার লাগে। দেড় মিনিটে এক পেজ। ৬০০ পৃস্টার একটা বই OCR করতে লাগবে হাজার মিনিট। এক দিন যেহেতু দেড় হাজার মিনিটে তাই প্রায় এক দিন।

তাও খারাপ না প্রতি দিন একটা বই দেয়া যাবে।

তারপরও কিছু প্রবলেম এখনো আছে সেগুলো ফিক্স করতে হবে।

প্রথম বই হবে ইনশাল্লাহ আল বিদায়া ওয়ান্নিহায়ার ১০ টি খন্ড। যদি সব কিছু ঠিক ঠাক মত থাকে।

    Comments:
  • হ্যা।
  • হা হা।

11-Feb-2016 12:56 pm

Published
11-Feb-2016