Post# 1455173802

বাংলা PDF বইগুলো OCR:

Tesseract দেখলাম। কাজ চলে। গতকাল আল বিদায়া ওয়ান্নিহায়া থেকে বড় একটা ব্লক টেক্সট পোস্ট করেছি। অবভিয়াসলি এটা কস্ট করে টাইপ করি নি। PDF টা নেট থেকে ডাউনলোড করে OCR চালিয়েছি। এবং চমৎকার রেজাল্ট। কিছু এডিটিং লাগছে। তবে এটা সময়ের সাথে ঠিক হয়ে যাবে, ইনশাল্লাহ।

Next. চিন্তে করছি ইসলামি যত PDF আছে নেটে সবগুলো OCR করে ওয়েবসাইটে দিয়ে দেবো। মানুষ সহজে পড়তে পারবে আর কপি-পেস্ট করে শেয়ার করতে পারবে।

Problem? Tesseract এ প্রচুর প্রোসেসিং পাওয়ার লাগে। দেড় মিনিটে এক পেজ। ৬০০ পৃস্টার একটা বই OCR করতে লাগবে হাজার মিনিট। এক দিন যেহেতু দেড় হাজার মিনিটে তাই প্রায় এক দিন।

তাও খারাপ না প্রতি দিন একটা বই দেয়া যাবে।

তারপরও কিছু প্রবলেম এখনো আছে সেগুলো ফিক্স করতে হবে।

প্রথম বই হবে ইনশাল্লাহ আল বিদায়া ওয়ান্নিহায়ার ১০ টি খন্ড। যদি সব কিছু ঠিক ঠাক মত থাকে।

হ্যা।
হা হা।

11-Feb-2016 12:56 pm

Post# 1455173802

11-Feb-2016 12:56 pm

🌴