বাংলা PDF বইগুলো OCR:
Tesseract দেখলাম। কাজ চলে। গতকাল আল বিদায়া ওয়ান্নিহায়া থেকে বড় একটা ব্লক টেক্সট পোস্ট করেছি। অবভিয়াসলি এটা কস্ট করে টাইপ করি নি। PDF টা নেট থেকে ডাউনলোড করে OCR চালিয়েছি। এবং চমৎকার রেজাল্ট। কিছু এডিটিং লাগছে। তবে এটা সময়ের সাথে ঠিক হয়ে যাবে, ইনশাল্লাহ।
Next. চিন্তে করছি ইসলামি যত PDF আছে নেটে সবগুলো OCR করে ওয়েবসাইটে দিয়ে দেবো। মানুষ সহজে পড়তে পারবে আর কপি-পেস্ট করে শেয়ার করতে পারবে।
Problem? Tesseract এ প্রচুর প্রোসেসিং পাওয়ার লাগে। দেড় মিনিটে এক পেজ। ৬০০ পৃস্টার একটা বই OCR করতে লাগবে হাজার মিনিট। এক দিন যেহেতু দেড় হাজার মিনিটে তাই প্রায় এক দিন।
তাও খারাপ না প্রতি দিন একটা বই দেয়া যাবে।
তারপরও কিছু প্রবলেম এখনো আছে সেগুলো ফিক্স করতে হবে।
প্রথম বই হবে ইনশাল্লাহ আল বিদায়া ওয়ান্নিহায়ার ১০ টি খন্ড। যদি সব কিছু ঠিক ঠাক মত থাকে।
- Comments:
- হ্যা।
- হা হা।