Post# 1472564435

OCR করে ইসলামি ফাউন্ডেশনের আল বিদায়ার ১ম থেকে ১০ম খন্ড ঢুকানো আরম্ভ করেছি।

এখানে আছে। প্রায় ২০০ পেইজ।
http://habibur.com/kitab/bidaya1/

জাঙ্ক যেগুলো আসছে সেগুলো হলো বাংলা লিখার মাঝে মাঝে আরবীগুলোর জন্য। এগুলো মেনুয়েলি ডিলিট করে দিতে হবে।

বাকি বাংলার কোয়ালিটি মেনুয়ালি কারেকশনের আগে খুব একটা খারাপ না।
মেনুয়াল কারেকশন লাগবে। তবে এটা অপারেটর দিয়ে সবকিছু টাইপ করে ঢুকানোর থেকে অনেক ভালো।

hadithbd ভলেন্টিয়ারলি যেগুলো টাইপ করে ঢুকিয়েছে, সেগুলোতেও কিন্তু ভুল আছে অনেক। তাই মেনুয়ালি ঢুকালে যে এটা ঠিক হবে তাও না।

এই রেটে চললে আশা করছি ইনশাল্লাহ সামনের তিন দিনে ১০ খন্ড দিয়ে দিতে পারবো। এর পর কারেকশন।

একটা পুরানো লেপটপ লাগিয়ে দিয়েছি PDF থেকে একটা একটা পেইজ এক্সট্রাক্ট করে OCR করতে। প্রতি পেইজ ২ মিনিটের মত লাগে। ৭০০০ পেইজ আছে। দুটা প্রসেশ পেরালাল চলছে, যেহেতু প্রসেস প্রতি ১টা core ইউজ করে। কোয়াড কোর প্রসেসরে চারটা পর্যন্ত চালানো যাবে ইনশাল্লাহ।

OCR use করছি Tesseract ওপেন সোর্স ফ্রি টা।
https://github.com/tesseract-ocr/tesseract

ইচ্ছে করে শেষের দিকে কিছু jargon ঢুকিয়ে দিয়েছি পন্ডিতি দেখানোর জন্য। সত্যিকার অর্থ এখানে এমন কিছু নেই যেটা সিসটেমসে যারা কাজ করে তারা পারবে না। :-P
স্টেটাসের নিচে লিংক দিয়ে দিয়েছি।
কম্পাইল করে নিয়েছি। প্রিবিল্ডে পুরানো ভার্শন ছিলো।

30-Aug-2016 7:40 pm

Post# 1472564435

30-Aug-2016 7:40 pm

🌴