Post# 1472564435

30-Aug-2016 7:40 pm


OCR করে ইসলামি ফাউন্ডেশনের আল বিদায়ার ১ম থেকে ১০ম খন্ড ঢুকানো আরম্ভ করেছি।

এখানে আছে। প্রায় ২০০ পেইজ।
http://habibur.com/kitab/bidaya1/

জাঙ্ক যেগুলো আসছে সেগুলো হলো বাংলা লিখার মাঝে মাঝে আরবীগুলোর জন্য। এগুলো মেনুয়েলি ডিলিট করে দিতে হবে।

বাকি বাংলার কোয়ালিটি মেনুয়ালি কারেকশনের আগে খুব একটা খারাপ না।
মেনুয়াল কারেকশন লাগবে। তবে এটা অপারেটর দিয়ে সবকিছু টাইপ করে ঢুকানোর থেকে অনেক ভালো।

hadithbd ভলেন্টিয়ারলি যেগুলো টাইপ করে ঢুকিয়েছে, সেগুলোতেও কিন্তু ভুল আছে অনেক। তাই মেনুয়ালি ঢুকালে যে এটা ঠিক হবে তাও না।

এই রেটে চললে আশা করছি ইনশাল্লাহ সামনের তিন দিনে ১০ খন্ড দিয়ে দিতে পারবো। এর পর কারেকশন।

একটা পুরানো লেপটপ লাগিয়ে দিয়েছি PDF থেকে একটা একটা পেইজ এক্সট্রাক্ট করে OCR করতে। প্রতি পেইজ ২ মিনিটের মত লাগে। ৭০০০ পেইজ আছে। দুটা প্রসেশ পেরালাল চলছে, যেহেতু প্রসেস প্রতি ১টা core ইউজ করে। কোয়াড কোর প্রসেসরে চারটা পর্যন্ত চালানো যাবে ইনশাল্লাহ।

OCR use করছি Tesseract ওপেন সোর্স ফ্রি টা।
https://github.com/tesseract-ocr/tesseract

    Comments:
  • ইচ্ছে করে শেষের দিকে কিছু jargon ঢুকিয়ে দিয়েছি পন্ডিতি দেখানোর জন্য। সত্যিকার অর্থ এখানে এমন কিছু নেই যেটা সিসটেমসে যারা কাজ করে তারা পারবে না। :-P
  • স্টেটাসের নিচে লিংক দিয়ে দিয়েছি।
  • কম্পাইল করে নিয়েছি। প্রিবিল্ডে পুরানো ভার্শন ছিলো।

30-Aug-2016 7:40 pm

Published
30-Aug-2016