প্রসংগ : OCR
এটা নিয়ে ফ্রিকুয়েন্টলি প্রশ্ন পাই বলে সব জাবাব এখানে।
Beginners FAQ:
১। OCR কি?
একটা সফটওয়ার। যেটা ব্যবহার করলে -- দেখে দেখে কম্পুটারে টাইপ করার কাজটা কম্পুটার নিজে করে দেয়।
২। লিংক দেন।
https://github.com/tesseract-ocr/tesseract/wiki
৩। এটা ডাউনলোড করতে পারছি না।
উইন্ডোজের ডাইরেক্ট ডাউনলোড লিংক। [উপরের পেইজ থেকে নিয়েছি]
http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe
৪। এটা চালাতে পারছি না।
কোনো প্রোগ্রামার/সিসটেম এডমিনের সাহায্য নেন।
৫। চলছে কিন্তু ক্রাশ করছে, ভালো রেজাল্ট আসছে না।
আমি Linux এর ভার্শনটা ব্যবহার করেছি। ইউন্ডোজের না। তাই এই ব্যপারে ঠিক জানি না। এবং আমার কাছে Windows কোনো মেশিনও নেই যে টেস্ট করবো।
Advanced FAQ:
৬। OCR এ বাংলার কোয়ালিটি নাকি ভালো না?
এখানে পাবেন কোয়ালিটি। লো কোয়ালিটি স্কেন থেকে OCR করা হয়েছে। তার পরও বেশ ভালো বলবো।
https://habibur.com/kitab/bidaya1/
৭। আপনি কি সোর্স কম্পাইল করেছেন নাকি প্যকেজ ইন্সটল?
সোর্স কম্পাইল।
৮। ট্রেইনড করার দরকার হয়েছিলো?
না।
৯। আমি OpenCV ব্যবহার করি। কোনটা ভালো?
Tesseract সবসময় OpenCV র OCR থেকে ভালো আউটপুট দেবে। কারন এটা specifically develop করা হয়েছে শুধু OCR এর জন্য তাই।
তবে OpenCV যারা ব্যবহার করেন তারা অধিকাংশ OpenCV এর OCR ব্যবহার করেন এটা দেখেছি। এতে যদি আপনার কাজ চলে যায় তবে রাখেন। Tessarect এর মত বিশাল লাইব্রেরি আপনার প্রোজেক্টে এড করার দরকার নেই।
আর লিখা cropping, edge detecting, tilting, rotating এসবের এর জন্য OpenCV লাগবে। Tessarect এই কাজগুলো করে দেবে না।
<আরো প্রশ্ন থাকলে এখানে উত্তর দেয়া হবে ইনশাল্লাহ>
- Comments:
- সরাসরি ডাউনলোড লিংক এখানে পাবেন।
https://www.facebook.com/habib.dhaka/posts/10154393639383176 - বেশি ডিটেলস লিখলে স্টেটাস লম্বা হয়ে বিশাল ডকুমেন্টের মত হয়ে যায়।
এর পর সেটা কেউ পড়ে না, লম্বা বলে। - কিন্তু আমি ব্যবহার করেছি Linux version.
আমার কাছে Windows কোনো মেশিনও নেই। - সমস্যা হলো এটা দেশে পাওয়া যায় না।
- না। কোনোটাই না।
- আমি ট্রেনিং দেবো এটা কিন্তু কখনো বলি নি।
- এটা আরো কারেক্ট করতে হবে।
- আরাফাত হোসেন ভাই হলেন আমার উস্তাদ।
- তবে এর থেকে ভালো অল্টারনেট নেই, এই মুহুর্তে।
- OpenCV এর OCR Tesseract এর মত এত ভালো কাজ করবে না। কারন Tesseract specifically tune করা হয়েছে character recognition এর জন্য।
তবে OpenCV নিয়ে যারা কাজ করে তারা OCR এর জন্য OpenCV use করা পছন্দ করে, এটা দেখেছি।