ကျွန်တော့်ရဲ့ www.mm-lib.com လေးမှာ စာအုပ်တချို့က အစအဆုံးစာပြန်ရိုက်ထားတာဖြစ်ပါတယ်။ ဒါပေမယ့် အစအဆုံး စာပြန်ရိုက်ရတာက အချိန်ကုန် လူပန်းတယ်။ အဲ့တုန်းကတော့ နည်းပညာက နောက်ကျနေတယ်ပြောရမလား လိုအပ်ချက်တွေရှိနေသေးတယ်ပြောရမလားပဲ။ ဒါပေမယ့်အခုတော့ အဲ့ဒီနည်းပညာက အတော်ကို အဆင်ပြေချောမွေ့နေပါပြီ။ OCR လို့ခေါ်ပါတယ်။ အရှည်က Optical Character Recognition ပါ။
OCR (optical character recognition) is the use of technology to distinguish printed or handwritten text characters inside digital images of physical documents, such as a scanned paper document. The basic process of OCR involves examining the text of a document and translating the characters into code that can be used for data processing. OCR is sometimes also referred to as text recognition.
OCR နဲ့ဆိုတော့ အရင်တုန်းက scanned pdf တွေရော typed pdf တွေရောကို အလွယ်တကူ မြန်မြန်ဆန်ဆန် text file ထုတ်လို့ ရလာပါတယ်။ ဒီ App ကို ဖန်တီးသူက ကိုငြိမ်းချမ်းကိုကို ပါ။ App က အခုမှာတော့ web version အနေနဲ့ပဲ ရှိပါသေးတယ်။ Browser ကနေ https://myanocr.streamlit.app/ ကို သွားပြီး အသုံးပြုလို့ ရပါတယ်။ OCR engine ကို google နဲ့ tesseract ၂ မျိုး သုံးလို့ရပါတယ်။ google ocr က ပိုပြီး အဆင်ပြေပါတယ်။ tesseract က 80% လောက်ပဲ မှန်ပြီး မြန်မာစာနဲ့ အင်္ဂလိပ်စာ ရောပြီး ရေးထားတဲ့ စာပိုဒ်တွေဆိုရင် တိုင်ပတ်ကုန်ပါတယ်။ google ocr ကတော့ အဲ့ပြဿနာ မရှိပါဘူး။ ပြီးတော့ 95% လောက်အထိကို မှန်ပါတယ်။ ဒီကောင်က Google OCR နဲ့ဆိုတော့ internet connection တော့ လိုတယ်။
Scanned ဖြစ်ဖြစ် typed ဖြစ်ဖြစ် pdf စာအုပ်တွေမှာ header တွေ page number တွေပါနေရင် text ထုတ်တဲ့နေရာမှာ အဲ့ကောင်တွေပါ ပါလာတာမို့ အဲ့ကောင်တွေ မပါရလေအောင် စာမျက်နှာတွေကို crop လုပ်တဲ့ feature ကိုလည်း ထည့်ပေးထားတယ်။
Web version မှာ ကုန်ကျစားရိတ် တစ်ခု ရှိနေတာကြောင့် ocr ကို တခါဖတ်ရင် စာမျက်နှာ ၂၀ အထိပဲ limit လုပ်ထားပါတယ်တဲ့။ တကယ်လို့ ကိုယ့်စက်ထဲမှာ local အနေနဲ့ ထည့်သုံးရင်တော့ unlimited page ရပါတယ်။ ကိုယ့်စက်ထဲမှာ သုံးချင်တဲ့သူတွေအတွက် https://github.com/nchanko/myanocr_pub မှာ သွားပြီး clone လို့ရပါကြောင်း။
Comments
Post a Comment