Skip to main content

MYANOCR

ကျွန်တော့်ရဲ့ www.mm-lib.com လေးမှာ စာအုပ်တချို့က အစအဆုံးစာပြန်ရိုက်ထားတာဖြစ်ပါတယ်။ ဒါပေမယ့် အစအဆုံး စာပြန်ရိုက်ရတာက အချိန်ကုန် လူပန်းတယ်။ အဲ့တုန်းကတော့ နည်းပညာက နောက်ကျနေတယ်ပြောရမလား လိုအပ်ချက်တွေရှိနေသေးတယ်ပြောရမလားပဲ။ ဒါပေမယ့်အခုတော့ အဲ့ဒီနည်းပညာက အတော်ကို အဆင်ပြေချောမွေ့နေပါပြီ။ OCR လို့ခေါ်ပါတယ်။ အရှည်က Optical Character Recognition ပါ။

OCR (optical character recognition) is the use of technology to distinguish printed or handwritten text  characters inside digital images of physical documents, such as a scanned paper document. The basic process of OCR involves examining the text of a document and translating the characters into code that can be used for data processing. OCR is sometimes also referred to as text recognition. 

OCR နဲ့ဆိုတော့ အရင်တုန်းက scanned pdf တွေရော typed pdf တွေရောကို အလွယ်တကူ မြန်မြန်ဆန်ဆန် text file ထုတ်လို့ ရလာပါတယ်။ ဒီ App ကို ဖန်တီးသူက ကိုငြိမ်းချမ်းကိုကို ပါ။ App က အခုမှာတော့ web version အနေနဲ့ပဲ ရှိပါသေးတယ်။ Browser ကနေ https://myanocr.streamlit.app/ ကို သွားပြီး အသုံးပြုလို့ ရပါတယ်။ OCR engine ကို google နဲ့ tesseract ၂ မျိုး သုံးလို့ရပါတယ်။ google ocr က ပိုပြီး အဆင်ပြေပါတယ်။ tesseract က 80% လောက်ပဲ မှန်ပြီး မြန်မာစာနဲ့ အင်္ဂလိပ်စာ ရောပြီး ရေးထားတဲ့ စာပိုဒ်တွေဆိုရင် တိုင်ပတ်ကုန်ပါတယ်။ google ocr ကတော့ အဲ့ပြဿနာ မရှိပါဘူး။ ပြီးတော့ 95% လောက်အထိကို မှန်ပါတယ်။ ဒီကောင်က Google OCR နဲ့ဆိုတော့ internet connection တော့ လိုတယ်။ 

Scanned ဖြစ်ဖြစ် typed ဖြစ်ဖြစ် pdf စာအုပ်တွေမှာ header တွေ page number တွေပါနေရင် text ထုတ်တဲ့နေရာမှာ အဲ့ကောင်တွေပါ ပါလာတာမို့ အဲ့ကောင်တွေ မပါရလေအောင် စာမျက်နှာတွေကို crop လုပ်တဲ့ feature ကိုလည်း ထည့်ပေးထားတယ်။ 

Web version မှာ ကုန်ကျစားရိတ် တစ်ခု ရှိနေတာကြောင့် ocr ကို တခါဖတ်ရင် စာမျက်နှာ ၂၀ အထိပဲ limit လုပ်ထားပါတယ်တဲ့။ တကယ်လို့ ကိုယ့်စက်ထဲမှာ local အနေနဲ့ ထည့်သုံးရင်တော့ unlimited page ရပါတယ်။ ကိုယ့်စက်ထဲမှာ သုံးချင်တဲ့သူတွေအတွက် https://github.com/nchanko/myanocr_pub မှာ သွားပြီး clone လို့ရပါကြောင်း။

Comments

Popular posts from this blog

Contacts တွေကို one click နဲ့ unicode ပြောင်းနည်း

ios သမားတွေကတော့အရင်ဆုံး App Store ထဲဝင်ပြီး search ကနေ pyaung လို့ရိုက်ရှာပါ။ ပြီးရင် Download လုပ်ပါ။ ရှာ မတွေ့ရင် ဒီ link ကနေ download လုပ်လို့လည်း ရပါတယ်။ https://apps.apple.com/us/app/pyaung/id1039690192 home screen မှာ pyaung app ပေါ်လာရင် ဝင်လိုက်ပါ။Contact ဆိုတဲ့ tap ထဲဝင်ပါ။ zawgyi to uni , uni to zawgyi ကို စိတ်ကြိုက်ပြောင်းနိုင်ပါပြီ။ Android သမားတွေကတော့ ကိုနေရှိန်ဦး လုပ်ပေးထားတဲ့ app ကို အောက်က link ကနေ Download လုပ်ပြီး zawgyi to uni , uni to zawgyi ကို စိတ်ကြိုက်ပြောင်းနိုင်ပါတယ်။ https://play.google.com/store/apps/details?id=com.nso.unicc https://m.apkpure.com/unicontact-converter/com.nso.unicc နောက်တခုက Dev House က ထုတ်တဲ့ MM contact converter ပါ။ သူကတော့ Android သီးသန့်ပါပဲ။ Contacts တွေမှာ zawgyi နဲ့ unicode ရောနေရင်တောင် အဆင်ပြေပါတယ်။  ပြောင်းနေရင်း ဟန်းသွားတာမျိုးမဖြစ်ပါဘူး။ (Main thread မှာအလုပ်လုပ်မလုပ်ပဲ thread ခွဲပြီးပြောင်းလို့ပါ) https://play.google.com/store/apps/details?id=me.myatminsoe.mmcontactsconverter

MacOS Myanmar Unicode Keyboard

  MacOS မှာ ဘယ်တုန်းက ပါလာမှန်းတော့ မသိဘူး။ အစက keymagic နဲ့ပဲ မြန်မာစာကို ရိုက်နေတာ။ သဝေထိုးကို ရှေ့က ရိုက်တာ အကျင့်ပါနေလို့။ ခုကျ ubuntu မှာ messenger က chrominium based ဆိုတော့ သဝေထိုးရှေ့က ရိုက်ရင် bug ပါပြီး ရိုက်မရဖြစ်နေတာနဲ့ default keyboard ကို သုံးရပြန်ရော။ ခုမှ သတိရလို့ Mac မှာပြန်ကြည့်တော့ mac မှာ မြန်မာစာအတွက် ကီးဘုတ်က ၂ ခုပါတာပဲ။ တခုက ရိုက်နေကျ myanmar 3 layout နဲ့ နောက်တခုက ဘာကြီးလဲကို မသိတာ။ စာလုံးတွေက တနေရာစီ။ အဲ့တော့ default myanmar 3 layout keyboard နဲ့ ဆိုတော့ keymagic တောင် ထည့်စရာမလိုတော့ဘူး။ သဝေထိုးကို နောက်မှ ရိုက်တာကလည်း အသားကျနေပြီးသား။  System preferences > keyboard > input source ကနေ  + ကို နှိပ် Burmese ကို ရွေး ။အပေါ်က Myanmar ကို ရွေး။  ရပြီ။  P.S- Catalina နဲ့ BigSur မှာတော့ ရတယ်။ ကျန်တဲ့ အဟောင်းတွေတော့ မသိဘူး။

မြန်မာအဘိဓာန်အက္ခရာစဉ်နည်း

မြန်မာအက္ခရာစဉ်ရာတွင် ၁။ ဗျည်းအက္ခရာစဉ် ၂။ ဗျည်းတွဲ ၃။ သရကာရန် ၄။ အသတ်ကာရန် ဟူ၍ ၄ ဆင့်ရှိပါသည်။ ၁။ ဗျည်းအက္ခရာစဉ် ****************** ဗျည်းအက္ခရာ စဉ်ရာတွင် က မှ အ အထိ အစဉ်လိုက်သာဖြစ်သည်။ မှတ်သားရန်မှာ ဉကလေးကို ညကြီးရှေ့တွင် စဉ်ရသည်။  ဥပမာ >>>ဗျည်းစဉ်များကို သိရန် အောက်ပါစာများကို အက္ခရာစဉ်ကြည့်ပါ။ အိတ်ကပ်၊ ခါသာ၊ မာလာ၊ ငါးသိုင်း၊ ဉာဏ၊ ညအခါ၊ ကတိ။ ကတိ၊ ခါသာ၊ ငါးသိုင်း၊ ဉာဏ၊ ညအခါ၊ မာလာ၊ အိတ်ကပ်။ ဟု အဖြေရပါသည်<<< ၂။ ဗျည်းတွဲ ********** ပင့်၊ရစ်၊ဆွဲ၊ထိုး သည် ယ၊ရ၊ဝ၊ဟ ၏ စာလုံးဆင့်ပုံစံ ဖြစ်ပါသည်။ ထို့ကြောင့် ယ၊ရ၊ဝ၊ဟ အစဉ်လိုက်အတိုင်းစဉ်ရသည်။ ကျ၊ကြ၊ကှ၊ကွ။ ကျွ၊ ကြွ။ ကျှ၊ကြှ၊ကွှ။ ကျွှ၊ကြွှ။ (ကဗျည်းနှင့် ပေါင်းပြထားပါသည်) ရှင်းအောင်ပြရပါက ကျ=က ယ။ ကြ=က ရ။ ကှ=က ဟ။ ကွ=က ဝ ကျွ=က ယ ဝ။ ကြွ=က ရ ဝ ကျှ=က ယ ဟ။ ကြှ=က ရ ဟ။ ကွှ=က ဝ ဟ ကျွှ=က ယ ဝ ဟ။ ကြွှ=က ရ ဝ ဟ ဖြစ်ပါသည်။ ဥပမာ >>>မျောက်ကြီး၊ မွဲတေ၊ မျှတ၊ မြို့မ၊ မှတ်ခြင်၊ မြွေပါ၊ မွှေးပျံ့။ မျောက်ကြီး၊ မြို့မ၊ မွဲတေ၊ မှတ်ခြင်၊ မြွေပါ၊ မျှတ၊ မွှေးပျံ့။ <<<  ၃။သ