Skip to main content

Myanmar OCR

Here is the source git.
https://github.com/NChanko/Myanmar-Ebook-OCR
 အရင်ဆုံး brew ကို install လုပ်ရပါ့မယ်။ 
Terminal မှာ ဒီ command ကို paste လုပ်ပြီး enter ခေါက်ပါ။
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Brew ကို install ပြီးသွားရင် 
brew install poppler 
နဲ့ 
brew install tesseract
ကို ထပ်ပြီး install ပေးပါ။ 
Tesseract OCR မှာ မြန်မာစာ အတွက် မပါသေးတော့ မြန်မာစာအတွက် ထပ်ပြီး install ပေးရပါမယ်။ 
brew install tesseract-lang
အဲ့တာပြီးရင်တော့ input_pdf folder ထဲမှာ ပြောင်းချင်တဲ့ pdf file ကိုထည့်ပြီး
pdf_to_text.sh ကို run လိုက်ရင် ရပါပြီ။
မြန်မာစာ OCR အတွက် fine tuned လုပ်ထားတဲ့ trained data အတွက် ဒီဟာလေးလည်း တွေ့လို့ ထပ်ဖြည့်ထားလိုက်တယ်။ ဒီကောင်ကို
/usr/local/Cellar ထဲက tesseract folder ထဲက language ထဲမှာ override လုပ်ပေးလိုက်ရင်ရပါပြီ။ မူရင်းဖိုင်ကိုတော့ override မလုပ်ခင် backup လုပ်ထားစေချင်တယ်။


Comments

Popular posts from this blog

Contacts တွေကို one click နဲ့ unicode ပြောင်းနည်း

ios သမားတွေကတော့အရင်ဆုံး App Store ထဲဝင်ပြီး search ကနေ pyaung လို့ရိုက်ရှာပါ။ ပြီးရင် Download လုပ်ပါ။ ရှာ မတွေ့ရင် ဒီ link ကနေ download လုပ်လို့လည်း ရပါတယ်။ https://apps.apple.com/us/app/pyaung/id1039690192 home screen မှာ pyaung app ပေါ်လာရင် ဝင်လိုက်ပါ။Contact ဆိုတဲ့ tap ထဲဝင်ပါ။ zawgyi to uni , uni to zawgyi ကို စိတ်ကြိုက်ပြောင်းနိုင်ပါပြီ။ Android သမားတွေကတော့ ကိုနေရှိန်ဦး လုပ်ပေးထားတဲ့ app ကို အောက်က link ကနေ Download လုပ်ပြီး zawgyi to uni , uni to zawgyi ကို စိတ်ကြိုက်ပြောင်းနိုင်ပါတယ်။ https://play.google.com/store/apps/details?id=com.nso.unicc https://m.apkpure.com/unicontact-converter/com.nso.unicc နောက်တခုက Dev House က ထုတ်တဲ့ MM contact converter ပါ။ သူကတော့ Android သီးသန့်ပါပဲ။ Contacts တွေမှာ zawgyi နဲ့ unicode ရောနေရင်တောင် အဆင်ပြေပါတယ်။  ပြောင်းနေရင်း ဟန်းသွားတာမျိုးမဖြစ်ပါဘူး။ (Main thread မှာအလုပ်လုပ်မလုပ်ပဲ thread ခွဲပြီးပြောင်းလို့ပါ) https://play.google.com/store/apps/details?id=me.myatminsoe.mmcontactsconverter

မြန်မာအဘိဓာန်အက္ခရာစဉ်နည်း

မြန်မာအက္ခရာစဉ်ရာတွင် ၁။ ဗျည်းအက္ခရာစဉ် ၂။ ဗျည်းတွဲ ၃။ သရကာရန် ၄။ အသတ်ကာရန် ဟူ၍ ၄ ဆင့်ရှိပါသည်။ ၁။ ဗျည်းအက္ခရာစဉ် ****************** ဗျည်းအက္ခရာ စဉ်ရာတွင် က မှ အ အထိ အစဉ်လိုက်သာဖြစ်သည်။ မှတ်သားရန်မှာ ဉကလေးကို ညကြီးရှေ့တွင် စဉ်ရသည်။  ဥပမာ >>>ဗျည်းစဉ်များကို သိရန် အောက်ပါစာများကို အက္ခရာစဉ်ကြည့်ပါ။ အိတ်ကပ်၊ ခါသာ၊ မာလာ၊ ငါးသိုင်း၊ ဉာဏ၊ ညအခါ၊ ကတိ။ ကတိ၊ ခါသာ၊ ငါးသိုင်း၊ ဉာဏ၊ ညအခါ၊ မာလာ၊ အိတ်ကပ်။ ဟု အဖြေရပါသည်<<< ၂။ ဗျည်းတွဲ ********** ပင့်၊ရစ်၊ဆွဲ၊ထိုး သည် ယ၊ရ၊ဝ၊ဟ ၏ စာလုံးဆင့်ပုံစံ ဖြစ်ပါသည်။ ထို့ကြောင့် ယ၊ရ၊ဝ၊ဟ အစဉ်လိုက်အတိုင်းစဉ်ရသည်။ ကျ၊ကြ၊ကှ၊ကွ။ ကျွ၊ ကြွ။ ကျှ၊ကြှ၊ကွှ။ ကျွှ၊ကြွှ။ (ကဗျည်းနှင့် ပေါင်းပြထားပါသည်) ရှင်းအောင်ပြရပါက ကျ=က ယ။ ကြ=က ရ။ ကှ=က ဟ။ ကွ=က ဝ ကျွ=က ယ ဝ။ ကြွ=က ရ ဝ ကျှ=က ယ ဟ။ ကြှ=က ရ ဟ။ ကွှ=က ဝ ဟ ကျွှ=က ယ ဝ ဟ။ ကြွှ=က ရ ဝ ဟ ဖြစ်ပါသည်။ ဥပမာ >>>မျောက်ကြီး၊ မွဲတေ၊ မျှတ၊ မြို့မ၊ မှတ်ခြင်၊ မြွေပါ၊ မွှေးပျံ့။ မျောက်ကြီး၊ မြို့မ၊ မွဲတေ၊ မှတ်ခြင်၊ မြွေပါ၊ မျှတ၊ မွှေးပျံ့။ <<< ...

MacOS Myanmar Unicode Keyboard

  MacOS မှာ ဘယ်တုန်းက ပါလာမှန်းတော့ မသိဘူး။ အစက keymagic နဲ့ပဲ မြန်မာစာကို ရိုက်နေတာ။ သဝေထိုးကို ရှေ့က ရိုက်တာ အကျင့်ပါနေလို့။ ခုကျ ubuntu မှာ messenger က chrominium based ဆိုတော့ သဝေထိုးရှေ့က ရိုက်ရင် bug ပါပြီး ရိုက်မရဖြစ်နေတာနဲ့ default keyboard ကို သုံးရပြန်ရော။ ခုမှ သတိရလို့ Mac မှာပြန်ကြည့်တော့ mac မှာ မြန်မာစာအတွက် ကီးဘုတ်က ၂ ခုပါတာပဲ။ တခုက ရိုက်နေကျ myanmar 3 layout နဲ့ နောက်တခုက ဘာကြီးလဲကို မသိတာ။ စာလုံးတွေက တနေရာစီ။ အဲ့တော့ default myanmar 3 layout keyboard နဲ့ ဆိုတော့ keymagic တောင် ထည့်စရာမလိုတော့ဘူး။ သဝေထိုးကို နောက်မှ ရိုက်တာကလည်း အသားကျနေပြီးသား။  System preferences > keyboard > input source ကနေ  + ကို နှိပ် Burmese ကို ရွေး ။အပေါ်က Myanmar ကို ရွေး။  ရပြီ။  P.S- Catalina နဲ့ BigSur မှာတော့ ရတယ်။ ကျန်တဲ့ အဟောင်းတွေတော့ မသိဘူး။