My Blog, My Memo & Myanmars` Unicode

Posts

Showing posts from January, 2024

Myanmar OCR

Here is the source git. https://github.com/NChanko/Myanmar-Ebook-OCR အရင်ဆုံး brew ကို install လုပ်ရပါ့မယ်။ Terminal မှာ ဒီ command ကို paste လုပ်ပြီး enter ခေါက်ပါ။ /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" Brew ကို install ပြီးသွားရင် brew install poppler နဲ့ brew install tesseract ကို ထပ်ပြီး install ပေးပါ။ Tesseract OCR မှာ မြန်မာစာ အတွက် မပါသေးတော့ မြန်မာစာအတွက် ထပ်ပြီး install ပေးရပါမယ်။ brew install tesseract-lang အဲ့တာပြီးရင်တော့ input_pdf folder ထဲမှာ ပြောင်းချင်တဲ့ pdf file ကိုထည့်ပြီး pdf_to_text.sh ကို run လိုက်ရင် ရပါပြီ။ မြန်မာစာ OCR အတွက် fine tuned လုပ်ထားတဲ့ trained data အတွက် ဒီဟာလေးလည်း တွေ့လို့ ထပ်ဖြည့်ထားလိုက်တယ်။ ဒီကောင်ကို /usr/local/Cellar ထဲက tesseract folder ထဲက language ထဲမှာ override လုပ်ပေးလိုက်ရင်ရပါပြီ။ မူရင်းဖိုင်ကိုတော့ override မလုပ်ခင် backup လုပ်ထားစေချင်တယ်။