איך עובד OCR? הוסבר בפשטות ומובנות
במאמר זה נסביר כיצד עובד OCR. OCR מהווה "זיהוי תווים אופטיים" ופשוט מכונה בגרמנית זיהוי טקסט. משמעות הדבר היא כי מחשב יכול לזהות טקסט בתמונה סרוקה באמצעות OCR ואז להמיר אותו למסמך טקסט פשוט.
כך עובד OCR
תאר לעצמך שקיבלת מצגת בעיתון מעמית. כעת ברצונך לערוך את אלה במחשב האישי מכיוון שאינך אוהב מעברים פרטניים. אז סרוק אותו ועבור לתוכנית ה- OCR שלך. כעת קורה הדבר הבא:
- התוכנה עושה תחילה ניתוח שנקרא פריסה. לשם כך היא מסתכלת על פריסת העמוד ומפרידה בין תמונות לטקסט. היא גם מציינת את עמדתם בדף. ואז מספר הפסקאות נספר ונשמרים אלמנטים בודדים כמו מספרי עמודים.
- עכשיו מגיע החלק הקשה. התוכנה מסתכלת על חסימות הטקסט הבודדות ומפרקת אותם למשפטים. המשפטים מחולקים אז למילים בודדות והמילים לאותיות.
- תוכנת OCR מכילה דפוסי אותיות ותווים. התוכנית משווה כעת את האותיות הסרוקות עם תבניות אלה. אם הם דומים ב -99%, האלגוריתם מחליט שהוא כנראה צריך להיות האות ההיא. זה מדויק מאוד מכיוון שהוא יכול להשוות דפוסים רבים בזמן קצר. בדרך זו הוא מבחין בהצלחה בין "8" ל- "B".
- כך שהאותיות והדמויות מוכרות בהדרגה. ואז הם משולבים שוב כמילים ומחזירים למקומם במשפט. ברגע שסיימת התוכנה נשמר כל העניין במסמך רגיל, ואז תוכלו לערוך. בוצע!
האם אתה רוצה לבדוק את הידע שלך בתוכנה? השתתף בחידון התוכנה הגדול שלנו!