מהו זיהוי תווים אופטי (OCR)?

תוכן עניינים:

מהו זיהוי תווים אופטי (OCR)?
מהו זיהוי תווים אופטי (OCR)?
Anonim

זיהוי תווים אופטי (OCR) מתייחס לתוכנה שיוצרת גרסה דיגיטלית של מסמך מודפס, מודפס או בכתב יד שמחשבים יכולים לקרוא ללא צורך בהקלדה ידנית או הזנת הטקסט. OCR משמש בדרך כלל על מסמכים סרוקים בפורמט PDF, אך יכול גם ליצור גרסה קריאת מחשב של טקסט בתוך קובץ תמונה.

What OCR Is

OCR, המכונה גם זיהוי טקסט, היא טכנולוגיית תוכנה ההופכת תווים כגון מספרים, אותיות וסימני פיסוק (הנקראים גם גליפים) ממסמכים מודפסים או כתובים לצורה אלקטרונית המזוהה וקריאה בקלות רבה יותר על ידי מחשבים ו תוכנות אחרות.תוכניות OCR מסוימות עושות זאת מכיוון שמסמך נסרק או מצולם במצלמה דיגיטלית ואחרות יכולות להחיל תהליך זה על מסמכים שנסרקו או צולמו בעבר ללא OCR. OCR מאפשר למשתמשים לחפש בתוך מסמכי PDF, לערוך טקסט ולעצב מחדש מסמכים.

Image
Image
סורקת עיתון היסטורי עם תוכנת OCR.

Getty Images

למה משמש OCR?

לצורך סריקה מהיר ויומיומי, ייתכן ש-OCR לא יהיה עניין גדול. אם אתה עושה כמות גדולה של סריקה, היכולת לחפש בתוך קובצי PDF כדי למצוא את הקובץ המדויק שאתה צריך יכולה לחסוך לא מעט זמן והופכת את פונקציונליות ה-OCR בתוכנית הסורק שלך חשובה יותר. הנה כמה דברים נוספים ש-OCR עוזר בהם:

  • עיבוד נתונים והזנת נתונים אוטומטיים (דוגמה: מערכות מעקב אחר מועמדים לעבודה עבור קורות חיים).
  • הפיכת ספרים סרוקים לניתנים לחיפוש.
  • המרת סריקות בכתב יד לטקסט קריא במחשב.
  • הפיכת מסמכים לשמישים יותר על ידי תוכניות קורא המסייעות למשתמשים לקויי ראייה.
  • שימור מסמכים ועיתונים היסטוריים, תוך הפיכתם לניתנים לחיפוש.
  • חילוץ נתונים והעברה לתוכניות הנהלת חשבונות (דוגמה: קבלות וחשבוניות).
  • אינדקס מסמכים לשימוש מנועי חיפוש.
  • זיהוי לוחיות רישיון נהיגה ע"י מצלמת מהירות ותוכנת מצלמת אור אדום.
  • סינתיסייזרים של דיבור לאנשים שאינם יכולים לדבר – הפיזיקאי התיאורטי, סטיבן הוקינג, הוא אולי המשתמש הידוע ביותר של תוכנית סינתיסייזר דיבור.

שורה התחתונה

למה לא פשוט לצלם, נכון? כי לא תוכל לערוך שום דבר או לחפש בטקסט כי זה יהיה רק תמונה. סריקת המסמך והפעלת תוכנת OCR יכולה להפוך את הקובץ למשהו שתוכל לערוך ולהיות מסוגל לחפש.

היסטוריה של OCR

בעוד שהשימוש המוקדם ביותר בזיהוי טקסט מתוארך לשנת 1914, הפיתוח הנרחב והשימוש בטכנולוגיות הקשורות ל-OCR החל ברצינות בשנות ה-50, במיוחד עם יצירת גופנים מאוד פשוטים שקל יותר להמיר לדיגיטל- טקסט קריא. הראשון מבין הגופנים הפשוטים הללו נוצר על ידי דיוויד שפרד והידוע בכינויו OCR-7B. OCR-7B עדיין בשימוש כיום בתעשייה הפיננסית עבור הגופן הסטנדרטי המשמש בכרטיסי אשראי וכרטיסי חיוב. בשנות ה-60, שירותי הדואר במספר מדינות החלו להשתמש בטכנולוגיית OCR כדי להאיץ מאוד את מיון הדואר, כולל ארצות הברית, בריטניה, קנדה וגרמניה. OCR היא עדיין טכנולוגיית הליבה המשמשת למיון דואר עבור שירותי דואר ברחבי העולם. בשנת 2000, נעשה שימוש בידע מרכזי על המגבלות והיכולות של טכנולוגיית OCR לפיתוח תוכניות ה-CAPTCHA המשמשות לעצירת בוטים וספרי דואר זבל.

במהלך עשרות השנים, OCR הפך מדויק יותר ומתוחכם יותר בשל התקדמות בתחומי טכנולוגיה קשורים כגון בינה מלאכותית, למידת מכונה וראייה ממוחשבת.כיום, תוכנת OCR משתמשת בזיהוי תבניות, זיהוי תכונות וכריית טקסט כדי להפוך מסמכים מהר ומדויק יותר מאי פעם.

שאלות נפוצות

    איך אני סורק מסמכים עם הטלפון או הטאבלט שלי?

    ב-iOS, פתח את אפליקציית Notes וצור הערה חדשה. פתח את המצלמה ולאחר מכן הקש על סרוק מסמכים. ב-Android, פתח את Google Drive ובחר את Plus (+), ולאחר מכן הקש על Scan כדי לסרוק את מסמך עם הטלפון שלך.

    איך אני משתמש ב-OCR ב-Adobe Acrobat?

    פתח קובץ PDF המכיל תמונה סרוקה ולאחר מכן בחר כלים > Edit PDF. Acrobat תחיל אוטומטית OCR כך שתוכל לערוך את הטקסט. פשוט בחר היכן ברצונך לבצע עריכות והתחל להקליד.

    מה ההבדל בין OCR ל-OMR?

    Optical Mark Recognition (OMR) היא תוכנה המזהה סימנים על נייר, בדרך כלל גיליון בועות. OMR משמש לעיבוד תוצאות של בחינות, סקרים, שאלונים ואפילו בחירות. בניגוד ל-OCR, OMR לא יכול לפענח את הסימנים בדף, אלא רק לוודא שהסימנים קיימים.

מוּמלָץ: