Kā darbojas OCR? Izskaidrots vienkārši un saprotami
Šajā rakstā mēs izskaidrojam, kā darbojas OCR. OCR apzīmē "optisko rakstzīmju atpazīšanu", un vācu valodā to vienkārši sauc par teksta atpazīšanu. Tas nozīmē, ka dators var atpazīt skenēta attēla tekstu, izmantojot OCR, un pēc tam to pārveidot par vienkāršu teksta dokumentu.
Šādi darbojas OCR
Iedomājieties, ka esat saņēmis kolēģa prezentāciju papīra formā. Tagad jūs vēlaties tos rediģēt datorā, jo jums nepatīk atsevišķi fragmenti. Tāpēc skenējiet to un dodieties uz savu OCR programmu. Tagad notiek šādi gadījumi:
- Vispirms programmatūra veic tā saucamo izkārtojuma analīzi. Lai to izdarītu, viņa aplūko lapas izkārtojumu un atdala attēlus no teksta. Viņa arī atzīmē viņu nostāju lapā. Tad rindkopu skaits tiek saskaitīts un atsevišķi elementi, piemēram, lappušu numuri, tiek saglabāti.
- Tagad nāk grūtā daļa. Programmatūra aplūko atsevišķus teksta blokus un sadala tos teikumos. Tad teikumus sadala atsevišķos vārdos, bet vārdus - burtos.
- OCR programmatūra satur burtu un rakstzīmju modeļus. Programma tagad salīdzina skenētos burtus ar šiem modeļiem. Ja tie ir 99% līdzīgi, algoritms nolemj, ka tam, iespējams, ir jābūt šim burtam. Tas ir ļoti precīzs, jo tas īsā laikā var salīdzināt daudzus modeļus. Tādā veidā viņš veiksmīgi nošķir "8" un "B".
- Tātad burti un burti tiek pakāpeniski atpazīti. Tad tos atkal apvieno kā vārdus un ievieto atpakaļ savā teikumā. Tiklīdz programmatūra ir pabeigta, visa lieta tiek saglabāta parastajā dokumentā, kuru pēc tam varat rediģēt. Gatavs!
Vai vēlaties pārbaudīt savas zināšanas par programmatūru? Piedalieties mūsu lielajā programmatūras viktorīnā!