INFONOMIKA

Enterprise Content Management

  • Zwiększ rozmiar czcionki
  • Domyślny  rozmiar czcionki
  • Zmniejsz rozmiar czcionki

Wykorzystywanie programów OCR w przedsiębiorstwach

Email Drukuj PDF

Niekiedy istnieje potrzeba, aby wprowadzić do komputera tekst z papierowego  pierwowzoru dokumentu oraz mieć możliwość ponownej jego edycji, aktualizacji  czy utworzenia na jego podstawie nowego tekstu. Nie stanowi to problemu, jeśli  jest tego tylko kilka zdań. Można je szybko przepisać. Jednak, gdy tych stron drukowanego tekstu jest więcej, to o wiele łatwiej i zdecydowanie szybciej  jest posłużyć się programem do rozpoznawania tekstów. Początkowo systemy OCR  (Optical Character Recognition) pozwalały wyłącznie na rozpoznawanie tekstu  drukowanego w określonym formacie. Obecnie identyfikację tekstu drukowanego w  dużej mierze uważa się za problem rozwiązany. Programy tego typu są  praktycznie powszechnie dostępne i doskonale sobie radzą z przetwarzaniem  druku na edycyjny odpowiednik. Wciąż trwają jednak intensywnie prace nad programami do rozpoznawania zniszczonych bądź uszkodzonych tekstów, a także  pisma odręcznego.

 

Historia OCR

Anna Rycerska

Historia OCR, czyli systemów optycznego rozpoznawania znaków pisma rozpoczęła się w 1929 r. od przyznania przez Niemiecki Urząd Patentowy austriackiemu inżynierowi G. Tauschekowi patentu na urządzenie mechaniczne przeznaczone do rozpoznawania znaków pisma.[1] W 1935 Tauschek otrzymał także amerykański patent na swoje urządzenie. Zasada jego działania polegała na kolejnym umieszczaniu szablonów przed fotodetektorem. W przypadku, gdy kształt rozpoznawanej litery zgadzał się z postacią szablonu detektor rejestrował maksymalną moc padającej na niego wiązki światła. Jednak wystarczyły tylko niewielkie odstępstwa kształtu czcionki od zdefiniowanego wzorca i niemożliwe było rozpoznanie tekstu.[2]

Rys.1. Maszyna do rozpoznawania znaków G. Tauscheka.

źródło:http://technet.idnes.cz/jak-se-pocitac-naucil-cist-milion-knizek-rocne-fo8-/tec_technika.asp?c=A071123_182221_tec_technika_pka

Z kolei w 1953 r. Amerykanin D. Shepard opatentował zbudowany przez siebie system GIZMO, który następnie stał się pierwszym komercyjnym systemem OCR wykorzystywanym przez korporację Readers Digest. System ten opierał się na optycznej technice analizy obrazów i dopuszczał różne rodzaje czcionek i właściwie dowolne rozmieszczenie znaków w ramach skanowanego pola.

Rys.2. Wynalazek D. Sheparda.

źródło:http://technet.idnes.cz/jak-se-pocitac-naucil-cist-milion-knizek-rocne-fo8-/tec_technika.asp?c=A071123_182221_tec_technika_pka

Drugi system został sprzedany do Standard Oil Company do odczytu odcisków karty kredytowej do celów rozliczeniowych. Inne systemy sprzedawane pod koniec 1950 to czytnik rachunków dla firmy telefonicznej Ohio Bell i skaner dla Sił Powietrznych Stanów Zjednoczonych do czytania i przekazywania przez dalekopis wiadomości napisanych na maszynie. IBM i inni uzyskali później licencję na patenty OCR Sheparda.[3]

Następnie w roku 1965 system OCR zaczęła powszechnie stosować Poczta Amerykańska, a następnie brytyjska Royal Mail. Rozpoczęto wtedy także planowanie całego systemu bankowego z wykorzystaniem technologii OCR, procesu, który zrewolucjonizował system płatności rachunków w Wielkiej Brytanii. Kanadyjska Poczta używa systemów OCR od 1971 roku. Systemy OCR odczytywały nazwy i adresy odbiorców w pierwszym zmechanizowanych zakładzie sortowania i drukowały kody kreskowe na kopertach na podstawie kodów pocztowych. Aby uniknąć nieporozumień z czytelnym dla człowieka polem adresu, które można umieścić w dowolnym miejscu na liście, używano specjalnego  tuszu (pomarańczowego w świetle widzialnym), który jest wyraźnie widoczny w świetle ultrafioletowym. Koperty mogły być następnie przetwarzane przez urządzenia bazujące na prostych czytnikach kodów kreskowych.

Rys.3. System OCR na poczcie.

źródło:http://docs.google.com/viewer?a=v&q=cache:F0KmRvZ8Q-YJ:jaroslaw.mierzwa.staff.iiar.pwr.wroc.pl/ai/prezentacje/pt_p_11/prezentacja_ocr.pdf+metody+rozpoznawania+tekstu&hl=pl&gl=pl&pid=bl&

Ray Kurzweil, który w 1974 roku założył firmę Kurzweil Computer Products Inc., kierował rozwojem pierwszego omni-font systemu optycznego rozpoznawania tekstu - programu komputerowego, zdolnego do rozpoznawania tekstu drukowanego w każdej normalnej czcionce. Zdecydował, że najlepszym zastosowaniem tej technologii byłoby stworzenie maszyny do czytania dla niewidomych. Dzięki niej komputer czytałby głośno tekst osobom niewidomym. Urządzenie to wymagało wynalezienia dwóch technologii wspomagających - płaskiego skanera CCD i syntezatora  tekst-do-mowy.  13 stycznia 1976 gotowy produkt został przedstawiony podczas szeroko rozgłaszanej konferencji prasowej zorganizowanej przez Kurzweila i przywódców Narodowej Federacji Niewidomych.

W 1978 r. firma Kurzweil Computer Products rozpoczęła sprzedaż komercyjnych wersji programu komputerowego do optycznego rozpoznawania znaków. LexisNexis był jednym z pierwszych klientów i kupił program do przesyłania papierowych dokumentów prawnych i wiadomości do jego powstającej internetowej baz danych. [4] Dwa lata później, Kurzweil sprzedał swoją firmę Xeroxowi, który był zainteresowany dalszą komercjalizacją konwersji tekstu z papieru do komputera. Kurzweil Computer Products stał się spółką zależną firmy Xerox jako ScanSoft, obecnie Nuance Communications.

Obecnie systemy automatycznie odczytujące teksty drukowane w alfabecie łacińskim są dość powszechnie wykorzystywane w instytucjach rządowych i jednostkach administracyjnych, ponieważ przyczyniają się do przyśpieszenia procesu obiegu dokumentów oraz pozwalają na szybki dostęp do materiałów drukowanych, umożliwiając tym samym ich modyfikację i dalsze przetwarzanie.[5]

 

Schemat działania programów OCR

Kamil Wójcik

Działanie oprogramowania OCR opiera się na wielu różnych technikach, algorytmach i przebiega etapowo. Obraz poddany zostaje obróbce oraz identyfikacji aby ułatwić późniejszą weryfikację każdego znaku. Dopiero na końcu konfrontuje się rozpoznany tekst z dostępnymi słownikami. Kolejne etapy można przedstawić następująco:

  1. Wstępne przetwarzanie obrazu
  2. Binaryzacja obrazu
  3. Segmentacja
  4. Rozpoznawanie znaków
  5. Korekcja słownikowa

We wstępnym przetwarzaniu obrazu dokonuje się korekt niezbędnych dla prawidłowej realizacji kolejnych etapów. Następuje tu między innymi odszumianie obrazu, wyrównanie jasności, sprawdzenie jego rozdzielczości, ujednolicenie tła oraz usunięcie zniekształceń geometrycznych.

Odszumianie Odszumianie

Rys.4. Odszumianie obrazu.

źródło:http://www.mif.pg.gda.pl/homepages/marcin/Wyklad3.pdf

Następnie mamy do czynienia z binaryzacją obrazu. W tym etapie (w zależności od wybranych progów binaryzacyjnych) następuje oddzielenie interesującej nas zawartości obrazu oraz zapisanie jej jako jednej z dwóch wartości - 0 lub 1.

Binaryzacja

Rys.5. Binaryzacja znaków.

źródło:http://osipowicz.w.interia.pl/kohonen/kohonen.htm

Na obraz litery (rys. a) nałożona jest siatka prostokątna (rys. b). Następnie pola, przez które przechodzi kreska litery, są zaczerniane, a pozostałe pola pozostają białe. W ten sposób powstaje obraz binarny (rys. c). Taki obraz możemy wprowadzić na wejście sieci neuronowej.[6]

Największym problemem jest odpowiedni dobór progu, tak, aby zachować całość istotnej dla nas zawartości obrazu a pominąć wszystko co jest zbędne.

Progowanie Progowanie

Rys.6. Efekt binaryzacji obrazu.

źródło:http://www.mif.pg.gda.pl/homepages/marcin/Wyklad3.pdf

 

Podczas etapu segmentacji obrazu następuje jego ostateczne przygotowanie do interpretacji. Określa się orientację dokumentu, układ strony, dokonuje się korekt ustawienia, podziału strony na segmenty czy wreszcie na linie, słowa oraz poszczególne znaki.

Najistotniejszym elementem postępowania jest rozpoznawanie znalezionych znaków. Program musi poprawnie zinterpretować rozpoznane znaki. Ogólny podział metod do tego służących to: rozpoznawanie wzorców oraz rozpoznawanie cech oraz wykorzystanie sztucznych sieci neuronowych. Program wie, że każdy znak ma zdefiniowane cechy szczególne, każdy znak jest poddawany działaniu kilku metod pozwalających określić jego pierwowzór. Następnie porównywane są prawdopodobieństwa dla każdego znaku i do tekstu trafia ten dla którego było ono najwyższe. W przypadku rozpoznawania wzorców wykorzystuje się bazy danych z licznymi krojami pisma. Porównuje się każdy znak z dostępnymi wzorcami i jeżeli znaleziono taki sam element to wpisuje się go do tekstu. Ostatnią możliwością są sztucznie programowane sieci neuronowe.

Rozpoznawanie

Rys.7. Rozpoznawanie cech liter.

źródło:http://www.komputerswiat.pl/jak-to-dziala/2009/08/optyczne-rozpoznawanie-tekstu---ocr.aspx

Ostatnim etapem jest korekcja słownikowa utworzonego tekstu. Specjalnie utworzone słowniki służą do łączenia znaków w wyrazy oraz coraz większe elementy języka. W ten sposób buduje się całość tekstu poddanego działaniu programu OCR.

 

Rozpoznawanie tekstu w przedsiębiorstwie

Kinga Rocławska

Pomimo powszechności komputerów i Internetu, wzrasta ilość zużywanego papieru w biurach. Niepokojący jest fakt, że w ciągu ostatnich 10 lat zapotrzebowanie na papier i tektury zwiększało się średnio o 2,5 % co roku. Połowa z wykorzystywanego papieru przypada na ten do druku.

Większość dokumentów występująca w formie papierowej w przedsiębiorstwach to umowy, faktury, faksy, oferty, pisma, artykuły oraz reklamy. Kiedy zaistnieje potrzeba uzyskania wersji elektronicznie edytowalnej wymienionych dokumentów zamiast ręcznego przepisywania można poddać je automatycznej obróbce.

Jeśli jedna osoba przepisywałaby ręcznie 1 stronę A4 dziennie, to w ciągu roku spędziłaby 15 dni roboczych czyli 3 tygodnie pracy na tej czynności. Natomiast jeżeli dwudziestu pracownikom firmy zajmuje po 30 minut w ciągu dnia ręczne przepisywanie tekstu, strata czasu jest 20-krotnie wyższa. [7]

Nawet 80 stron na minutę potrafi przeskanować i przetworzyć biurowy skaner, wykonując przy tym operacje OCR[8]. ABBYY FineReader wprowadza do komputera tekst drukowany 100 razy szybciej niż profesjonalna maszynistka (30 000 słów na minutę).[9] Jedna osoba jest w stanie wprowadzić dziennie do systemu dane z 200 formularzy, czyli z 4400 miesięcznie. Aby wprowadzić ręcznie 100 000 stron formularzy miesięcznie wymagane jest zaangażowanie do pracy 23 osób. Przy zastosowaniu ABBYY FlexiCapture 8.0 Pro jeden pracownik może zweryfikować i wprowadzić dziennie dane z ok. 1000 formularzy. Czyli wystarczy zaangażować w ten proces 5 ludzi oraz jednego administratora lub managera.[10]

Standardem w firmach zarówno polskich, jak i zagranicznych jest papierowy obieg faktur zakupu. Największe wady tego sposobu to gubienie faktur, ich długie przetrzymywanie oraz kilkukrotne krążenie po firmie. Aby rozwiązać te problemy, coraz więcej firm decyduje się na wdrażanie rozwiązań do skanowania i elektronicznego obiegu faktur. Proces ten polega na zeskanowaniu posortowanych faktur, poddaniu ich obróbce OCR i ICR, a następnie sczytaniu z nich uprzednio sprawdzonych danych do systemu. Rozpoznawaniu są poddawane miedzy innymi: data dokumentu, numer rachunku bankowego, NIP oraz wartości kwotowe faktury, czyli kwota netto, kwota brutto, VAT.[11] System umożliwia ręczną korektę tych danych. Oszczędności związane z wykorzystywaniem elektronicznego obiegu faktur można zaobserwować w firmach otrzymujących od 5 tyś. faktur wzwyż rocznie (dane z 2009 roku). Zamiana obiegu papierowego na obieg elektroniczny przynosi pożytek dla wszystkich działów uczestniczących w tym procesie i jest akceptowana przez urzędy skarbowe. [12]

Według badań przeprowadzonych przez Instytut Badawczy IPSOS w 2006 roku wynika, że usługi skanowania i OCR dokumentacji cieszą się coraz większą popularnością. Wykorzystywało je aż 64% spośród analizowanych firm, z czego 75% to firmy telekomunikacyjne.[13]

Dzięki stosowaniu programów do rozpoznawania tekstu firma może zaoszczędzić czas i pieniądze, zminimalizować operacje manualne, zwiększyć wydajność oraz zredukować liczbę błędów w porównaniu z ręcznym przepisywaniem. Obróbce mogą zostać poddane nie tylko zeskanowane dokumenty, ale również PDF’y oraz otrzymywane np. drogą elektroniczną pliki graficzne.

 

Najpopularniejsze programy OCR

Aleksandra Rajfura

Najbardziej znanymi programami w kategorii OCR są Recognita OmniPage wyprodukowany przez Recognita, FineReader firmy Abbyy oraz Readiris należący do I.R.I.S.

Pierwszy z wymienionych jest najpopularniejszym programem na polskim rynku. Koszt najnowszej wersji Recognita OmniPage Pro 14 wynosi ok. 450 zł, nie jest to zbyt wygórowana cena za program, który oferuje ponad 99 procentową precyzję rozpoznawania tekstu dla fontów wielkości do 72 punktów.  Ponadto program rozpoznaje 114 języków (w tym polski), bazujących na alfabetach greckim i łacińskim, cyrylicy oraz większej części języków wschodniej europy. Dodatkowym atutem jest możliwość skanowania w kilku trybach m.in. czarno-białym, kolorowym oraz w odcieniach szarości jak również wbudowany edytor tekstu Wysiwyg pozwalający na eksportowanie atrybutów tekstu i grafiki z oryginalnego dokumentu. Poza edytorem tekstu OmniPage posiada wbudowany moduł IntelliTrain do poprawiania dokumentów oraz uczenia programu rozpoznawania trudnych znaków. Program firmy Recognita umożliwia też import danych w coraz popularniejszym formacie eBook, PDF oraz XML. [14]

Cena najnowszej wersji programu firmy Abbyy FineReader 10 wacha się od ok. 400 do 1100 zł w wersji Corporate. Obsługuje 186 języków, w tym polski, umożliwia również korzystanie ze słownika programu MS Word w celu rozpoznawania skomplikowanych słów i ortografii. Dzięki nowoczesnej technologii ADRT program może sprawnie przetwarzać dokumenty wielostronicowe oraz odtworzyć nawet najtrudniejsze atrybuty tekstu jak np. spisy treści, hierarchię nagłówków, przypisy i style. Ponadto wspomniana technologia nie ogranicza się jedynie do zachowania początkowego wyglądu dokumentów wielostronicowych, ale odtwarza je, jako rodzime, w pełni sformatowane pliki MS Office. Dodatkowo FineReader oferuje rozpoznawanie tekstu z obrazów nie tylko ze skanera, ale również ze zdjęć z aparatów czy telefonów komórkowych. Podobnie jak program firmy Recognita pozwala przekształcać pliki w formacie HTML, eBook zapisując długie rozdziały książki w pojedynczy plik HTML. Ponadto rozpoznaje tabele, tekst drukowany, pismo ozdobne i kody kreskowe. [15] [16]

Program Readiris Pro 11 kosztujący ok. 400 zł, w swojej ofercie ma znacznie mniej języków tekstu, bo jedynie 123 w tym polski. Podobnie jak wcześniej opisane programy posiada polski interface, rozpoznaje 23 rodzaje kodów kreskowych w tym 2-wymiarowe, tabele, zapis w kolumnach i strukturę nagłówków, oferuje też możliwość przesłania pliku do aplikacji MS Office. Jego mocną stroną jest możliwość uczenia i funkcja podejmowania decyzji, w obu procesach wymaga jednak obecności użytkownika. [17]

Poza najpopularniejszymi płatnymi programami warto wspomnieć o aplikacjach darowych a wśród nich o serwerze OCR FineOnline oraz programie FreeOCR.net. Pierwszy z nich jest produktem firmy Abbyy i działa w oparciu o program FineReader Engine. Wymaga jedynie założenia konta na stronie internetowej https://fineonline.pl/ a następnie przesłania zeskanowanych stron tekstu. Możliwe jest zapisanie pliku w formatach wyjściowych takich jak DOC, RTF, XLS, HTML lub TXT. Przetworzony plik zostanie odesłany na adres podany przy rejestracji konta. FineOnline nie jest jednak pozbawiony wad. Jedną z nich jest fakt, iż darmowo przetwarzane są jedynie trzy pierwsze strony, każda kolejna jest płatna i tak np. przetworzenie 5 stron kosztuje 10 zł a 100 stron 120 zł. [18] [19]

Program FreeOCR.net ze swoja najnowszą wersją 3.0 oferuje całkiem darmowe przetwarzanie tekstu. Wymaga załączenia zdjęcia w minimalnej rozdzielczości wynoszącej 200 dpi. FreeOCR działa w oparciu o Tesserakt - silnik Open Source firmy Google. [20]

Na zakończenie, jako ciekawostkę warto jeszcze wspomnieć o systemie VirtualCOP, który składa się z czterech niezależnych podsystemów, wśród których występuje nowoczesny system informacji drogowej bazujący na OCR. Mowa tu m.in. o foto-radarach wykorzystujących OCR tablic rejestracyjnych. Błąd odczytu nie przekracza 1, 5 % i odnosi się on jedynie do tablic zniekształconych lub mocno ubrudzonych.

 


[1] http://www.par.pl/2008/files/04-08_artykul2p.pdf

[2] http://www.pfsl.poznan.pl/horyzonty/nosniki/6rozdzial.html

[3] http://en.wikipedia.org/wiki/Optical_character_recognition

[4] http://en.wikipedia.org/wiki/Optical_character_recognition

[5] http://www.par.pl/2008/files/04-08_artykul2p.pdf

[6] http://osipowicz.w.interia.pl/kohonen/kohonen.htm

[7] http://webcache.googleusercontent.com/search?q=cache%3AQFix4IQncocJ%3Abin.gigacon.org%2Fdownload%2F3373.html+OCR+w+firmie&hl=pl&gl=pl

[8] http://www.pcworld.pl/artykuly/343061_0_1/Rozpoznawanie.na.duza.skale.htm

[9] http://webcache.googleusercontent.com/search?q=cache%3Agyuy09oCkU0J%3Aeoif.gigacon.org%2Fdownload%2F5253.html+OCR+ICR+pdf&hl=pl&gl=pl

[10] http://webcache.googleusercontent.com/search?q=cache%3A7fJj9MptVQoJ%3Atelekomunikacja.sdcenter.pl%2Fdownload%2F6502.html+ocr+przedsi%C4%99biorstwie&hl=pl&gl=pl

[11] http://www.primesoft.pl/ufiles/file/V-Desk%20OCR.pdf

[12] http://podatki.gazetaprawna.pl/wywiady/382334,elektroniczny_obieg_faktur_przynosi_oszczednosci.html

[13] http://www.egospodarka.pl/20606,Rynek-uslug-zarzadzania-dokumentami-w-Polsce,2,20,2.html

[14] http://www.komputerswiat.pl/jak-to-dziala/2009/08/optyczne-rozpoznawanie-tekstu---ocr.aspx

[15] http://www.finereader.pl/

[16] http://forsal.pl/artykuly/408908,systemy_ocr_coraz_czesciej_wspieraja_obieg_dokumentow_w_firmie.html

[17] http://www.irislink.com/

[18] http://www.pcworld.pl/artykuly/60086_0_1/FineOnline.html

[19] http://www.pcworld.pl/news/103222/Serwer.OCR.z.funkcja.konwersji.plikow.PDF.html

[20] http://www.freeocr.net

Poprawiony: czwartek, 27 maja 2010 22:04