Na czym polega technologia OCR?
Technologia OCR (Optical Character Recognition) polega na rozpoznawaniu przez odpowiednie oprogramowanie tekstu dostępnego w formie obrazu. Innymi słowy pozwala na przekształcenie do pliku tekstu napisów widocznych na zdjęciach czy też na skanach dokumentów.
Szczegółowy opis działania, charakterystyka. Opis szczegółowy (dla zaawansowanych).
Każdy dokument - co do zasady - może istnieć w dwóch formach:
- w formie obrazu graficznego (czyli zdjęcia lub skanu) jako plik w formacie bmp, jpg, tiff czy innych pokrewnych. Taki dokument jest czytelny dla człowieka ale dla komputera nie różni sie zupełnie od jakiegokolwiek innego zdjęcia. Systemy komputerowe nie potrafią więc wyszukać na takim zdjęciu określonego słowa.
- w formie - czasami myląco (acz nie mylnie) - określanej jako edytowalna. Chodzi tu o formaty typu txt, doc, docx czy inne pokrewne. Taki tekst jest czytelny zarówno dla człowieka jak i dla komputera. Człowiek może taki tekst wyedytować (czyli zmienić) znacznie łatwiej niż tekst umieszczony na zdjęciu. Co jednak równie ważne - taki rozpoznany tekst pozwala odpowiedniemu oprogramowaniu np. na poszukiwanie odpowiedniego słowa.
Rozpoznawanie tekstu może dotyczyć pisma drukowanego (klasyczny OCR), pisma ręcznego (ICR) a także szerzej - rozpoznawania różnych innych informacji pojawiających się na dokumencie (lub obiekcie). Może to być rozpoznawanie znaczników (tzw. OMR), rozpoznawanie kodu kreskowego (również dwuwymiarowego) ale za pomocą czytnika kodów kreskowych - ale właśnie za pomocą specjalizowanego oprogramowania, które na zdjęciu (czy w strumieniu wideo) wyszuka taki kod i go zamieni na ciąg zrozumiałych znaków.
W każdym z tych przypadków niezbędne jest oprogramowanie w którym zapisana jest wiedza na temat kształtu znaków i symboli jakie mają być rozpoznawane. Oprogramowanie takie posiada też wiedzę o strukturze rozpoznawanego tekstu (np. w jakim języku napisano tekst, jakie znaki są zawarte w konkretnym miejscu formularza itd.). Dzięki jednoczesnemu użyciu obu tych obszarów wiedzy można osiągnąć jakość rozpoznawania absolutnie nieosiągalną jeszcze 5 lat temu.
W związku z powyższym można wydzielić dwie rodziny systemów OCR:
- systemy skupione na rozpoznawaniu tekstu, przy czym konkretny układ tego tekstu nie jest znany: może to być np. rozpoznawanie treści pism reklamacyjnych składanych do danego przedsiębiorstwa. Wiemy co do zasady, że pisma są sporządzone w konkretnym języku, ale każde z nich jest zupełnie inne. Rozpoznajemy te dokumenty po to by móc później zastosować tzw. wyszukiwanie pełnotekstowe - czyli przeszukiwać całą treść dokumentu
- systemu skupione na rozpoznawaniu tekstu z dokumentów które mają konkretny ustabilizowany układ - czyli z tzw. formularzy. Formularze takie mogą być mieć sztywną strukturę (np. PIT-36) ale mogą też być bardziej elastyczne. Mamy tu na myśli np. faktury kosztowe jakie otrzymuje dana firma. Jakkolwiek wiadomo jakie informacje pojawiają się na fakturze - to konkretny układ graficzny faktury bywa bardzo różny
Co do zasady systemy drugiej kategorii (do rozpoznawania formularzy) jako, że dysponują większą wiedzą na temat rozpoznawanego dokumentu (niż tylko wiedza o języku) osiągają znacznie niższy poziom błędów niż systemy pierwszego typu.
Zalety technologii:
- redukcja kosztów oraz jednoczesna redukcja błędów związanych z ręcznym wprowadzaniem danych
- znaczne obniżenie czasu wprowadzania danych i eliminacja opóźnień z tym związanych
- redukcja kosztów sprzętowych i pomieszczeń przez użycie jego wysoko produktywnego systemu wprowadzania danych
- szybki dostęp do wszelkich informacji
Jakie branże korzystają z tej technologii i w jakim zakresie?
- produkcja (zamówienia, karty technologiczne, faktury kosztowe, dokumentacja technologiczna)
- logistyka (praktycznie cała dokumentacja magazynowa i transportowa)
- usługi (umowy, zamówienia, reklamacje, faktury kosztowe, dokumentacja procesów)
- finanse (umowy, zlecenia, zarządzanie produktami finansowymi)
Przykładowe zastosowania:
- zamówienia (np. akwizytor podczas rozmów z klientem wypisuje ręcznie standardowy formularz zamówienia)
- umowy standardowe (np. umowy przystąpienia do funduszu emerytalnego) wnioski (np. o wydanie karty kredytowej, udzielenie kredytu, przystąpienie do organizacji)
- raporty (np. raport kierowcy z ilością przejechanych kilometrów danego dnia, nazwami odwiedzonych klientów)
- raporty z pracy maszyn (operator maszyny rejestruje kiedy i jakie zlecenia wykonywał)
- ankiety (np. podczas badania opinii publicznej, wyborów, itd.)
- formularzach rekrutacyjnych, egzaminacyjnych (np. wyższych uczelni)
- książka podawcza
- zarządzanie procesami w firmie - przepływ dokumentów (tzw. Document Management Systems)