Strona główna > Przetwarzanie i archiwizacja dokumentów > Rozpoznawanie formularzy

ABBYY FormReader, FlexiCapture - Rozpoznawanie Formularzy

ABBYY FormReaderSpecyficznym zastosowaniem technologii OCR/ICR są systemy rozpoznawania formularzy, czyli dokumentów posiadających pewną ustabilizowaną strukturę lub/i pewien konkretny układ.

Rozpoznawanie formularzy tym różni się, bowiem od systemów rozpoznawania pełnotekstowego, iż interesuje nas wyłącznie pozyskanie określonych, spodziewanych informacji znajdujących się na dokumencie.


Co więcej informacje te powinny być odpowiednio wydzielone ze względu na ich typ, czyli w osobnym polu powinno znaleźć się przykładowe imię w innym nazwisko bądź/i numer telefonu. Informacje są przedstawione w formie określonego pliku wynikowego (xml, xls, txt, csv itp.) lub poprzez ODBC eksportowane bezpośrednio do baz danych.

Jak wygląda przykładowy proces rozpoznawania formularzy?

Dokumenty skanowane są wiązkach po kilkadziesiąt (kilkaset) kartek na skanerach wyposażonych w automatyczny podajnik (tzw. ADF). W zależności od modelu, skanery potrafią skanować z szybkością od kilkunastu do kilkuset dokumentów na minutę. Wiązka zeskanowanych dokumentów trafia do stacji rozpoznawania, która automatycznie nakłada właściwy szablon a następnie rozpoznaje znaki (litery, cyfry, checkboxy, kody kreskowe) znajdujące się w zdefiniowanych polach. Niepewnie lub nierozpoznane znaki przesyłane są na stacje weryfikacji gdzie operatorzy mając podgląd oryginału formularza ostatecznie je poprawiają lub zatwierdzają (system nawet w sytuacji, której nie jest pewny, co to za znak przedstawia operatorowi własną sugestię). Zweryfikowany formularz może (opcja) trafiać na stację korekty, na której automatycznie sprawdzane są reguły dotyczące np.:

  • poprawności danych (np. numer PESEL porównywany jest z datą urodzin i płcią)
  • kompletności stron i załączników (np. wraz z 4 stronicowym formularzem powinien być dostarczony numer nadania NIP)
  • warunkowej obecności dodatkowych formularzy/załączników (np. warunkiem otrzymania zniżki określonej na formularzu jest dostarczenie/wypełnienie dodatkowych dokumentów)
  • dowolne inne reguły, sprawdzające wyrażenie regularne, kontrolujące wewnętrzne sumy kontrolne itp.

Informacje o zaburzenie danej reguły są przedstawiane operatorowi do korekty. Na koniec w pełni sprawdzony formularz trafia do bezobsługowej stacji exportu, która exportuje dane w postaci wybranego formatu pliku (xml, txt itp.) lub bazy danych (poprzez ODBC). Sam obraz zaś do wskazanego systemu obiegu lub archiwizacji dokumentów.

Czym różnią się formularze stałopozycyjne od zmiennopozycyjnych?

Formularze stałopozycyjne to takie, w których układ pól na formularzu jest stały. W formularzach zmiennopozycyjnych (flexiforms) rozkład odczytywanych pól na formularzu ulega zmianie natomiast stała pozostaje ich struktura (szukane typy pól). Przykładem formularza stałopozycyjnego może być wniosek otwarcia rachunku bankowego (wypełnia się, bowiem wydrukowany wcześniej pusty dokument), każdy z takich dokumentów jest identyczny. Formularzem zmiennopozycyjnym jest np. faktura. Na każdej, bowiem z nich występują te same pola np. nazwa wystawcy, NIP, data wystawienia itp. niemniej informacje te mogą być nadrukowywane w innych miejscach.

Jaka jest skuteczność odczytu pisma w formularzach?

W systemach formularzowych istnieje możliwość zdefiniowania charakterystyki rozpoznawanego pola. Jeśli na przykład chcemy odczytać termin płatności faktury, możemy zdefiniować w systemie, jakie znaki mogą się pojawić, jaki może być format daty oraz jakie są sensowne numery dni, miesięcy i lat. Do innych pól możemy podpiąć dowolnie przez nas stworzone słowniki (np. słownik imion, krajów, narodowości) bądź bazy danych. Jeśli zatem odpowiednio zostanie zdefiniowany układ dokumentu a także odpowiednio precyzyjnie zostaną oznaczone rozpoznawane pola wynik rozpoznawania będzie bliski 100% szczególnie w przypadku pisma drukowanego OCR.

Aby dobrać właściwe rozwiązanie należy się przede wszystkim skupić na tym, jakie typu dokumentów i w jakich ilościach będziemy przetwarzać w systemie. Inne rozwiązanie, bowiem należy przyjąć, jeśli procesować będziemy niewielki ilości głównie tych samych dokumentów, całkiem inne, gdy system miałby być narzędziem uniwersalnym procesującym kilkaset typów różnych dokumentów w ilościach kilkuset tysięcy bądź nawet kilku milionów miesięcznie. Zaś w określonych wypadkach warto pomyśleć o rozwiązaniu dedykowanym maksymalnie wydajnym dla określonego typu dokumentów procesowanego w bardzo dużych ilościach.

Przykładowe rozwiązania:

W zależności od specyfiki dobieramy, więc jedno z poniższych rozwiązań:


Zadaj pytanie dot. :
Treść wiadomości:
Dane osobowe:
Imię i nazwisko:
Firma:
Twój e-mail:
Telefon: