Potrzeba matką wynalazku.

W ostatnim czasie spotkaliśmy się z dość nietypowym problemem u jednego z naszych Klientów. Cześć informacji na jego stronie była zapisana w postaci obrazka na którym jest umieszczony tekst.

Dane te były istotne do pozyskania w celach wzbogacenia product feed’a o dodatkowe informacje jednak nie byliśmy ich w stanie w żaden sposób pobrać z kodu strony ponieważ po prostu tam nie występowały – mieliśmy tylko obrazek z tekstem.

Ponieważ zawsze staramy się znaleźć rozwiązanie napotkanych problemów uznaliśmy, że jedyna możliwością będzie implementacja mechanizmu OCR który pozwoli nam odczytać tekst umieszczony na obrazkach.

Kilka dni kodowania i testowania naszego nowego rozwiązania zakończyły się sukcesem. Dysponujemy w pełni funkcjonalnym i do tego wielojęzykowym OCRem. Już w tym momencie możemy oferować naszym Klientom aby zwiększyć zakres informacji zawartych w ich pliku produktowym.

Więcej na temat samej technologii OCR możecie znaleźć na wikipedi: https://pl.wikipedia.org/wiki/OCR