Optical
Character
Recognition, ou reconnaissance optique de caractères.
Cette technique permet de reconnaître les caractères présentes dans un image. Par exemple, elle permet, à condition d'en avoir scanné les pages, de lire un livre à un aveugle.
En général, on fait un traitement d'image préalable (le prétraitement) qui consiste à redresser l'image (
deskew en anglais) afin d'avoir des lignes droites, et un seuillage (pour ne garder que des dessins propres aux lettres).
ll faut d'abord repérer les caractères dans l'image (ce qu'on appelle la segmentation).
Puis, il faut retrouver la signification de chaque dessin (ou
Glyphe_) correspondant à un caractère. Ce qui n'est pas simple: il faut tenir compte des diverses polices possibles, des styles des caractères (l'italique est assez difficile à lire, pour un
Ocr), du bruit sur l'image, des lettres qui se chevauchent (ça existe, avec des formateurs de texte corrects, tels
La Te X, quand un f est suivi d'un i, par exemple, le point du i se confond avec la boucle supérieure du f), etc.
Les résultats de cette technique tendent à s'améliorer. Sur du texte imprimé, on reconnaît au moins 99% des caractères. Mais c'est un résultat médiocre, car il correspond à environ un caractère mal reconnu par ligne.
Sur le texte manuscrit, on est très loin de ces taux de reconnaissance.
Mais
la recherche avance.