Joueb.com
Envie de créer un weblog ?
ViaBloga
Le nec plus ultra pour créer un site web.
Débarrassez vous de cette publicité : participez ! :O)
 Premiers Pas   Temps   Nouveautés   Boulot   Relatif!   Dixit   IA   Loisirs   Famille   Inintéressant 
Tout est relatif!
Version  XML 
Recherche

Archive : tous les articles

Session
Nom d'utilisateur
Mot de passe

Mot de passe oublié ?



Le temps qu'il fait
The WeatherPixie
Rss Finder




Recherche Wiki

Optical Character Recognition, ou reconnaissance optique de caractères.
Cette technique permet de reconnaître les caractères présentes dans un image. Par exemple, elle permet, à condition d'en avoir scanné les pages, de lire un livre à un aveugle.

En général, on fait un traitement d'image préalable (le prétraitement) qui consiste à redresser l'image (deskew en anglais) afin d'avoir des lignes droites, et un seuillage (pour ne garder que des dessins propres aux lettres).

ll faut d'abord repérer les caractères dans l'image (ce qu'on appelle la segmentation).

Puis, il faut retrouver la signification de chaque dessin (ou ) correspondant à un caractère. Ce qui n'est pas simple: il faut tenir compte des diverses polices possibles, des styles des caractères (l'italique est assez difficile à lire, pour un ), du bruit sur l'image, des lettres qui se chevauchent (ça existe, avec des formateurs de texte corrects, tels , quand un f est suivi d'un i, par exemple, le point du i se confond avec la boucle supérieure du f), etc.

Les résultats de cette technique tendent à s'améliorer. Sur du texte imprimé, on reconnaît au moins 99% des caractères. Mais c'est un résultat médiocre, car il correspond à environ un caractère mal reconnu par ligne.

Sur le texte manuscrit, on est très loin de ces taux de reconnaissance.
Mais la recherche avance.