BlueGEEK Journal

Accueil > Programmes > Hprimator > Cahier des charges à l’attention des correspondants

Cahier des charges à l’attention des correspondants

mercredi 15 janvier 2014, par bluegyn_spip


Celle étude poussée de la reconnaissance automatique de document scannés, retombe effectivement sur des conclusions de simplification mais qui commencent à la source

S'il y avait un cahier des charges à faire, une règle d'or à énoncer, ce serait déjà la normalisation des courriers papier


(En ce qui concerne le document électronique, quel que soit son format, TXT, DOC, RTF, PDF XLS PPT etc l'ordinateur saura toujours s'y retrouver,soit en automatique soit en manuel, c'est propre, c'est net, même si c'est désordonné)

Pour le papier c'est plus compliqué, il faut le scanner puis le traduire par OCR,
Et la les résultat sont très aléatoires

Préambule:

  • Garbage In, Garbage Out (en gros si on scanne un document merdique, la traduction sera proportionnellement merdiquitou )


DU CONCRET :


Un beau document bien construit est :

- 1 document qui tient sur une seule feuille, idéalement sur une seule page (le recto verso en une seule passe n'est plus un pb pour les scanner modernes, l'économie de temps et de papier est substantielle, et supprime le plus souvent la corvée des agrafes)
- La mise en page doit tenir sur une seule colonne - comme un EMAIL (Éviter absolument la mise en cadre des textes et le multicolonnage)
- Sur une page bien imprimée, aux caractères bien lisibles, l'OCR sait reconnaitre les cadres et les colonnes, mais c'est loin d'être le cas du tout venant, l'OCR plaçant parfois le cadre d'entête en fin de texte, ou la colonne de gauche, contenant la litanie des praticiens en RTT au milieu, ce qui gêne à la lisibilité et égare bien sur le robot fouineur qui ne sait plus ou chercher l'info.


Le concept de la ligne magique doit être promu (Dans hPRim le PR veut dit "PRomotion" de l'Information Médicale)


Définition

- La Ligne Magique est définie comme : Ligne qui contient à elle seule les 3 renseignements majeurs pour l'indexation unique d'un fichier parmi des millions :
  1. Le NOM
  2. Le Prénom
  3. La Date de Naissance (ou équivalent)
  • Sur 10.000 dossiers en 25 ans de pratique je n'ai jamais rencontré 2 patients homonymes de même âge ET nés le même jour et dieu sait qu'en Bretagne on a des homonymes, chez les les goff, le gal et autres le roux l

-1- La première règle d'or est l'ordre 1 2 3 = NOM Prénom Date

Exemple :

  • Dupont Marie 14/17/1789
  • ou Dupont Marie 21 ans

Et Pas

  • Marie DUPONT

Si le robot peut reconnaitre facilement Marie Dupont comme Madame DUPONT puisque seule marie fait partie de ma liste de prénoms (fonction ISPrénom)
Il sera infoutu se savoir si Gérard André est Monsieur Gérard ou Mr. André

-2 - La seconde règle est la Casse, dans un courrier bien conformé la ligne magique comporte toujours

  1. Un NOM tout en majuscules = Ex DUPONT
  2. Un Prénom Capitalisé (1eres lettres en majuscules reste en minuscules) Ex : Marie ou Anne-Marie
  3. La date de naissance contient au moins un chiffre = 14 Juillet, 14/7 14-7 14.7 ou 21 ans

Exemple de ligne magique parfaite :

  • Madame DUPONT Marie née le 14/07/1789,

Selon l'algorithme heuristique de Bayès il suffit de trouver dans un texte une ligne qui contient 2 critères majeures pour être quasiment sûr que c'est la ligne magique
(NB: le principe Bayésien c'est ce deviner à coup sur les cartes de l’adversaire en en abattant 2 : fonction IsmagicLine;

Ex

  1. Ligne qui contient à la fois les BALISES "Madame" ET "née le"
  2. Ligne qui contient à la fois un Prénom ET une Date

Si je suis sur d'avoir trouvé ma ligne magique, et que celle ci est bien écrite, alors je sais avec une quasi certitude que :
- Le nom c'est ce qui est "ToutEnMaj" fonction IsToutEnMaj
- Le Prénom ce qui est "EnCapitales" fonction IsCap
- La Date de naissance ce qui contient un chiffre et la balise ANS ou le séparateur / - ou . fonction IsLikeDate

CONCLUSION :

La première étape du contrôle de qualité pour le transport de l’information c'est la rédaction du document (travail non pas du destinataire mais de l'envoyeur)
Et il serait temps de faire passer le message à tous ceux qui ne veulent pas se donner la peine de se connecter
D'au moins, car c'est la moindre des politesses, de rédiger correctement leur compte rendu papier :

  • pas d’agrafes
  • une seule feuille
  • une seule colonne
  • Ingestion du concept de la ligne magique :
    1. contenant au début le NOM en majuscules
    2. suivie du ou des prénoms en Capitales
    3. suivi de la date de naissance (format officiel jj/mm/AAAA) ou au moins l'âge
    4. terminant la phrase (saut de ligne ou ponctuation)
    5. Dans l'ordre strict NOM Prénom DDN/Age,
  • Qui peut être remplacé par un BALISAGE standardisé (car on peut faire un gabarit de traduction pour chaque correspondant)
    1. le Nom est annoncé par une balise fixe : ex Mme ou Identité : fonction Nom := MotSuivantBalise ('Madame') ;
    2. Le Prénom suit le nom : fonction Prénom := MotSuivantBalise ( $NOM ); (car le Nom est la balise naturelle du prénom)
    3. La Date de naissance est annoncée par une balise fixe : ex né(e) le DDN = FindeLignetSuivantBalise('né(e) le');

    Et il serait peut être bon de renvoyer ce cahier des charges simple à certains correspondants particulièrement hermétiques au partage automatisé de l'information


    ce qui pour nous zotes pôv' programmeurs de l’impossible, représenterait un atout C-O-N-S-I-D-E-R-A-B-L-E