Accueil > Programmes > Hprimator > Algorithme 4 : Les passes multiples
Algorithme 4 : Les passes multiples
mercredi 18 décembre 2013, par
UN SEUL PASSAGE
Il est toujours possible qu’avec un texte particulièrement bien conformé, au balisage rigoureux, à l’écriture sans pâté, la première lecture retrouve d’emblée l’ensemble 3 champs clefs
MULTIPASSE
Mais parfois il n’en trouve qu’un ou 2 et parfois aucun
S’il en retrouve 1, l’algorithme probabiliste, possède maintenant un joker et peut appliquer la loi de Bayès,
Que devient A sachant B |
Le champ trouvé devient donc une nouvelle "Balise" pour le passage suivant.
C’est comme un jeu de Poker à plusieurs tours, chaque tour apporte son nouvel indice, et nous rajouterons autant de tours de passe qu’il est nécessaire pour dénicher dans un texte nos 3 champs clefs.
EXEMPLES
- En principe si je ne trouve pas le NOM, je ne trouverai pas non plus le Prénom, car le NOM est la balise implicite du Prénom
- Supposons donc que je n’ai que la Date de Naissance,
- C’est sans doute le champ le plus facile a trouver, car même si on ne possède pas de balise "née le", la présentation des dates est très particulières (mis à part le côté fantaisiste du formatage des dates, en tous cas, c’est souvent fantaisiste, mais c’est aussi toujours formaté : Jour Mois Année)
- Si je n’ai pas le nom, c’est qu’il n’est pas balisé (La ligne ne commence pas par "Mme" ou "Mr" par exemple, le plus souvent la ligne commence directement par le NOM,
- Il suffit donc, de pointer la ligne dans laquelle figure la date de naissance, puis d’aller lire son début pour trouver le NOM
Un autre exemple serait de retrouver une date de rédaction
- Un grand nombre de courriers commencent par :
- Lorient le
- Brest le,
- Rennes, le
L’algorithme probabiliste dit qu’il suffit de trouver la ligne qui contient la Ville pour trouver la date !
Cet algorithme probabiliste sera développé dans le concept de la
LIGNE MAGIQUE |