4NK_IA_front/docs/ocr_cni_adresse.md

29 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

## Améliorations OCR CNI et Adresses
### CNI (Carte Nationale d'Identité)
- MRZ: extraction stricte avec motif `NOM<<PRENOMS` en majuscules et sans accents.
- Heuristique: si MRZ absente, repli `IDFRA` + prénom détecté avant `<<`.
- Libellés FR: prise en charge de `NOM:` et `PRÉNOM:` (ou `PRENOM:`), normalisation des accents.
- Déduplication/priorisation: MRZ prioritaire; nettoyage et validation des noms.
Fichiers impactés: `backend/server.js` (fonction `extractEntitiesFromText`).
### Adresses (France)
- Regex renforcée: `NUMERO + VOIE, CP(\d{5}) + VILLE (+ France optionnel)`.
- Variantes: libellés `Adresse:`, `Siège:`, `Adresse de facturation:` ou `demeurant ...`.
- Normalisations: suppression du suffixe `France` dans `city`, CP forcé à 5 chiffres.
Fichiers impactés: `backend/server.js` (motif `addressPatterns`).
### Tests rapides (manuels)
1) Charger un dossier et téléverser une CNI.
2) Vérifier `/api/folders/<hash>/results` et constater dans `entities.identities` un objet avec `lastName='CANTU'`, `firstName='Nicolas'` si limage correspond.
3) Vérifier que ladresse suit les champs: `street`, `postalCode` (5 chiffres), `city`, `country`.
### Journal
- 2025-09-18: ajout MRZ stricte, heuristique `IDFRA`, libellés FR; regex adresse FR; normalisations.