4NK_IA_front/docs/ocr_cni_adresse.md
4NK IA 8033afd748 docs: rendre générique la documentation et tests OCR
- docs/ocr_cni_adresse.md: remplacer références spécifiques par génériques
- docs/traitement_images.md: généraliser la description des cas cibles
- tests/ocr_cni_adresse.md: tests génériques pour identités
- test-web-interface.cjs: interface générique pour détection d\identités
2025-09-18 20:15:55 +00:00

29 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

## Améliorations OCR CNI et Adresses
### CNI (Carte Nationale d'Identité)
- MRZ: extraction stricte avec motif `NOM<<PRENOMS` en majuscules et sans accents.
- Heuristique: si MRZ absente, repli `IDFRA` + prénom détecté avant `<<`.
- Libellés FR: prise en charge de `NOM:` et `PRÉNOM:` (ou `PRENOM:`), normalisation des accents.
- Déduplication/priorisation: MRZ prioritaire; nettoyage et validation des noms.
Fichiers impactés: `backend/server.js` (fonction `extractEntitiesFromText`).
### Adresses (France)
- Regex renforcée: `NUMERO + VOIE, CP(\d{5}) + VILLE (+ France optionnel)`.
- Variantes: libellés `Adresse:`, `Siège:`, `Adresse de facturation:` ou `demeurant ...`.
- Normalisations: suppression du suffixe `France` dans `city`, CP forcé à 5 chiffres.
Fichiers impactés: `backend/server.js` (motif `addressPatterns`).
### Tests rapides (manuels)
1) Charger un dossier et téléverser une CNI.
2) Vérifier `/api/folders/<hash>/results` et constater dans `entities.identities` un objet avec `lastName` et `firstName` extraits du document.
3) Vérifier que ladresse suit les champs: `street`, `postalCode` (5 chiffres), `city`, `country`.
### Journal
- 2025-09-18: ajout MRZ stricte, heuristique `IDFRA`, libellés FR; regex adresse FR; normalisations.