feat: Implémentation complète des pipelines et intégrations

- Pipelines worker complets (preprocess, ocr, classify, extract, index, checks, finalize) - Intégration avec les APIs externes (Cadastre, Géorisques, BODACC, Infogreffe, RBE) - Client AnythingLLM pour l'indexation et la recherche sémantique - Client Neo4j pour la gestion du graphe de connaissances - Client OpenSearch pour la recherche plein-texte - Vérifications automatisées avec calcul du score de vraisemblance - Amélioration des pipelines OCR avec préprocessing avancé - Support des formats PDF, images avec conversion automatique - Correction lexicale spécialisée notariale - Indexation multi-système (AnythingLLM, OpenSearch, Neo4j) Fonctionnalités ajoutées: - Vérification d'adresses via API Cadastre - Contrôle des risques géologiques via Géorisques - Vérification d'entreprises via BODACC - Recherche de personnes via RBE et Infogreffe - Indexation sémantique dans AnythingLLM - Recherche plein-texte avec OpenSearch - Graphe de connaissances avec Neo4j - Score de vraisemblance automatisé
2025-09-10 18:37:04 +02:00 · 2025-09-10 18:37:04 +02:00 · f485efdb87
commit f485efdb87
parent 3789aec11c
12 changed files with 2106 additions and 135 deletions
--- a/docker/worker/requirements.txt
+++ b/docker/worker/requirements.txt
@ -15,3 +15,6 @@ neo4j==5.23.1
 jsonschema==4.23.0
 ocrmypdf==15.4.0
 pydantic==2.8.2
 PyMuPDF==1.23.26
 pdf2image==1.17.0
 PyPDF2==3.0.1
--- a/services/worker/tasks/indexing_tasks.py
+++ b/services/worker/tasks/indexing_tasks.py
@ -31,10 +31,48 @@ def index_document(self, doc_id: str, text: str, entities: Dict[str, Any], doc_t
            meta={'current_step': 'indexing', 'progress': 0}
        )
-        # TODO: Implémenter l'indexation réelle
+        # Indexation dans les différents systèmes
-        # - Indexation dans AnythingLLM
+        indexing_results = {}
-        # - Indexation dans OpenSearch
+        
-        # - Création du graphe Neo4j
+        # 1. Indexation dans AnythingLLM
        try:
            from services.worker.utils.anythingllm_client import AnythingLLMClient
            anyllm_client = AnythingLLMClient()
            anyllm_result = await anyllm_client.index_document_for_actes(
                doc_id, text, entities, doc_type
            )
            indexing_results['anythingllm'] = anyllm_result
        except Exception as e:
            logger.error(f"Erreur indexation AnythingLLM: {e}")
            indexing_results['anythingllm'] = {'status': 'error', 'error': str(e)}
        # 2. Indexation dans OpenSearch
        try:
            from services.worker.utils.opensearch_client import OpenSearchClient
            opensearch_client = OpenSearchClient()
            opensearch_result = await opensearch_client.index_document(doc_id, {
                'text_content': text,
                'entities': entities,
                'doc_type': doc_type,
                'filename': f"{doc_id}.pdf",
                'status': 'processed'
            })
            indexing_results['opensearch'] = opensearch_result
        except Exception as e:
            logger.error(f"Erreur indexation OpenSearch: {e}")
            indexing_results['opensearch'] = {'status': 'error', 'error': str(e)}
        # 3. Création du graphe Neo4j
        try:
            from services.worker.utils.neo4j_client import Neo4jClient
            neo4j_client = Neo4jClient()
            # Ajout du document au graphe
            neo4j_result = await neo4j_client.add_entities_to_document(doc_id, entities)
            indexing_results['neo4j'] = neo4j_result
        except Exception as e:
            logger.error(f"Erreur indexation Neo4j: {e}")
            indexing_results['neo4j'] = {'status': 'error', 'error': str(e)}
        import time
        time.sleep(1)  # Simulation du traitement
@ -42,12 +80,8 @@ def index_document(self, doc_id: str, text: str, entities: Dict[str, Any], doc_t
        result = {
            'doc_id': doc_id,
            'status': 'completed',
-            'indexed_in': {
+            'indexing_results': indexing_results,
-                'anythingllm': True,
+            'chunks_created': indexing_results.get('anythingllm', {}).get('chunks_created', 0),
                'opensearch': True,
                'neo4j': True
            },
            'chunks_created': 5,
            'processing_time': 1.0
        }
--- a/services/worker/tasks/verification_tasks.py
+++ b/services/worker/tasks/verification_tasks.py
@ -30,40 +30,88 @@ def verify_document(self, doc_id: str, entities: Dict[str, Any], doc_type: str,
            meta={'current_step': 'verification', 'progress': 0}
        )
-        # TODO: Implémenter les vérifications réelles
+        # Vérifications externes avec les APIs
-        # - Vérifications externes (Cadastre, Géorisques, BODACC, etc.)
+        verification_results = {}
-        # - Contrôles de cohérence
+        
-        # - Calcul du score de vraisemblance
+        # 1. Vérification des adresses via Cadastre
        if 'bien' in entities and 'adresse' in entities['bien']:
            try:
                from services.worker.utils.external_apis import ExternalAPIManager
                api_manager = ExternalAPIManager()
                address_result = await api_manager.verify_address(
                    entities['bien']['adresse'],
                    entities['bien'].get('code_postal'),
                    entities['bien'].get('ville')
                )
                verification_results['cadastre'] = address_result
            except Exception as e:
                logger.error(f"Erreur vérification Cadastre: {e}")
                verification_results['cadastre'] = {'status': 'error', 'error': str(e)}
        # 2. Vérification des risques géologiques
        if 'bien' in entities and 'adresse' in entities['bien']:
            try:
                from services.worker.utils.external_apis import ExternalAPIManager
                api_manager = ExternalAPIManager()
                risks_result = await api_manager.check_geological_risks(
                    entities['bien']['adresse']
                )
                verification_results['georisques'] = risks_result
            except Exception as e:
                logger.error(f"Erreur vérification Géorisques: {e}")
                verification_results['georisques'] = {'status': 'error', 'error': str(e)}
        # 3. Vérification des entreprises (si applicable)
        if 'vendeur' in entities and 'nom' in entities['vendeur']:
            try:
                from services.worker.utils.external_apis import ExternalAPIManager
                api_manager = ExternalAPIManager()
                company_result = await api_manager.verify_company(
                    entities['vendeur']['nom']
                )
                verification_results['bodacc'] = company_result
            except Exception as e:
                logger.error(f"Erreur vérification BODACC: {e}")
                verification_results['bodacc'] = {'status': 'error', 'error': str(e)}
        # 4. Vérification des personnes
        if 'vendeur' in entities or 'acheteur' in entities:
            try:
                from services.worker.utils.external_apis import ExternalAPIManager
                api_manager = ExternalAPIManager()
                # Vérification du vendeur
                if 'vendeur' in entities:
                    person_result = await api_manager.verify_person(
                        entities['vendeur'].get('prenom', ''),
                        entities['vendeur'].get('nom', ''),
                        entities['vendeur'].get('date_naissance')
                    )
                    verification_results['person_vendeur'] = person_result
                # Vérification de l'acheteur
                if 'acheteur' in entities:
                    person_result = await api_manager.verify_person(
                        entities['acheteur'].get('prenom', ''),
                        entities['acheteur'].get('nom', ''),
                        entities['acheteur'].get('date_naissance')
                    )
                    verification_results['person_acheteur'] = person_result
            except Exception as e:
                logger.error(f"Erreur vérification personnes: {e}")
                verification_results['person_verification'] = {'status': 'error', 'error': str(e)}
        import time
        time.sleep(2)  # Simulation du traitement
-        # Vérifications simulées
+        # Calcul du score de vraisemblance basé sur les vérifications
-        verifications = {
+        credibility_score = _calculate_credibility_score(verification_results)
            'cadastre': {
                'status': 'verified',
                'confidence': 0.95,
                'details': 'Adresse vérifiée dans le cadastre'
            },
            'georisques': {
                'status': 'verified',
                'confidence': 0.90,
                'details': 'Aucun risque majeur identifié'
            },
            'bodacc': {
                'status': 'verified',
                'confidence': 0.85,
                'details': 'Personnes vérifiées dans le BODACC'
            }
        }
        # Calcul du score de vraisemblance
        credibility_score = 0.90
        result = {
            'doc_id': doc_id,
            'status': 'completed',
-            'verifications': verifications,
+            'verifications': verification_results,
            'credibility_score': credibility_score,
            'manual_review_required': credibility_score < 0.75,
            'processing_time': 2.0
@ -130,3 +178,48 @@ def update_external_data():
        'updated_sources': ['cadastre', 'georisques', 'bodacc'],
        'timestamp': '2025-01-09T10:00:00Z'
    }
 def _calculate_credibility_score(verification_results: Dict[str, Any]) -> float:
    """
    Calcul du score de vraisemblance basé sur les vérifications
    Args:
        verification_results: Résultats des vérifications
    Returns:
        Score de vraisemblance entre 0 et 1
    """
    total_score = 0.0
    total_weight = 0.0
    # Poids des différentes vérifications
    weights = {
        'cadastre': 0.3,
        'georisques': 0.2,
        'bodacc': 0.2,
        'person_vendeur': 0.15,
        'person_acheteur': 0.15
    }
    for verification_type, result in verification_results.items():
        if verification_type in weights:
            weight = weights[verification_type]
            total_weight += weight
            if result.get('status') == 'verified':
                confidence = result.get('confidence', 0.8)
                total_score += confidence * weight
            elif result.get('status') == 'not_found':
                # Pas trouvé n'est pas forcément négatif
                total_score += 0.5 * weight
            elif result.get('status') == 'error':
                # Erreur réduit le score
                total_score += 0.2 * weight
    # Normalisation du score
    if total_weight > 0:
        final_score = total_score / total_weight
    else:
        final_score = 0.5  # Score par défaut si aucune vérification
    return min(max(final_score, 0.0), 1.0)
--- a/services/worker/utils/anythingllm_client.py
+++ b/services/worker/utils/anythingllm_client.py
@ -0,0 +1,411 @@
 """
 Client pour l'intégration avec AnythingLLM
 """
 import os
 import logging
 import requests
 from typing import Dict, Any, List, Optional
 import json
 from datetime import datetime
 logger = logging.getLogger(__name__)
 class AnythingLLMClient:
    """Client pour l'intégration avec AnythingLLM"""
    def __init__(self):
        self.base_url = os.getenv('ANYLLM_BASE_URL', 'http://anythingllm:3001')
        self.api_key = os.getenv('ANYLLM_API_KEY', 'change_me')
        # Configuration des workspaces
        self.workspaces = {
            'normes': os.getenv('ANYLLM_WORKSPACE_NORMES', 'workspace_normes'),
            'trames': os.getenv('ANYLLM_WORKSPACE_TRAMES', 'workspace_trames'),
            'actes': os.getenv('ANYLLM_WORKSPACE_ACTES', 'workspace_actes')
        }
        self.session = requests.Session()
        self.session.headers.update({
            'Authorization': f'Bearer {self.api_key}',
            'Content-Type': 'application/json'
        })
    async def create_workspace(self, name: str, description: str = None) -> Dict[str, Any]:
        """
        Création d'un workspace AnythingLLM
        Args:
            name: Nom du workspace
            description: Description du workspace
        Returns:
            Résultat de la création
        """
        logger.info(f"🏢 Création du workspace AnythingLLM: {name}")
        try:
            payload = {
                'name': name,
                'description': description or f"Workspace {name} pour le pipeline notarial",
                'openAiTemp': 0.7,
                'openAiHistory': 20,
                'openAiMaxTokens': 4000,
                'openAiModel': 'gpt-3.5-turbo',
                'embeddingsEngine': 'openai',
                'embeddingsModel': 'text-embedding-ada-002',
                'vectorTag': name.lower().replace(' ', '_')
            }
            response = self.session.post(
                f"{self.base_url}/api/workspace/new",
                json=payload,
                timeout=30
            )
            if response.status_code == 200:
                data = response.json()
                logger.info(f"✅ Workspace {name} créé avec succès")
                return {
                    'status': 'created',
                    'workspace_id': data.get('id'),
                    'workspace_name': name,
                    'created_at': datetime.now().isoformat()
                }
            else:
                logger.error(f"Erreur lors de la création du workspace: {response.status_code}")
                return {
                    'status': 'error',
                    'error': f"Erreur API: {response.status_code}",
                    'response': response.text
                }
        except Exception as e:
            logger.error(f"Erreur lors de la création du workspace {name}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def upload_document(self, workspace_id: str, document_data: bytes, filename: str, 
                            metadata: Dict[str, Any] = None) -> Dict[str, Any]:
        """
        Upload d'un document dans un workspace
        Args:
            workspace_id: ID du workspace
            document_data: Données du document
            filename: Nom du fichier
            metadata: Métadonnées du document
        Returns:
            Résultat de l'upload
        """
        logger.info(f"📄 Upload du document {filename} dans le workspace {workspace_id}")
        try:
            # Préparation des fichiers
            files = {
                'file': (filename, document_data, 'application/octet-stream')
            }
            # Préparation des données
            data = {
                'workspaceId': workspace_id,
                'chunkSize': 1000,
                'chunkOverlap': 200
            }
            if metadata:
                data['metadata'] = json.dumps(metadata)
            # Suppression de l'header Content-Type pour les multipart
            headers = {'Authorization': f'Bearer {self.api_key}'}
            response = requests.post(
                f"{self.base_url}/api/workspace/{workspace_id}/upload",
                files=files,
                data=data,
                headers=headers,
                timeout=60
            )
            if response.status_code == 200:
                data = response.json()
                logger.info(f"✅ Document {filename} uploadé avec succès")
                return {
                    'status': 'uploaded',
                    'document_id': data.get('id'),
                    'filename': filename,
                    'workspace_id': workspace_id,
                    'chunks_created': data.get('chunks', 0),
                    'uploaded_at': datetime.now().isoformat()
                }
            else:
                logger.error(f"Erreur lors de l'upload: {response.status_code}")
                return {
                    'status': 'error',
                    'error': f"Erreur API: {response.status_code}",
                    'response': response.text
                }
        except Exception as e:
            logger.error(f"Erreur lors de l'upload du document {filename}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def search_documents(self, workspace_id: str, query: str, 
                             limit: int = 10) -> Dict[str, Any]:
        """
        Recherche dans les documents d'un workspace
        Args:
            workspace_id: ID du workspace
            query: Requête de recherche
            limit: Nombre maximum de résultats
        Returns:
            Résultats de la recherche
        """
        logger.info(f"🔍 Recherche dans le workspace {workspace_id}: {query}")
        try:
            payload = {
                'workspaceId': workspace_id,
                'query': query,
                'mode': 'chat',
                'maxTokens': 4000,
                'temperature': 0.7,
                'topK': limit
            }
            response = self.session.post(
                f"{self.base_url}/api/workspace/{workspace_id}/chat",
                json=payload,
                timeout=30
            )
            if response.status_code == 200:
                data = response.json()
                logger.info(f"✅ Recherche terminée, {len(data.get('sources', []))} résultats")
                return {
                    'status': 'completed',
                    'query': query,
                    'workspace_id': workspace_id,
                    'results': data.get('sources', []),
                    'response': data.get('text', ''),
                    'searched_at': datetime.now().isoformat()
                }
            else:
                logger.error(f"Erreur lors de la recherche: {response.status_code}")
                return {
                    'status': 'error',
                    'error': f"Erreur API: {response.status_code}",
                    'response': response.text
                }
        except Exception as e:
            logger.error(f"Erreur lors de la recherche: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def get_workspace_info(self, workspace_id: str) -> Dict[str, Any]:
        """
        Récupération des informations d'un workspace
        Args:
            workspace_id: ID du workspace
        Returns:
            Informations du workspace
        """
        try:
            response = self.session.get(
                f"{self.base_url}/api/workspace/{workspace_id}",
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                return {
                    'status': 'found',
                    'workspace': data,
                    'retrieved_at': datetime.now().isoformat()
                }
            else:
                return {
                    'status': 'error',
                    'error': f"Erreur API: {response.status_code}"
                }
        except Exception as e:
            logger.error(f"Erreur lors de la récupération du workspace: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def list_workspaces(self) -> Dict[str, Any]:
        """
        Liste tous les workspaces disponibles
        Returns:
            Liste des workspaces
        """
        try:
            response = self.session.get(
                f"{self.base_url}/api/workspaces",
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                return {
                    'status': 'success',
                    'workspaces': data.get('workspaces', []),
                    'count': len(data.get('workspaces', [])),
                    'retrieved_at': datetime.now().isoformat()
                }
            else:
                return {
                    'status': 'error',
                    'error': f"Erreur API: {response.status_code}"
                }
        except Exception as e:
            logger.error(f"Erreur lors de la liste des workspaces: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def index_document_for_actes(self, doc_id: str, text: str, 
                                     entities: Dict[str, Any], 
                                     doc_type: str) -> Dict[str, Any]:
        """
        Indexation d'un document dans le workspace des actes
        Args:
            doc_id: ID du document
            text: Texte du document
            entities: Entités extraites
            doc_type: Type de document
        Returns:
            Résultat de l'indexation
        """
        logger.info(f"📚 Indexation du document {doc_id} dans le workspace actes")
        try:
            # Préparation du contenu structuré
            structured_content = self._prepare_structured_content(doc_id, text, entities, doc_type)
            # Upload du contenu structuré
            workspace_id = await self._get_workspace_id('actes')
            if not workspace_id:
                return {
                    'status': 'error',
                    'error': 'Workspace actes non trouvé'
                }
            filename = f"{doc_id}_structured.txt"
            document_data = structured_content.encode('utf-8')
            result = await self.upload_document(workspace_id, document_data, filename, {
                'doc_id': doc_id,
                'doc_type': doc_type,
                'entities': entities,
                'indexed_at': datetime.now().isoformat()
            })
            return result
        except Exception as e:
            logger.error(f"Erreur lors de l'indexation du document {doc_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def search_similar_actes(self, doc_type: str, entities: Dict[str, Any]) -> Dict[str, Any]:
        """
        Recherche d'actes similaires
        Args:
            doc_type: Type de document
            entities: Entités extraites
        Returns:
            Actes similaires trouvés
        """
        logger.info(f"🔍 Recherche d'actes similaires pour le type: {doc_type}")
        try:
            workspace_id = await self._get_workspace_id('actes')
            if not workspace_id:
                return {
                    'status': 'error',
                    'error': 'Workspace actes non trouvé'
                }
            # Construction de la requête de recherche
            query = self._build_similarity_query(doc_type, entities)
            result = await self.search_documents(workspace_id, query, limit=5)
            return result
        except Exception as e:
            logger.error(f"Erreur lors de la recherche d'actes similaires: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    def _prepare_structured_content(self, doc_id: str, text: str, 
                                  entities: Dict[str, Any], doc_type: str) -> str:
        """Prépare le contenu structuré pour l'indexation"""
        content = f"""DOCUMENT ID: {doc_id}
 TYPE: {doc_type}
 DATE D'INDEXATION: {datetime.now().isoformat()}
 ENTITÉS EXTRAITES:
 {json.dumps(entities, indent=2, ensure_ascii=False)}
 TEXTE DU DOCUMENT:
 {text}
 ---
 Ce document a été traité par le pipeline notarial v1.2.0
 """
        return content
    def _build_similarity_query(self, doc_type: str, entities: Dict[str, Any]) -> str:
        """Construit une requête de recherche pour trouver des actes similaires"""
        query_parts = [f"type:{doc_type}"]
        # Ajout des entités importantes
        if 'vendeur' in entities:
            query_parts.append(f"vendeur:{entities['vendeur'].get('nom', '')}")
        if 'acheteur' in entities:
            query_parts.append(f"acheteur:{entities['acheteur'].get('nom', '')}")
        if 'bien' in entities:
            query_parts.append(f"adresse:{entities['bien'].get('adresse', '')}")
        return " ".join(query_parts)
    async def _get_workspace_id(self, workspace_name: str) -> Optional[str]:
        """Récupère l'ID d'un workspace par son nom"""
        try:
            workspaces_result = await self.list_workspaces()
            if workspaces_result['status'] == 'success':
                for workspace in workspaces_result['workspaces']:
                    if workspace.get('name') == workspace_name:
                        return workspace.get('id')
            return None
        except Exception as e:
            logger.error(f"Erreur lors de la récupération de l'ID du workspace {workspace_name}: {e}")
            return None
--- a/services/worker/utils/external_apis.py
+++ b/services/worker/utils/external_apis.py
@ -0,0 +1,437 @@
 """
 Intégrations avec les APIs externes pour la vérification des données
 """
 import os
 import logging
 import requests
 from typing import Dict, Any, Optional, List
 import json
 from datetime import datetime
 logger = logging.getLogger(__name__)
 class ExternalAPIManager:
    """Gestionnaire des APIs externes pour la vérification des données"""
    def __init__(self):
        self.session = requests.Session()
        self.session.headers.update({
            'User-Agent': 'Notariat-Pipeline/1.2.0'
        })
        # Configuration des URLs des APIs
        self.apis = {
            'cadastre': os.getenv('CADASTRE_API_URL', 'https://apicarto.ign.fr/api/cadastre'),
            'georisques': os.getenv('GEORISQUES_API_URL', 'https://www.georisques.gouv.fr/api'),
            'bodacc': os.getenv('BODACC_API_URL', 'https://bodacc-datadila.opendatasoft.com/api'),
            'infogreffe': os.getenv('INFOGREFFE_API_URL', 'https://entreprise.api.gouv.fr/v2/infogreffe'),
            'rbe': os.getenv('RBE_API_URL', 'https://www.data.gouv.fr/api/1/datasets/registre-des-beneficiaires-effectifs')
        }
        # Cache pour éviter les appels répétés
        self.cache = {}
        self.cache_ttl = 3600  # 1 heure
    async def verify_address(self, address: str, postal_code: str = None, city: str = None) -> Dict[str, Any]:
        """
        Vérification d'une adresse via l'API Cadastre
        Args:
            address: Adresse à vérifier
            postal_code: Code postal
            city: Ville
        Returns:
            Résultat de la vérification
        """
        logger.info(f"🏠 Vérification de l'adresse: {address}")
        try:
            # Construction de la requête
            params = {
                'q': address,
                'limit': 5
            }
            if postal_code:
                params['code_postal'] = postal_code
            if city:
                params['commune'] = city
            # Appel à l'API Cadastre
            response = self.session.get(
                f"{self.apis['cadastre']}/parcelle",
                params=params,
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                if data.get('features'):
                    # Adresse trouvée
                    feature = data['features'][0]
                    properties = feature.get('properties', {})
                    return {
                        'status': 'verified',
                        'confidence': 0.95,
                        'verified_address': properties.get('adresse', address),
                        'cadastral_reference': properties.get('numero', ''),
                        'surface': properties.get('contenance', 0),
                        'coordinates': feature.get('geometry', {}).get('coordinates', []),
                        'source': 'cadastre_api',
                        'verified_at': datetime.now().isoformat()
                    }
                else:
                    # Adresse non trouvée
                    return {
                        'status': 'not_found',
                        'confidence': 0.0,
                        'message': 'Adresse non trouvée dans le cadastre',
                        'source': 'cadastre_api',
                        'verified_at': datetime.now().isoformat()
                    }
            else:
                logger.warning(f"Erreur API Cadastre: {response.status_code}")
                return {
                    'status': 'error',
                    'confidence': 0.0,
                    'error': f"Erreur API: {response.status_code}",
                    'source': 'cadastre_api'
                }
        except Exception as e:
            logger.error(f"Erreur lors de la vérification de l'adresse: {e}")
            return {
                'status': 'error',
                'confidence': 0.0,
                'error': str(e),
                'source': 'cadastre_api'
            }
    async def check_geological_risks(self, address: str, coordinates: List[float] = None) -> Dict[str, Any]:
        """
        Vérification des risques géologiques via l'API Géorisques
        Args:
            address: Adresse à vérifier
            coordinates: Coordonnées GPS [longitude, latitude]
        Returns:
            Résultat de la vérification des risques
        """
        logger.info(f"🌍 Vérification des risques géologiques: {address}")
        try:
            # Si pas de coordonnées, essayer de les obtenir via géocodage
            if not coordinates:
                coords_result = await self._geocode_address(address)
                if coords_result.get('coordinates'):
                    coordinates = coords_result['coordinates']
            if not coordinates:
                return {
                    'status': 'error',
                    'confidence': 0.0,
                    'error': 'Coordonnées non disponibles',
                    'source': 'georisques_api'
                }
            # Appel à l'API Géorisques
            params = {
                'lon': coordinates[0],
                'lat': coordinates[1],
                'distance': 1000  # 1km de rayon
            }
            response = self.session.get(
                f"{self.apis['georisques']}/v1/gaspar/risques",
                params=params,
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                risks = []
                if data.get('data'):
                    for risk in data['data']:
                        risks.append({
                            'type': risk.get('type_risque', ''),
                            'level': risk.get('niveau_risque', ''),
                            'description': risk.get('description', ''),
                            'distance': risk.get('distance', 0)
                        })
                return {
                    'status': 'completed',
                    'confidence': 0.90,
                    'risks_found': len(risks),
                    'risks': risks,
                    'coordinates': coordinates,
                    'source': 'georisques_api',
                    'checked_at': datetime.now().isoformat()
                }
            else:
                logger.warning(f"Erreur API Géorisques: {response.status_code}")
                return {
                    'status': 'error',
                    'confidence': 0.0,
                    'error': f"Erreur API: {response.status_code}",
                    'source': 'georisques_api'
                }
        except Exception as e:
            logger.error(f"Erreur lors de la vérification des risques géologiques: {e}")
            return {
                'status': 'error',
                'confidence': 0.0,
                'error': str(e),
                'source': 'georisques_api'
            }
    async def verify_company(self, company_name: str, siren: str = None) -> Dict[str, Any]:
        """
        Vérification d'une entreprise via l'API BODACC
        Args:
            company_name: Nom de l'entreprise
            siren: Numéro SIREN (optionnel)
        Returns:
            Résultat de la vérification de l'entreprise
        """
        logger.info(f"🏢 Vérification de l'entreprise: {company_name}")
        try:
            # Construction de la requête
            params = {
                'q': company_name,
                'rows': 5
            }
            if siren:
                params['siren'] = siren
            # Appel à l'API BODACC
            response = self.session.get(
                f"{self.apis['bodacc']}/records/1.0/search/",
                params=params,
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                if data.get('records'):
                    # Entreprise trouvée
                    record = data['records'][0]
                    fields = record.get('fields', {})
                    return {
                        'status': 'verified',
                        'confidence': 0.90,
                        'company_name': fields.get('nom_raison_sociale', company_name),
                        'siren': fields.get('siren', siren),
                        'siret': fields.get('siret', ''),
                        'address': fields.get('adresse', ''),
                        'postal_code': fields.get('code_postal', ''),
                        'city': fields.get('ville', ''),
                        'activity': fields.get('activite_principale', ''),
                        'legal_form': fields.get('forme_juridique', ''),
                        'creation_date': fields.get('date_creation', ''),
                        'status': fields.get('etat_administratif', ''),
                        'source': 'bodacc_api',
                        'verified_at': datetime.now().isoformat()
                    }
                else:
                    # Entreprise non trouvée
                    return {
                        'status': 'not_found',
                        'confidence': 0.0,
                        'message': 'Entreprise non trouvée dans le BODACC',
                        'source': 'bodacc_api',
                        'verified_at': datetime.now().isoformat()
                    }
            else:
                logger.warning(f"Erreur API BODACC: {response.status_code}")
                return {
                    'status': 'error',
                    'confidence': 0.0,
                    'error': f"Erreur API: {response.status_code}",
                    'source': 'bodacc_api'
                }
        except Exception as e:
            logger.error(f"Erreur lors de la vérification de l'entreprise: {e}")
            return {
                'status': 'error',
                'confidence': 0.0,
                'error': str(e),
                'source': 'bodacc_api'
            }
    async def verify_person(self, first_name: str, last_name: str, birth_date: str = None) -> Dict[str, Any]:
        """
        Vérification d'une personne (recherche d'informations publiques)
        Args:
            first_name: Prénom
            last_name: Nom de famille
            birth_date: Date de naissance (format YYYY-MM-DD)
        Returns:
            Résultat de la vérification de la personne
        """
        logger.info(f"👤 Vérification de la personne: {first_name} {last_name}")
        try:
            # Recherche dans le RBE (Registre des Bénéficiaires Effectifs)
            rbe_result = await self._search_rbe(first_name, last_name)
            # Recherche dans Infogreffe (si entreprise)
            infogreffe_result = await self._search_infogreffe(first_name, last_name)
            # Compilation des résultats
            results = {
                'status': 'completed',
                'confidence': 0.70,
                'person_name': f"{first_name} {last_name}",
                'birth_date': birth_date,
                'rbe_results': rbe_result,
                'infogreffe_results': infogreffe_result,
                'source': 'multiple_apis',
                'verified_at': datetime.now().isoformat()
            }
            # Calcul de la confiance globale
            if rbe_result.get('found') or infogreffe_result.get('found'):
                results['confidence'] = 0.85
            return results
        except Exception as e:
            logger.error(f"Erreur lors de la vérification de la personne: {e}")
            return {
                'status': 'error',
                'confidence': 0.0,
                'error': str(e),
                'source': 'person_verification'
            }
    async def _geocode_address(self, address: str) -> Dict[str, Any]:
        """Géocodage d'une adresse"""
        try:
            # Utilisation de l'API de géocodage de l'IGN
            params = {
                'q': address,
                'limit': 1
            }
            response = self.session.get(
                f"{self.apis['cadastre']}/geocodage",
                params=params,
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                if data.get('features'):
                    feature = data['features'][0]
                    coords = feature.get('geometry', {}).get('coordinates', [])
                    return {
                        'coordinates': coords,
                        'formatted_address': feature.get('properties', {}).get('label', address)
                    }
            return {'coordinates': None}
        except Exception as e:
            logger.error(f"Erreur lors du géocodage: {e}")
            return {'coordinates': None}
    async def _search_rbe(self, first_name: str, last_name: str) -> Dict[str, Any]:
        """Recherche dans le Registre des Bénéficiaires Effectifs"""
        try:
            params = {
                'q': f"{first_name} {last_name}",
                'rows': 5
            }
            response = self.session.get(
                f"{self.apis['rbe']}/search",
                params=params,
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                return {
                    'found': len(data.get('results', [])) > 0,
                    'count': len(data.get('results', [])),
                    'results': data.get('results', [])[:3]  # Limite à 3 résultats
                }
            return {'found': False, 'count': 0, 'results': []}
        except Exception as e:
            logger.error(f"Erreur lors de la recherche RBE: {e}")
            return {'found': False, 'count': 0, 'results': []}
    async def _search_infogreffe(self, first_name: str, last_name: str) -> Dict[str, Any]:
        """Recherche dans Infogreffe"""
        try:
            params = {
                'q': f"{first_name} {last_name}",
                'per_page': 5
            }
            response = self.session.get(
                f"{self.apis['infogreffe']}/search",
                params=params,
                timeout=10
            )
            if response.status_code == 200:
                data = response.json()
                return {
                    'found': len(data.get('results', [])) > 0,
                    'count': len(data.get('results', [])),
                    'results': data.get('results', [])[:3]  # Limite à 3 résultats
                }
            return {'found': False, 'count': 0, 'results': []}
        except Exception as e:
            logger.error(f"Erreur lors de la recherche Infogreffe: {e}")
            return {'found': False, 'count': 0, 'results': []}
    def get_cache_key(self, api: str, params: Dict[str, Any]) -> str:
        """Génère une clé de cache pour les paramètres donnés"""
        import hashlib
        key_data = f"{api}:{json.dumps(params, sort_keys=True)}"
        return hashlib.md5(key_data.encode()).hexdigest()
    def is_cache_valid(self, cache_key: str) -> bool:
        """Vérifie si le cache est encore valide"""
        if cache_key not in self.cache:
            return False
        cache_time = self.cache[cache_key].get('timestamp', 0)
        current_time = datetime.now().timestamp()
        return (current_time - cache_time) < self.cache_ttl
    def get_from_cache(self, cache_key: str) -> Optional[Dict[str, Any]]:
        """Récupère une valeur du cache"""
        if self.is_cache_valid(cache_key):
            return self.cache[cache_key].get('data')
        return None
    def set_cache(self, cache_key: str, data: Dict[str, Any]) -> None:
        """Met une valeur en cache"""
        self.cache[cache_key] = {
            'data': data,
            'timestamp': datetime.now().timestamp()
        }
--- a/services/worker/utils/neo4j_client.py
+++ b/services/worker/utils/neo4j_client.py
@ -0,0 +1,482 @@
 """
 Client pour l'intégration avec Neo4j
 """
 import os
 import logging
 from typing import Dict, Any, List, Optional
 from neo4j import GraphDatabase
 import json
 from datetime import datetime
 logger = logging.getLogger(__name__)
 class Neo4jClient:
    """Client pour l'intégration avec Neo4j"""
    def __init__(self):
        self.uri = os.getenv('NEO4J_URI', 'bolt://neo4j:7687')
        self.username = os.getenv('NEO4J_USER', 'neo4j')
        self.password = os.getenv('NEO4J_PASSWORD', 'neo4j_pwd')
        self.driver = None
        self._connect()
    def _connect(self):
        """Connexion à Neo4j"""
        try:
            self.driver = GraphDatabase.driver(
                self.uri,
                auth=(self.username, self.password)
            )
            logger.info("✅ Connexion à Neo4j établie")
        except Exception as e:
            logger.error(f"❌ Erreur de connexion à Neo4j: {e}")
            self.driver = None
    def close(self):
        """Fermeture de la connexion"""
        if self.driver:
            self.driver.close()
    async def create_dossier_context(self, dossier_id: str, metadata: Dict[str, Any]) -> Dict[str, Any]:
        """
        Création du contexte d'un dossier dans le graphe
        Args:
            dossier_id: ID du dossier
            metadata: Métadonnées du dossier
        Returns:
            Résultat de la création
        """
        logger.info(f"📁 Création du contexte du dossier {dossier_id}")
        try:
            with self.driver.session() as session:
                # Création du nœud dossier
                result = session.run("""
                    MERGE (d:Dossier {id: $dossier_id})
                    SET d.etude_id = $etude_id,
                        d.utilisateur_id = $utilisateur_id,
                        d.created_at = datetime(),
                        d.updated_at = datetime(),
                        d.status = $status,
                        d.metadata = $metadata
                    RETURN d
                """, 
                dossier_id=dossier_id,
                etude_id=metadata.get('etude_id'),
                utilisateur_id=metadata.get('utilisateur_id'),
                status=metadata.get('status', 'active'),
                metadata=json.dumps(metadata)
                )
                record = result.single()
                if record:
                    logger.info(f"✅ Contexte du dossier {dossier_id} créé")
                    return {
                        'status': 'created',
                        'dossier_id': dossier_id,
                        'created_at': datetime.now().isoformat()
                    }
                else:
                    return {
                        'status': 'error',
                        'error': 'Impossible de créer le contexte du dossier'
                    }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la création du contexte du dossier {dossier_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def add_document_to_dossier(self, dossier_id: str, doc_id: str, 
                                    doc_metadata: Dict[str, Any]) -> Dict[str, Any]:
        """
        Ajout d'un document à un dossier
        Args:
            dossier_id: ID du dossier
            doc_id: ID du document
            doc_metadata: Métadonnées du document
        Returns:
            Résultat de l'ajout
        """
        logger.info(f"📄 Ajout du document {doc_id} au dossier {dossier_id}")
        try:
            with self.driver.session() as session:
                # Création du nœud document et relation avec le dossier
                result = session.run("""
                    MATCH (d:Dossier {id: $dossier_id})
                    MERGE (doc:Document {id: $doc_id})
                    SET doc.filename = $filename,
                        doc.type = $type,
                        doc.status = $status,
                        doc.created_at = datetime(),
                        doc.updated_at = datetime(),
                        doc.metadata = $metadata
                    MERGE (d)-[:CONTAINS]->(doc)
                    RETURN doc
                """,
                dossier_id=dossier_id,
                doc_id=doc_id,
                filename=doc_metadata.get('filename'),
                type=doc_metadata.get('type'),
                status=doc_metadata.get('status', 'uploaded'),
                metadata=json.dumps(doc_metadata)
                )
                record = result.single()
                if record:
                    logger.info(f"✅ Document {doc_id} ajouté au dossier {dossier_id}")
                    return {
                        'status': 'added',
                        'dossier_id': dossier_id,
                        'doc_id': doc_id,
                        'added_at': datetime.now().isoformat()
                    }
                else:
                    return {
                        'status': 'error',
                        'error': 'Impossible d\'ajouter le document au dossier'
                    }
        except Exception as e:
            logger.error(f"❌ Erreur lors de l'ajout du document {doc_id} au dossier {dossier_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def add_entities_to_document(self, doc_id: str, entities: Dict[str, Any]) -> Dict[str, Any]:
        """
        Ajout des entités extraites à un document
        Args:
            doc_id: ID du document
            entities: Entités extraites
        Returns:
            Résultat de l'ajout
        """
        logger.info(f"🏷️ Ajout des entités au document {doc_id}")
        try:
            with self.driver.session() as session:
                # Traitement des entités selon leur type
                for entity_type, entity_data in entities.items():
                    if entity_type == 'personnes':
                        await self._add_person_entities(session, doc_id, entity_data)
                    elif entity_type == 'adresses':
                        await self._add_address_entities(session, doc_id, entity_data)
                    elif entity_type == 'biens':
                        await self._add_property_entities(session, doc_id, entity_data)
                    elif entity_type == 'montants':
                        await self._add_amount_entities(session, doc_id, entity_data)
                    elif entity_type == 'dates':
                        await self._add_date_entities(session, doc_id, entity_data)
                logger.info(f"✅ Entités ajoutées au document {doc_id}")
                return {
                    'status': 'added',
                    'doc_id': doc_id,
                    'entities_count': len(entities),
                    'added_at': datetime.now().isoformat()
                }
        except Exception as e:
            logger.error(f"❌ Erreur lors de l'ajout des entités au document {doc_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def _add_person_entities(self, session, doc_id: str, persons: List[Dict[str, Any]]):
        """Ajout des entités personnes"""
        for person in persons:
            if isinstance(person, dict) and 'nom' in person:
                result = session.run("""
                    MATCH (doc:Document {id: $doc_id})
                    MERGE (p:Personne {nom: $nom, prenom: $prenom})
                    SET p.date_naissance = $date_naissance,
                        p.lieu_naissance = $lieu_naissance,
                        p.nationalite = $nationalite,
                        p.adresse = $adresse,
                        p.updated_at = datetime()
                    MERGE (doc)-[:MENTIONS]->(p)
                    RETURN p
                """,
                doc_id=doc_id,
                nom=person.get('nom'),
                prenom=person.get('prenom'),
                date_naissance=person.get('date_naissance'),
                lieu_naissance=person.get('lieu_naissance'),
                nationalite=person.get('nationalite'),
                adresse=person.get('adresse')
                )
    async def _add_address_entities(self, session, doc_id: str, addresses: List[Dict[str, Any]]):
        """Ajout des entités adresses"""
        for address in addresses:
            if isinstance(address, dict) and 'adresse' in address:
                result = session.run("""
                    MATCH (doc:Document {id: $doc_id})
                    MERGE (a:Adresse {adresse: $adresse})
                    SET a.code_postal = $code_postal,
                        a.ville = $ville,
                        a.departement = $departement,
                        a.region = $region,
                        a.coordinates = $coordinates,
                        a.updated_at = datetime()
                    MERGE (doc)-[:MENTIONS]->(a)
                    RETURN a
                """,
                doc_id=doc_id,
                adresse=address.get('adresse'),
                code_postal=address.get('code_postal'),
                ville=address.get('ville'),
                departement=address.get('departement'),
                region=address.get('region'),
                coordinates=json.dumps(address.get('coordinates', []))
                )
    async def _add_property_entities(self, session, doc_id: str, properties: List[Dict[str, Any]]):
        """Ajout des entités biens"""
        for property_data in properties:
            if isinstance(property_data, dict) and 'adresse' in property_data:
                result = session.run("""
                    MATCH (doc:Document {id: $doc_id})
                    MERGE (b:Bien {adresse: $adresse})
                    SET b.surface = $surface,
                        b.prix = $prix,
                        b.type_bien = $type_bien,
                        b.reference_cadastrale = $reference_cadastrale,
                        b.updated_at = datetime()
                    MERGE (doc)-[:MENTIONS]->(b)
                    RETURN b
                """,
                doc_id=doc_id,
                adresse=property_data.get('adresse'),
                surface=property_data.get('surface'),
                prix=property_data.get('prix'),
                type_bien=property_data.get('type_bien'),
                reference_cadastrale=property_data.get('reference_cadastrale')
                )
    async def _add_amount_entities(self, session, doc_id: str, amounts: List[Dict[str, Any]]):
        """Ajout des entités montants"""
        for amount in amounts:
            if isinstance(amount, dict) and 'montant' in amount:
                result = session.run("""
                    MATCH (doc:Document {id: $doc_id})
                    MERGE (m:Montant {montant: $montant, devise: $devise})
                    SET m.type_montant = $type_montant,
                        m.description = $description,
                        m.updated_at = datetime()
                    MERGE (doc)-[:MENTIONS]->(m)
                    RETURN m
                """,
                doc_id=doc_id,
                montant=amount.get('montant'),
                devise=amount.get('devise', 'EUR'),
                type_montant=amount.get('type_montant'),
                description=amount.get('description')
                )
    async def _add_date_entities(self, session, doc_id: str, dates: List[Dict[str, Any]]):
        """Ajout des entités dates"""
        for date_data in dates:
            if isinstance(date_data, dict) and 'date' in date_data:
                result = session.run("""
                    MATCH (doc:Document {id: $doc_id})
                    MERGE (d:Date {date: $date})
                    SET d.type_date = $type_date,
                        d.description = $description,
                        d.updated_at = datetime()
                    MERGE (doc)-[:MENTIONS]->(d)
                    RETURN d
                """,
                doc_id=doc_id,
                date=date_data.get('date'),
                type_date=date_data.get('type_date'),
                description=date_data.get('description')
                )
    async def find_related_documents(self, doc_id: str, max_depth: int = 2) -> Dict[str, Any]:
        """
        Recherche de documents liés
        Args:
            doc_id: ID du document
            max_depth: Profondeur maximale de recherche
        Returns:
            Documents liés trouvés
        """
        logger.info(f"🔗 Recherche de documents liés au document {doc_id}")
        try:
            with self.driver.session() as session:
                result = session.run("""
                    MATCH (doc:Document {id: $doc_id})-[r*1..$max_depth]-(related:Document)
                    WHERE doc <> related
                    RETURN DISTINCT related, length(r) as distance
                    ORDER BY distance
                    LIMIT 10
                """,
                doc_id=doc_id,
                max_depth=max_depth
                )
                related_docs = []
                for record in result:
                    related_docs.append({
                        'doc_id': record['related']['id'],
                        'filename': record['related'].get('filename'),
                        'type': record['related'].get('type'),
                        'distance': record['distance']
                    })
                logger.info(f"✅ {len(related_docs)} documents liés trouvés")
                return {
                    'status': 'completed',
                    'doc_id': doc_id,
                    'related_documents': related_docs,
                    'count': len(related_docs),
                    'searched_at': datetime.now().isoformat()
                }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la recherche de documents liés: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def get_dossier_summary(self, dossier_id: str) -> Dict[str, Any]:
        """
        Récupération du résumé d'un dossier
        Args:
            dossier_id: ID du dossier
        Returns:
            Résumé du dossier
        """
        logger.info(f"📊 Génération du résumé du dossier {dossier_id}")
        try:
            with self.driver.session() as session:
                # Statistiques générales
                stats_result = session.run("""
                    MATCH (d:Dossier {id: $dossier_id})
                    OPTIONAL MATCH (d)-[:CONTAINS]->(doc:Document)
                    OPTIONAL MATCH (doc)-[:MENTIONS]->(entity)
                    RETURN 
                        count(DISTINCT doc) as documents_count,
                        count(DISTINCT entity) as entities_count,
                        collect(DISTINCT doc.type) as document_types
                """,
                dossier_id=dossier_id
                )
                stats_record = stats_result.single()
                # Entités les plus fréquentes
                entities_result = session.run("""
                    MATCH (d:Dossier {id: $dossier_id})-[:CONTAINS]->(doc:Document)-[:MENTIONS]->(entity)
                    RETURN labels(entity)[0] as entity_type, count(*) as frequency
                    ORDER BY frequency DESC
                    LIMIT 10
                """,
                dossier_id=dossier_id
                )
                entity_frequencies = []
                for record in entities_result:
                    entity_frequencies.append({
                        'type': record['entity_type'],
                        'frequency': record['frequency']
                    })
                return {
                    'status': 'completed',
                    'dossier_id': dossier_id,
                    'summary': {
                        'documents_count': stats_record['documents_count'],
                        'entities_count': stats_record['entities_count'],
                        'document_types': stats_record['document_types'],
                        'entity_frequencies': entity_frequencies
                    },
                    'generated_at': datetime.now().isoformat()
                }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la génération du résumé du dossier {dossier_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def create_relationships_between_entities(self, doc_id: str, 
                                                  relationships: List[Dict[str, Any]]) -> Dict[str, Any]:
        """
        Création de relations entre entités
        Args:
            doc_id: ID du document
            relationships: Liste des relations à créer
        Returns:
            Résultat de la création des relations
        """
        logger.info(f"🔗 Création de relations pour le document {doc_id}")
        try:
            with self.driver.session() as session:
                created_relations = 0
                for rel in relationships:
                    rel_type = rel.get('type')
                    from_entity = rel.get('from')
                    to_entity = rel.get('to')
                    properties = rel.get('properties', {})
                    if rel_type and from_entity and to_entity:
                        result = session.run(f"""
                            MATCH (doc:Document {{id: $doc_id}})
                            MATCH (from:{from_entity['type']} {{id: $from_id}})
                            MATCH (to:{to_entity['type']} {{id: $to_id}})
                            MERGE (from)-[r:{rel_type}]->(to)
                            SET r.doc_id = $doc_id,
                                r.created_at = datetime(),
                                r.properties = $properties
                            RETURN r
                        """,
                        doc_id=doc_id,
                        from_id=from_entity['id'],
                        to_id=to_entity['id'],
                        properties=json.dumps(properties)
                        )
                        if result.single():
                            created_relations += 1
                logger.info(f"✅ {created_relations} relations créées")
                return {
                    'status': 'completed',
                    'doc_id': doc_id,
                    'relations_created': created_relations,
                    'created_at': datetime.now().isoformat()
                }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la création des relations: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
--- a/services/worker/utils/opensearch_client.py
+++ b/services/worker/utils/opensearch_client.py
@ -0,0 +1,511 @@
 """
 Client pour l'intégration avec OpenSearch
 """
 import os
 import logging
 from typing import Dict, Any, List, Optional
 from opensearchpy import OpenSearch, RequestsHttpConnection
 import json
 from datetime import datetime
 logger = logging.getLogger(__name__)
 class OpenSearchClient:
    """Client pour l'intégration avec OpenSearch"""
    def __init__(self):
        self.host = os.getenv('OPENSEARCH_HOST', 'opensearch')
        self.port = int(os.getenv('OPENSEARCH_PORT', '9200'))
        self.username = os.getenv('OPENSEARCH_USER', 'admin')
        self.password = os.getenv('OPENSEARCH_PASSWORD', 'opensearch_pwd')
        self.use_ssl = os.getenv('OPENSEARCH_USE_SSL', 'false').lower() == 'true'
        # Configuration du client OpenSearch
        self.client = OpenSearch(
            hosts=[{'host': self.host, 'port': self.port}],
            http_auth=(self.username, self.password),
            use_ssl=self.use_ssl,
            verify_certs=False,
            connection_class=RequestsHttpConnection,
            timeout=30
        )
        # Index par défaut
        self.default_index = os.getenv('OPENSEARCH_INDEX', 'notariat_documents')
        self._ensure_index_exists()
    def _ensure_index_exists(self):
        """Vérifie et crée l'index s'il n'existe pas"""
        try:
            if not self.client.indices.exists(index=self.default_index):
                self._create_index()
                logger.info(f"✅ Index {self.default_index} créé")
            else:
                logger.info(f"✅ Index {self.default_index} existe déjà")
        except Exception as e:
            logger.error(f"❌ Erreur lors de la vérification de l'index: {e}")
    def _create_index(self):
        """Crée l'index avec le mapping approprié"""
        mapping = {
            "mappings": {
                "properties": {
                    "doc_id": {"type": "keyword"},
                    "dossier_id": {"type": "keyword"},
                    "etude_id": {"type": "keyword"},
                    "utilisateur_id": {"type": "keyword"},
                    "filename": {"type": "text", "analyzer": "french"},
                    "doc_type": {"type": "keyword"},
                    "status": {"type": "keyword"},
                    "text_content": {
                        "type": "text",
                        "analyzer": "french",
                        "fields": {
                            "keyword": {"type": "keyword"},
                            "suggest": {"type": "completion"}
                        }
                    },
                    "entities": {
                        "type": "nested",
                        "properties": {
                            "type": {"type": "keyword"},
                            "value": {"type": "text", "analyzer": "french"},
                            "confidence": {"type": "float"}
                        }
                    },
                    "metadata": {"type": "object"},
                    "processing_info": {
                        "type": "object",
                        "properties": {
                            "ocr_confidence": {"type": "float"},
                            "classification_confidence": {"type": "float"},
                            "processing_time": {"type": "float"},
                            "steps_completed": {"type": "keyword"}
                        }
                    },
                    "created_at": {"type": "date"},
                    "updated_at": {"type": "date"}
                }
            },
            "settings": {
                "number_of_shards": 1,
                "number_of_replicas": 0,
                "analysis": {
                    "analyzer": {
                        "french": {
                            "type": "custom",
                            "tokenizer": "standard",
                            "filter": ["lowercase", "french_stemmer", "french_stop"]
                        }
                    },
                    "filter": {
                        "french_stemmer": {
                            "type": "stemmer",
                            "language": "french"
                        },
                        "french_stop": {
                            "type": "stop",
                            "stopwords": "_french_"
                        }
                    }
                }
            }
        }
        self.client.indices.create(index=self.default_index, body=mapping)
    async def index_document(self, doc_id: str, document_data: Dict[str, Any]) -> Dict[str, Any]:
        """
        Indexation d'un document dans OpenSearch
        Args:
            doc_id: ID du document
            document_data: Données du document à indexer
        Returns:
            Résultat de l'indexation
        """
        logger.info(f"📚 Indexation du document {doc_id} dans OpenSearch")
        try:
            # Préparation du document pour l'indexation
            indexed_doc = {
                "doc_id": doc_id,
                "dossier_id": document_data.get('dossier_id'),
                "etude_id": document_data.get('etude_id'),
                "utilisateur_id": document_data.get('utilisateur_id'),
                "filename": document_data.get('filename'),
                "doc_type": document_data.get('doc_type'),
                "status": document_data.get('status', 'processed'),
                "text_content": document_data.get('text_content', ''),
                "entities": document_data.get('entities', []),
                "metadata": document_data.get('metadata', {}),
                "processing_info": document_data.get('processing_info', {}),
                "created_at": datetime.now().isoformat(),
                "updated_at": datetime.now().isoformat()
            }
            # Indexation du document
            response = self.client.index(
                index=self.default_index,
                id=doc_id,
                body=indexed_doc
            )
            logger.info(f"✅ Document {doc_id} indexé avec succès")
            return {
                'status': 'indexed',
                'doc_id': doc_id,
                'index': self.default_index,
                'version': response.get('_version'),
                'indexed_at': datetime.now().isoformat()
            }
        except Exception as e:
            logger.error(f"❌ Erreur lors de l'indexation du document {doc_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def search_documents(self, query: str, filters: Dict[str, Any] = None, 
                             limit: int = 10, offset: int = 0) -> Dict[str, Any]:
        """
        Recherche de documents dans OpenSearch
        Args:
            query: Requête de recherche
            filters: Filtres à appliquer
            limit: Nombre maximum de résultats
            offset: Décalage pour la pagination
        Returns:
            Résultats de la recherche
        """
        logger.info(f"🔍 Recherche dans OpenSearch: {query}")
        try:
            # Construction de la requête
            search_body = {
                "query": {
                    "bool": {
                        "must": [
                            {
                                "multi_match": {
                                    "query": query,
                                    "fields": ["text_content^2", "filename", "entities.value"],
                                    "type": "best_fields",
                                    "fuzziness": "AUTO"
                                }
                            }
                        ]
                    }
                },
                "highlight": {
                    "fields": {
                        "text_content": {
                            "fragment_size": 150,
                            "number_of_fragments": 3
                        }
                    }
                },
                "sort": [
                    {"_score": {"order": "desc"}},
                    {"created_at": {"order": "desc"}}
                ],
                "from": offset,
                "size": limit
            }
            # Ajout des filtres
            if filters:
                bool_query = search_body["query"]["bool"]
                bool_query["filter"] = []
                for field, value in filters.items():
                    if isinstance(value, list):
                        bool_query["filter"].append({
                            "terms": {field: value}
                        })
                    else:
                        bool_query["filter"].append({
                            "term": {field: value}
                        })
            # Exécution de la recherche
            response = self.client.search(
                index=self.default_index,
                body=search_body
            )
            # Traitement des résultats
            hits = response.get('hits', {})
            total = hits.get('total', {}).get('value', 0)
            results = []
            for hit in hits.get('hits', []):
                result = {
                    'doc_id': hit['_source']['doc_id'],
                    'filename': hit['_source'].get('filename'),
                    'doc_type': hit['_source'].get('doc_type'),
                    'score': hit['_score'],
                    'highlights': hit.get('highlight', {}),
                    'created_at': hit['_source'].get('created_at')
                }
                results.append(result)
            logger.info(f"✅ Recherche terminée: {len(results)} résultats sur {total}")
            return {
                'status': 'completed',
                'query': query,
                'total': total,
                'results': results,
                'took': response.get('took'),
                'searched_at': datetime.now().isoformat()
            }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la recherche: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def search_by_entities(self, entities: Dict[str, Any], 
                               limit: int = 10) -> Dict[str, Any]:
        """
        Recherche de documents par entités
        Args:
            entities: Entités à rechercher
            limit: Nombre maximum de résultats
        Returns:
            Résultats de la recherche
        """
        logger.info(f"🏷️ Recherche par entités dans OpenSearch")
        try:
            # Construction de la requête pour les entités
            must_queries = []
            for entity_type, entity_values in entities.items():
                if isinstance(entity_values, list):
                    for value in entity_values:
                        must_queries.append({
                            "nested": {
                                "path": "entities",
                                "query": {
                                    "bool": {
                                        "must": [
                                            {"term": {"entities.type": entity_type}},
                                            {"match": {"entities.value": value}}
                                        ]
                                    }
                                }
                            }
                        })
                else:
                    must_queries.append({
                        "nested": {
                            "path": "entities",
                            "query": {
                                "bool": {
                                    "must": [
                                        {"term": {"entities.type": entity_type}},
                                        {"match": {"entities.value": entity_values}}
                                    ]
                                }
                            }
                        }
                    })
            search_body = {
                "query": {
                    "bool": {
                        "must": must_queries
                    }
                },
                "sort": [
                    {"_score": {"order": "desc"}},
                    {"created_at": {"order": "desc"}}
                ],
                "size": limit
            }
            # Exécution de la recherche
            response = self.client.search(
                index=self.default_index,
                body=search_body
            )
            # Traitement des résultats
            hits = response.get('hits', {})
            total = hits.get('total', {}).get('value', 0)
            results = []
            for hit in hits.get('hits', []):
                result = {
                    'doc_id': hit['_source']['doc_id'],
                    'filename': hit['_source'].get('filename'),
                    'doc_type': hit['_source'].get('doc_type'),
                    'score': hit['_score'],
                    'entities': hit['_source'].get('entities', []),
                    'created_at': hit['_source'].get('created_at')
                }
                results.append(result)
            logger.info(f"✅ Recherche par entités terminée: {len(results)} résultats")
            return {
                'status': 'completed',
                'entities': entities,
                'total': total,
                'results': results,
                'searched_at': datetime.now().isoformat()
            }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la recherche par entités: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def get_document(self, doc_id: str) -> Dict[str, Any]:
        """
        Récupération d'un document par son ID
        Args:
            doc_id: ID du document
        Returns:
            Document récupéré
        """
        try:
            response = self.client.get(
                index=self.default_index,
                id=doc_id
            )
            if response.get('found'):
                return {
                    'status': 'found',
                    'doc_id': doc_id,
                    'document': response['_source'],
                    'retrieved_at': datetime.now().isoformat()
                }
            else:
                return {
                    'status': 'not_found',
                    'doc_id': doc_id
                }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la récupération du document {doc_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def update_document(self, doc_id: str, updates: Dict[str, Any]) -> Dict[str, Any]:
        """
        Mise à jour d'un document
        Args:
            doc_id: ID du document
            updates: Mises à jour à appliquer
        Returns:
            Résultat de la mise à jour
        """
        logger.info(f"🔄 Mise à jour du document {doc_id}")
        try:
            # Ajout de la date de mise à jour
            updates['updated_at'] = datetime.now().isoformat()
            response = self.client.update(
                index=self.default_index,
                id=doc_id,
                body={
                    "doc": updates
                }
            )
            logger.info(f"✅ Document {doc_id} mis à jour")
            return {
                'status': 'updated',
                'doc_id': doc_id,
                'version': response.get('_version'),
                'updated_at': datetime.now().isoformat()
            }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la mise à jour du document {doc_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def delete_document(self, doc_id: str) -> Dict[str, Any]:
        """
        Suppression d'un document
        Args:
            doc_id: ID du document
        Returns:
            Résultat de la suppression
        """
        logger.info(f"🗑️ Suppression du document {doc_id}")
        try:
            response = self.client.delete(
                index=self.default_index,
                id=doc_id
            )
            logger.info(f"✅ Document {doc_id} supprimé")
            return {
                'status': 'deleted',
                'doc_id': doc_id,
                'deleted_at': datetime.now().isoformat()
            }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la suppression du document {doc_id}: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }
    async def get_index_stats(self) -> Dict[str, Any]:
        """
        Récupération des statistiques de l'index
        Returns:
            Statistiques de l'index
        """
        try:
            stats = self.client.indices.stats(index=self.default_index)
            index_stats = stats['indices'][self.default_index]
            return {
                'status': 'success',
                'index': self.default_index,
                'stats': {
                    'documents_count': index_stats['total']['docs']['count'],
                    'size_in_bytes': index_stats['total']['store']['size_in_bytes'],
                    'indexing_total': index_stats['total']['indexing']['index_total'],
                    'search_total': index_stats['total']['search']['query_total']
                },
                'retrieved_at': datetime.now().isoformat()
            }
        except Exception as e:
            logger.error(f"❌ Erreur lors de la récupération des statistiques: {e}")
            return {
                'status': 'error',
                'error': str(e)
            }