# PageIndex — définition sémantique structurée des documents ## Contexte [PageIndex](https://github.com/VectifyAI/PageIndex) (VectifyAI) génère un **index en arbre** à partir de documents professionnels longs (PDF ou Markdown structuré). La récupération s’appuie sur le **raisonnement** du modèle sur cet index, sans base vectorielle ni chunking classique. Détails techniques et citations : dépôt amont et [documentation PageIndex](https://docs.pageindex.ai). ## Intégration smart_ide - Répertoire : **`services/pageindex/`** avec sous-module **`upstream/`**. - Lancement : **`./run-pageindex.sh`** depuis **`services/pageindex/`** (délègue à **`upstream/run_pageindex.py`**). - Dépendances Python : installer dans un **venv** sous **`upstream/`** (voir README du service). ## Complémentarité avec AnythingLLM **AnythingLLM** ([anythingllm-workspaces.md](../anythingllm-workspaces.md)) couvre la mémoire documentaire et le RAG par **ingestion / embeddings** dans des workspaces. **PageIndex** adresse une autre stratégie : **structure hiérarchique explicite** et parcours type « table des matières intelligente » pour des flux où la traçabilité des sections prime. ## Documentation liée - [repo/service-pageindex.md](../repo/service-pageindex.md)