smart_ide/docs/features/pageindex-semantic-documents.md
4NK 4fa2cc2418 Add PageIndex service (VectifyAI upstream submodule, CLI wrapper)
- Submodule services/pageindex/upstream (shallow), run-pageindex.sh, .env.example
- Docs: service-pageindex, pageindex-semantic-documents, index updates
2026-04-03 22:15:09 +02:00

20 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# PageIndex — définition sémantique structurée des documents
## Contexte
[PageIndex](https://github.com/VectifyAI/PageIndex) (VectifyAI) génère un **index en arbre** à partir de documents professionnels longs (PDF ou Markdown structuré). La récupération sappuie sur le **raisonnement** du modèle sur cet index, sans base vectorielle ni chunking classique. Détails techniques et citations : dépôt amont et [documentation PageIndex](https://docs.pageindex.ai).
## Intégration smart_ide
- Répertoire : **`services/pageindex/`** avec sous-module **`upstream/`**.
- Lancement : **`./run-pageindex.sh`** depuis **`services/pageindex/`** (délègue à **`upstream/run_pageindex.py`**).
- Dépendances Python : installer dans un **venv** sous **`upstream/`** (voir README du service).
## Complémentarité avec AnythingLLM
**AnythingLLM** ([anythingllm-workspaces.md](../anythingllm-workspaces.md)) couvre la mémoire documentaire et le RAG par **ingestion / embeddings** dans des workspaces. **PageIndex** adresse une autre stratégie : **structure hiérarchique explicite** et parcours type « table des matières intelligente » pour des flux où la traçabilité des sections prime.
## Documentation liée
- [repo/service-pageindex.md](../repo/service-pageindex.md)