- Submodule services/pageindex/upstream (shallow), run-pageindex.sh, .env.example - Docs: service-pageindex, pageindex-semantic-documents, index updates
20 lines
1.3 KiB
Markdown
20 lines
1.3 KiB
Markdown
# PageIndex — définition sémantique structurée des documents
|
||
|
||
## Contexte
|
||
|
||
[PageIndex](https://github.com/VectifyAI/PageIndex) (VectifyAI) génère un **index en arbre** à partir de documents professionnels longs (PDF ou Markdown structuré). La récupération s’appuie sur le **raisonnement** du modèle sur cet index, sans base vectorielle ni chunking classique. Détails techniques et citations : dépôt amont et [documentation PageIndex](https://docs.pageindex.ai).
|
||
|
||
## Intégration smart_ide
|
||
|
||
- Répertoire : **`services/pageindex/`** avec sous-module **`upstream/`**.
|
||
- Lancement : **`./run-pageindex.sh`** depuis **`services/pageindex/`** (délègue à **`upstream/run_pageindex.py`**).
|
||
- Dépendances Python : installer dans un **venv** sous **`upstream/`** (voir README du service).
|
||
|
||
## Complémentarité avec AnythingLLM
|
||
|
||
**AnythingLLM** ([anythingllm-workspaces.md](../anythingllm-workspaces.md)) couvre la mémoire documentaire et le RAG par **ingestion / embeddings** dans des workspaces. **PageIndex** adresse une autre stratégie : **structure hiérarchique explicite** et parcours type « table des matières intelligente » pour des flux où la traçabilité des sections prime.
|
||
|
||
## Documentation liée
|
||
|
||
- [repo/service-pageindex.md](../repo/service-pageindex.md)
|