- Submodule services/chandra/upstream (shallow), run-chandra.sh, .env.example - Docs: service-chandra, chandra-ocr-documents; link from PageIndex feature - Index updates in docs/README, repo/README, services, system-architecture
22 lines
1.5 KiB
Markdown
22 lines
1.5 KiB
Markdown
# PageIndex — définition sémantique structurée des documents
|
||
|
||
## Contexte
|
||
|
||
[PageIndex](https://github.com/VectifyAI/PageIndex) (VectifyAI) génère un **index en arbre** à partir de documents professionnels longs (PDF ou Markdown structuré). La récupération s’appuie sur le **raisonnement** du modèle sur cet index, sans base vectorielle ni chunking classique. Détails techniques et citations : dépôt amont et [documentation PageIndex](https://docs.pageindex.ai).
|
||
|
||
## Intégration smart_ide
|
||
|
||
- Répertoire : **`services/pageindex/`** avec sous-module **`upstream/`**.
|
||
- Lancement : **`./run-pageindex.sh`** depuis **`services/pageindex/`** (délègue à **`upstream/run_pageindex.py`**).
|
||
- Dépendances Python : installer dans un **venv** sous **`upstream/`** (voir README du service).
|
||
|
||
Pour des PDF scannés ou des mises en page complexes, une étape **OCR structuré** amont ([Chandra](https://github.com/datalab-to/chandra), service **`services/chandra/`**) peut produire du Markdown exploitable avant PageIndex.
|
||
|
||
## Complémentarité avec AnythingLLM
|
||
|
||
**AnythingLLM** ([anythingllm-workspaces.md](../anythingllm-workspaces.md)) couvre la mémoire documentaire et le RAG par **ingestion / embeddings** dans des workspaces. **PageIndex** adresse une autre stratégie : **structure hiérarchique explicite** et parcours type « table des matières intelligente » pour des flux où la traçabilité des sections prime.
|
||
|
||
## Documentation liée
|
||
|
||
- [repo/service-pageindex.md](../repo/service-pageindex.md)
|