- Submodule services/chandra/upstream (shallow), run-chandra.sh, .env.example - Docs: service-chandra, chandra-ocr-documents; link from PageIndex feature - Index updates in docs/README, repo/README, services, system-architecture
1.5 KiB
PageIndex — définition sémantique structurée des documents
Contexte
PageIndex (VectifyAI) génère un index en arbre à partir de documents professionnels longs (PDF ou Markdown structuré). La récupération s’appuie sur le raisonnement du modèle sur cet index, sans base vectorielle ni chunking classique. Détails techniques et citations : dépôt amont et documentation PageIndex.
Intégration smart_ide
- Répertoire :
services/pageindex/avec sous-moduleupstream/. - Lancement :
./run-pageindex.shdepuisservices/pageindex/(délègue àupstream/run_pageindex.py). - Dépendances Python : installer dans un venv sous
upstream/(voir README du service).
Pour des PDF scannés ou des mises en page complexes, une étape OCR structuré amont (Chandra, service services/chandra/) peut produire du Markdown exploitable avant PageIndex.
Complémentarité avec AnythingLLM
AnythingLLM (anythingllm-workspaces.md) couvre la mémoire documentaire et le RAG par ingestion / embeddings dans des workspaces. PageIndex adresse une autre stratégie : structure hiérarchique explicite et parcours type « table des matières intelligente » pour des flux où la traçabilité des sections prime.