smart_ide/docs/features/pageindex-semantic-documents.md
4NK a1ac5ae66b Add Chandra OCR service (datalab-to upstream submodule, CLI wrapper)
- Submodule services/chandra/upstream (shallow), run-chandra.sh, .env.example
- Docs: service-chandra, chandra-ocr-documents; link from PageIndex feature
- Index updates in docs/README, repo/README, services, system-architecture
2026-04-03 22:27:18 +02:00

1.5 KiB
Raw Blame History

PageIndex — définition sémantique structurée des documents

Contexte

PageIndex (VectifyAI) génère un index en arbre à partir de documents professionnels longs (PDF ou Markdown structuré). La récupération sappuie sur le raisonnement du modèle sur cet index, sans base vectorielle ni chunking classique. Détails techniques et citations : dépôt amont et documentation PageIndex.

Intégration smart_ide

  • Répertoire : services/pageindex/ avec sous-module upstream/.
  • Lancement : ./run-pageindex.sh depuis services/pageindex/ (délègue à upstream/run_pageindex.py).
  • Dépendances Python : installer dans un venv sous upstream/ (voir README du service).

Pour des PDF scannés ou des mises en page complexes, une étape OCR structuré amont (Chandra, service services/chandra/) peut produire du Markdown exploitable avant PageIndex.

Complémentarité avec AnythingLLM

AnythingLLM (anythingllm-workspaces.md) couvre la mémoire documentaire et le RAG par ingestion / embeddings dans des workspaces. PageIndex adresse une autre stratégie : structure hiérarchique explicite et parcours type « table des matières intelligente » pour des flux où la traçabilité des sections prime.

Documentation liée