- Submodule services/pageindex/upstream (shallow), run-pageindex.sh, .env.example - Docs: service-pageindex, pageindex-semantic-documents, index updates
PageIndex — index sémantique « vectorless » (amont)
PageIndex construit une structure arborescente (type table des matières enrichie) à partir de documents longs (PDF, Markdown) et sert de base à un RAG sans base vectorielle ni découpage artificiel : la récupération repose sur le raisonnement du LLM sur l’index. Projet amont VectifyAI/PageIndex (licence MIT).
Ce répertoire services/pageindex/ contient :
upstream/: sous-module Git pointant vers le dépôt amont.run-pageindex.sh: exécuterun_pageindex.pydansupstream/(chemins relatifs cohérents avec l’amont)..env.example: variables attendues par l’amont (clés LLM via LiteLLM) ; à copier versupstream/.env(non versionné) ou à exporter avant lancement.
Installation (une fois par poste)
cd services/pageindex/upstream
python3 -m venv .venv
. .venv/bin/activate
pip install --upgrade -r requirements.txt
Copier ../.env.example vers upstream/.env et renseigner les clés (voir README amont).
Usage
Génération d’index pour un PDF :
cd services/pageindex
./run-pageindex.sh --pdf_path /chemin/vers/document.pdf
Markdown (hiérarchie # / ##, …) :
./run-pageindex.sh --md_path /chemin/vers/document.md
Les options (--model, --toc-check-pages, etc.) sont celles documentées dans le dépôt amont.
Rôle dans smart_ide
- Définition sémantique structurée des documents (arbre de sections, résumés de nœuds) pour outillage, agents ou pipelines hors AnythingLLM vectoriel.
- Complément possible à la mémoire documentaire AnythingLLM (anythingllm-workspaces.md) : PageIndex ne remplace pas l’ingestion RAG classique ; il fournit un index explicable pour navigation et raisonnement.
Documentation : docs/repo/service-pageindex.md, docs/features/pageindex-semantic-documents.md.
Ressources amont
- Dépôt : VectifyAI/PageIndex
- Documentation produit : docs.pageindex.ai