History

4NK 4fa2cc2418 Add PageIndex service (VectifyAI upstream submodule, CLI wrapper)

- Submodule services/pageindex/upstream (shallow), run-pageindex.sh, .env.example
- Docs: service-pageindex, pageindex-semantic-documents, index updates

2026-04-03 22:15:09 +02:00

upstream @ 8f1ed7783b

Add PageIndex service (VectifyAI upstream submodule, CLI wrapper)

2026-04-03 22:15:09 +02:00

.env.example

Add PageIndex service (VectifyAI upstream submodule, CLI wrapper)

2026-04-03 22:15:09 +02:00

README.md

Add PageIndex service (VectifyAI upstream submodule, CLI wrapper)

2026-04-03 22:15:09 +02:00

run-pageindex.sh

Add PageIndex service (VectifyAI upstream submodule, CLI wrapper)

2026-04-03 22:15:09 +02:00

README.md

PageIndex — index sémantique « vectorless » (amont)

PageIndex construit une structure arborescente (type table des matières enrichie) à partir de documents longs (PDF, Markdown) et sert de base à un RAG sans base vectorielle ni découpage artificiel : la récupération repose sur le raisonnement du LLM sur l’index. Projet amont VectifyAI/PageIndex (licence MIT).

Ce répertoire services/pageindex/ contient :

upstream/ : sous-module Git pointant vers le dépôt amont.
run-pageindex.sh : exécute run_pageindex.py dans upstream/ (chemins relatifs cohérents avec l’amont).
.env.example : variables attendues par l’amont (clés LLM via LiteLLM) ; à copier vers upstream/.env (non versionné) ou à exporter avant lancement.

Installation (une fois par poste)

cd services/pageindex/upstream
python3 -m venv .venv
. .venv/bin/activate
pip install --upgrade -r requirements.txt

Copier ../.env.example vers upstream/.env et renseigner les clés (voir README amont).

Usage

Génération d’index pour un PDF :

cd services/pageindex
./run-pageindex.sh --pdf_path /chemin/vers/document.pdf

Markdown (hiérarchie # / ##, …) :

./run-pageindex.sh --md_path /chemin/vers/document.md

Les options (--model, --toc-check-pages, etc.) sont celles documentées dans le dépôt amont.

Rôle dans smart_ide

Définition sémantique structurée des documents (arbre de sections, résumés de nœuds) pour outillage, agents ou pipelines hors AnythingLLM vectoriel.
Complément possible à la mémoire documentaire AnythingLLM (anythingllm-workspaces.md) : PageIndex ne remplace pas l’ingestion RAG classique ; il fournit un index explicable pour navigation et raisonnement.

Documentation : docs/repo/service-pageindex.md, docs/features/pageindex-semantic-documents.md.

Ressources amont

Dépôt : VectifyAI/PageIndex
Documentation produit : docs.pageindex.ai

README.md Unescape Escape

PageIndex — index sémantique « vectorless » (amont)

Installation (une fois par poste)

Usage

Rôle dans smart_ide

Ressources amont

README.md