4NK 4fa2cc2418 Add PageIndex service (VectifyAI upstream submodule, CLI wrapper)
- Submodule services/pageindex/upstream (shallow), run-pageindex.sh, .env.example
- Docs: service-pageindex, pageindex-semantic-documents, index updates
2026-04-03 22:15:09 +02:00

50 lines
2.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# PageIndex — index sémantique « vectorless » (amont)
[PageIndex](https://github.com/VectifyAI/PageIndex) construit une **structure arborescente** (type table des matières enrichie) à partir de documents longs (PDF, Markdown) et sert de base à un RAG **sans base vectorielle** ni découpage artificiel : la récupération repose sur le **raisonnement** du LLM sur lindex. Projet amont **VectifyAI/PageIndex** (licence **MIT**).
Ce répertoire **`services/pageindex/`** contient :
- **`upstream/`** : sous-module Git pointant vers le dépôt amont.
- **`run-pageindex.sh`** : exécute `run_pageindex.py` dans **`upstream/`** (chemins relatifs cohérents avec lamont).
- **`.env.example`** : variables attendues par lamont (clés LLM via **LiteLLM**) ; à copier vers **`upstream/.env`** (non versionné) ou à exporter avant lancement.
## Installation (une fois par poste)
```bash
cd services/pageindex/upstream
python3 -m venv .venv
. .venv/bin/activate
pip install --upgrade -r requirements.txt
```
Copier **`../.env.example`** vers **`upstream/.env`** et renseigner les clés (voir [README amont](https://github.com/VectifyAI/PageIndex/blob/main/README.md)).
## Usage
Génération dindex pour un PDF :
```bash
cd services/pageindex
./run-pageindex.sh --pdf_path /chemin/vers/document.pdf
```
Markdown (hiérarchie `#` / `##`, …) :
```bash
./run-pageindex.sh --md_path /chemin/vers/document.md
```
Les options (`--model`, `--toc-check-pages`, etc.) sont celles documentées dans le dépôt amont.
## Rôle dans smart_ide
- **Définition sémantique structurée** des documents (arbre de sections, résumés de nœuds) pour outillage, agents ou pipelines **hors** AnythingLLM vectoriel.
- Complément possible à la mémoire documentaire **AnythingLLM** ([anythingllm-workspaces.md](../../docs/anythingllm-workspaces.md)) : PageIndex ne remplace pas lingestion RAG classique ; il fournit un **index explicable** pour navigation et raisonnement.
Documentation : [docs/repo/service-pageindex.md](../../docs/repo/service-pageindex.md), [docs/features/pageindex-semantic-documents.md](../../docs/features/pageindex-semantic-documents.md).
## Ressources amont
- Dépôt : [VectifyAI/PageIndex](https://github.com/VectifyAI/PageIndex)
- Documentation produit : [docs.pageindex.ai](https://docs.pageindex.ai)