- New service: tools bridge (port 37147) registry + Carbonyl/PageIndex/Chandra POST jobs - config/services.local.env.example and gitignore for services.local.env - .env.example for repos-devtools, regex-search, ia-dev-gateway, orchestrator, claw proxy, langextract - Orchestrator intents: tools.registry, tools.carbonyl.plan, tools.pageindex.run, tools.chandra.ocr - Docs: API + repo service fiche, architecture index; do not commit dist/
52 lines
2.5 KiB
Markdown
52 lines
2.5 KiB
Markdown
# PageIndex — index sémantique « vectorless » (amont)
|
||
|
||
[PageIndex](https://github.com/VectifyAI/PageIndex) construit une **structure arborescente** (type table des matières enrichie) à partir de documents longs (PDF, Markdown) et sert de base à un RAG **sans base vectorielle** ni découpage artificiel : la récupération repose sur le **raisonnement** du LLM sur l’index. Projet amont **VectifyAI/PageIndex** (licence **MIT**).
|
||
|
||
Ce répertoire **`services/pageindex/`** contient :
|
||
|
||
- **`upstream/`** : sous-module Git pointant vers le dépôt amont.
|
||
- **`run-pageindex.sh`** : exécute `run_pageindex.py` dans **`upstream/`** (chemins relatifs cohérents avec l’amont).
|
||
- **`.env.example`** : variables attendues par l’amont (clés LLM via **LiteLLM**) ; à copier vers **`upstream/.env`** (non versionné) ou à exporter avant lancement.
|
||
|
||
## Installation (une fois par poste)
|
||
|
||
```bash
|
||
cd services/pageindex/upstream
|
||
python3 -m venv .venv
|
||
. .venv/bin/activate
|
||
pip install --upgrade -r requirements.txt
|
||
```
|
||
|
||
Copier **`../.env.example`** vers **`upstream/.env`** et renseigner les clés (voir [README amont](https://github.com/VectifyAI/PageIndex/blob/main/README.md)).
|
||
|
||
## Usage
|
||
|
||
Génération d’index pour un PDF :
|
||
|
||
```bash
|
||
cd services/pageindex
|
||
./run-pageindex.sh --pdf_path /chemin/vers/document.pdf
|
||
```
|
||
|
||
Markdown (hiérarchie `#` / `##`, …) :
|
||
|
||
```bash
|
||
./run-pageindex.sh --md_path /chemin/vers/document.md
|
||
```
|
||
|
||
Les options (`--model`, `--toc-check-pages`, etc.) sont celles documentées dans le dépôt amont.
|
||
|
||
## Rôle dans smart_ide
|
||
|
||
- **Définition sémantique structurée** des documents (arbre de sections, résumés de nœuds) pour outillage, agents ou pipelines **hors** AnythingLLM vectoriel.
|
||
- Complément possible à la mémoire documentaire **AnythingLLM** ([anythingllm-workspaces.md](../../docs/anythingllm-workspaces.md)) : PageIndex ne remplace pas l’ingestion RAG classique ; il fournit un **index explicable** pour navigation et raisonnement.
|
||
|
||
**API IDE** : exécution index via **`smart-ide-tools-bridge`** — `POST /v1/pageindex/run` — [docs/API/smart-ide-tools-bridge-api.md](../../docs/API/smart-ide-tools-bridge-api.md).
|
||
|
||
Documentation : [docs/repo/service-pageindex.md](../../docs/repo/service-pageindex.md), [docs/features/pageindex-semantic-documents.md](../../docs/features/pageindex-semantic-documents.md).
|
||
|
||
## Ressources amont
|
||
|
||
- Dépôt : [VectifyAI/PageIndex](https://github.com/VectifyAI/PageIndex)
|
||
- Documentation produit : [docs.pageindex.ai](https://docs.pageindex.ai)
|