4NK 14c974f54c Add smart-ide-tools-bridge API for submodule tools + central local env
- New service: tools bridge (port 37147) registry + Carbonyl/PageIndex/Chandra POST jobs
- config/services.local.env.example and gitignore for services.local.env
- .env.example for repos-devtools, regex-search, ia-dev-gateway, orchestrator, claw proxy, langextract
- Orchestrator intents: tools.registry, tools.carbonyl.plan, tools.pageindex.run, tools.chandra.ocr
- Docs: API + repo service fiche, architecture index; do not commit dist/
2026-04-03 22:35:57 +02:00

52 lines
2.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# PageIndex — index sémantique « vectorless » (amont)
[PageIndex](https://github.com/VectifyAI/PageIndex) construit une **structure arborescente** (type table des matières enrichie) à partir de documents longs (PDF, Markdown) et sert de base à un RAG **sans base vectorielle** ni découpage artificiel : la récupération repose sur le **raisonnement** du LLM sur lindex. Projet amont **VectifyAI/PageIndex** (licence **MIT**).
Ce répertoire **`services/pageindex/`** contient :
- **`upstream/`** : sous-module Git pointant vers le dépôt amont.
- **`run-pageindex.sh`** : exécute `run_pageindex.py` dans **`upstream/`** (chemins relatifs cohérents avec lamont).
- **`.env.example`** : variables attendues par lamont (clés LLM via **LiteLLM**) ; à copier vers **`upstream/.env`** (non versionné) ou à exporter avant lancement.
## Installation (une fois par poste)
```bash
cd services/pageindex/upstream
python3 -m venv .venv
. .venv/bin/activate
pip install --upgrade -r requirements.txt
```
Copier **`../.env.example`** vers **`upstream/.env`** et renseigner les clés (voir [README amont](https://github.com/VectifyAI/PageIndex/blob/main/README.md)).
## Usage
Génération dindex pour un PDF :
```bash
cd services/pageindex
./run-pageindex.sh --pdf_path /chemin/vers/document.pdf
```
Markdown (hiérarchie `#` / `##`, …) :
```bash
./run-pageindex.sh --md_path /chemin/vers/document.md
```
Les options (`--model`, `--toc-check-pages`, etc.) sont celles documentées dans le dépôt amont.
## Rôle dans smart_ide
- **Définition sémantique structurée** des documents (arbre de sections, résumés de nœuds) pour outillage, agents ou pipelines **hors** AnythingLLM vectoriel.
- Complément possible à la mémoire documentaire **AnythingLLM** ([anythingllm-workspaces.md](../../docs/anythingllm-workspaces.md)) : PageIndex ne remplace pas lingestion RAG classique ; il fournit un **index explicable** pour navigation et raisonnement.
**API IDE** : exécution index via **`smart-ide-tools-bridge`** — `POST /v1/pageindex/run` — [docs/API/smart-ide-tools-bridge-api.md](../../docs/API/smart-ide-tools-bridge-api.md).
Documentation : [docs/repo/service-pageindex.md](../../docs/repo/service-pageindex.md), [docs/features/pageindex-semantic-documents.md](../../docs/features/pageindex-semantic-documents.md).
## Ressources amont
- Dépôt : [VectifyAI/PageIndex](https://github.com/VectifyAI/PageIndex)
- Documentation produit : [docs.pageindex.ai](https://docs.pageindex.ai)