smart_ide/docs/repo/service-chandra.md

# Service Chandra OCR (`services/chandra/`)

OCR et extraction **structurée** (PDF / images → Markdown, HTML, JSON avec mise en page) via le projet amont **[datalab-to/chandra](https://github.com/datalab-to/chandra)**.

## Rôle dans smart_ide

- **Numérisation** de documents complexes (tableaux, formulaires, manuscrits, math).
- **Pas de listener HTTP** dans ce dépôt : CLI **`chandra`**, lancée par **`services/chandra/run-chandra.sh`** après installation dans **`upstream/`** (`uv sync` ou équivalent).

## Licences

- **Code** : Apache-2.0 (fichier `LICENSE` dans `upstream/`).
- **Poids du modèle** : voir **`MODEL_LICENSE`** dans le sous-module amont et les conditions d’usage commercial décrites dans le [README Chandra](https://github.com/datalab-to/chandra/blob/master/README.md).

## Exploitation

Voir **[`services/chandra/README.md`](../../services/chandra/README.md)** et **[features/chandra-ocr-documents.md](../features/chandra-ocr-documents.md)**.

**Hugging Face local (recommandé pour un poste de dev avec GPU)** : depuis **`services/chandra/`**, exécuter **`./install-local-hf.sh`**, copier **`.env.example`** vers **`upstream/local.env`**, puis **`./run-chandra-hf.sh <entrée> <sortie>`**.

Configuration : **`upstream/local.env`** (chargé par l’amont) — gabarit **`services/chandra/.env.example`** (`MODEL_CHECKPOINT`, `TORCH_DEVICE`, `MAX_OUTPUT_TOKENS`, `TORCH_ATTN`, `HF_TOKEN` si besoin).

## Voir aussi

- [service-pageindex.md](./service-pageindex.md) — index sémantique sur Markdown / PDF
- [anythingllm-workspaces.md](../anythingllm-workspaces.md) — RAG par workspace