# Chandra OCR — documents structurés

## Contexte

[Chandra OCR 2](https://github.com/datalab-to/chandra) (Datalab) produit des sorties **Markdown**, **HTML** et **JSON** à partir de PDF et d’images, en préservant la structure (tableaux, zones, légendes). Deux modes d’inférence sont documentés amont : **vLLM** (serveur) et **Hugging Face** (local, dépendances plus lourdes).

## Intégration smart_ide

- Répertoire : **`services/chandra/`** avec sous-module **`upstream/`**.
- Commande : **`./run-chandra.sh`** (délègue à **`chandra`** dans le venv **`upstream/.venv`** ou à **`uv run chandra`**).

## Chaînage possible

Sortie Markdown exploitable par **PageIndex** (`--md_path`) ou par des pipelines d’ingestion **AnythingLLM** / **docv**, selon les politiques de données du projet.

## Documentation liée

- [repo/service-chandra.md](../repo/service-chandra.md)