- Add install-local-hf.sh (uv sync --extra hf or pip install -e .[hf]) - Add run-chandra-hf.sh defaulting to --method hf - Expand .env.example for upstream/local.env (MODEL_CHECKPOINT, TORCH_*)
27 lines
1.6 KiB
Markdown
27 lines
1.6 KiB
Markdown
# Service Chandra OCR (`services/chandra/`)
|
||
|
||
OCR et extraction **structurée** (PDF / images → Markdown, HTML, JSON avec mise en page) via le projet amont **[datalab-to/chandra](https://github.com/datalab-to/chandra)**.
|
||
|
||
## Rôle dans smart_ide
|
||
|
||
- **Numérisation** de documents complexes (tableaux, formulaires, manuscrits, math).
|
||
- **Pas de listener HTTP** dans ce dépôt : CLI **`chandra`**, lancée par **`services/chandra/run-chandra.sh`** après installation dans **`upstream/`** (`uv sync` ou équivalent).
|
||
|
||
## Licences
|
||
|
||
- **Code** : Apache-2.0 (fichier `LICENSE` dans `upstream/`).
|
||
- **Poids du modèle** : voir **`MODEL_LICENSE`** dans le sous-module amont et les conditions d’usage commercial décrites dans le [README Chandra](https://github.com/datalab-to/chandra/blob/master/README.md).
|
||
|
||
## Exploitation
|
||
|
||
Voir **[`services/chandra/README.md`](../../services/chandra/README.md)** et **[features/chandra-ocr-documents.md](../features/chandra-ocr-documents.md)**.
|
||
|
||
**Hugging Face local (recommandé pour un poste de dev avec GPU)** : depuis **`services/chandra/`**, exécuter **`./install-local-hf.sh`**, copier **`.env.example`** vers **`upstream/local.env`**, puis **`./run-chandra-hf.sh <entrée> <sortie>`**.
|
||
|
||
Configuration : **`upstream/local.env`** (chargé par l’amont) — gabarit **`services/chandra/.env.example`** (`MODEL_CHECKPOINT`, `TORCH_DEVICE`, `MAX_OUTPUT_TOKENS`, `TORCH_ATTN`, `HF_TOKEN` si besoin).
|
||
|
||
## Voir aussi
|
||
|
||
- [service-pageindex.md](./service-pageindex.md) — index sémantique sur Markdown / PDF
|
||
- [anythingllm-workspaces.md](../anythingllm-workspaces.md) — RAG par workspace
|