- New service: tools bridge (port 37147) registry + Carbonyl/PageIndex/Chandra POST jobs - config/services.local.env.example and gitignore for services.local.env - .env.example for repos-devtools, regex-search, ia-dev-gateway, orchestrator, claw proxy, langextract - Orchestrator intents: tools.registry, tools.carbonyl.plan, tools.pageindex.run, tools.chandra.ocr - Docs: API + repo service fiche, architecture index; do not commit dist/
28 lines
1.7 KiB
Markdown
28 lines
1.7 KiB
Markdown
# Service Chandra OCR (`services/chandra/`)
|
||
|
||
OCR et extraction **structurée** (PDF / images → Markdown, HTML, JSON avec mise en page) via le projet amont **[datalab-to/chandra](https://github.com/datalab-to/chandra)**.
|
||
|
||
## Rôle dans smart_ide
|
||
|
||
- **Numérisation** de documents complexes (tableaux, formulaires, manuscrits, math).
|
||
- **CLI** : **`services/chandra/run-chandra.sh`** / **`run-chandra-hf.sh`** après installation dans **`upstream/`**.
|
||
- **API pour l’IDE** : **`services/smart-ide-tools-bridge/`** — `POST /v1/chandra/ocr` — [API/smart-ide-tools-bridge-api.md](../API/smart-ide-tools-bridge-api.md).
|
||
|
||
## Licences
|
||
|
||
- **Code** : Apache-2.0 (fichier `LICENSE` dans `upstream/`).
|
||
- **Poids du modèle** : voir **`MODEL_LICENSE`** dans le sous-module amont et les conditions d’usage commercial décrites dans le [README Chandra](https://github.com/datalab-to/chandra/blob/master/README.md).
|
||
|
||
## Exploitation
|
||
|
||
Voir **[`services/chandra/README.md`](../../services/chandra/README.md)** et **[features/chandra-ocr-documents.md](../features/chandra-ocr-documents.md)**.
|
||
|
||
**Hugging Face local (recommandé pour un poste de dev avec GPU)** : depuis **`services/chandra/`**, exécuter **`./install-local-hf.sh`**, copier **`.env.example`** vers **`upstream/local.env`**, puis **`./run-chandra-hf.sh <entrée> <sortie>`**.
|
||
|
||
Configuration : **`upstream/local.env`** (chargé par l’amont) — gabarit **`services/chandra/.env.example`** (`MODEL_CHECKPOINT`, `TORCH_DEVICE`, `MAX_OUTPUT_TOKENS`, `TORCH_ATTN`, `HF_TOKEN` si besoin).
|
||
|
||
## Voir aussi
|
||
|
||
- [service-pageindex.md](./service-pageindex.md) — index sémantique sur Markdown / PDF
|
||
- [anythingllm-workspaces.md](../anythingllm-workspaces.md) — RAG par workspace
|