- Submodule services/chandra/upstream (shallow), run-chandra.sh, .env.example - Docs: service-chandra, chandra-ocr-documents; link from PageIndex feature - Index updates in docs/README, repo/README, services, system-architecture
25 lines
1.3 KiB
Markdown
25 lines
1.3 KiB
Markdown
# Service Chandra OCR (`services/chandra/`)
|
||
|
||
OCR et extraction **structurée** (PDF / images → Markdown, HTML, JSON avec mise en page) via le projet amont **[datalab-to/chandra](https://github.com/datalab-to/chandra)**.
|
||
|
||
## Rôle dans smart_ide
|
||
|
||
- **Numérisation** de documents complexes (tableaux, formulaires, manuscrits, math).
|
||
- **Pas de listener HTTP** dans ce dépôt : CLI **`chandra`**, lancée par **`services/chandra/run-chandra.sh`** après installation dans **`upstream/`** (`uv sync` ou équivalent).
|
||
|
||
## Licences
|
||
|
||
- **Code** : Apache-2.0 (fichier `LICENSE` dans `upstream/`).
|
||
- **Poids du modèle** : voir **`MODEL_LICENSE`** dans le sous-module amont et les conditions d’usage commercial décrites dans le [README Chandra](https://github.com/datalab-to/chandra/blob/master/README.md).
|
||
|
||
## Exploitation
|
||
|
||
Voir **[`services/chandra/README.md`](../../services/chandra/README.md)** et **[features/chandra-ocr-documents.md](../features/chandra-ocr-documents.md)**.
|
||
|
||
Configuration : variables d’environnement ou **`upstream/local.env`** — gabarit **`services/chandra/.env.example`**.
|
||
|
||
## Voir aussi
|
||
|
||
- [service-pageindex.md](./service-pageindex.md) — index sémantique sur Markdown / PDF
|
||
- [anythingllm-workspaces.md](../anythingllm-workspaces.md) — RAG par workspace
|