- Add install-local-hf.sh (uv sync --extra hf or pip install -e .[hf]) - Add run-chandra-hf.sh defaulting to --method hf - Expand .env.example for upstream/local.env (MODEL_CHECKPOINT, TORCH_*)
1.6 KiB
1.6 KiB
Service Chandra OCR (services/chandra/)
OCR et extraction structurée (PDF / images → Markdown, HTML, JSON avec mise en page) via le projet amont datalab-to/chandra.
Rôle dans smart_ide
- Numérisation de documents complexes (tableaux, formulaires, manuscrits, math).
- Pas de listener HTTP dans ce dépôt : CLI
chandra, lancée parservices/chandra/run-chandra.shaprès installation dansupstream/(uv syncou équivalent).
Licences
- Code : Apache-2.0 (fichier
LICENSEdansupstream/). - Poids du modèle : voir
MODEL_LICENSEdans le sous-module amont et les conditions d’usage commercial décrites dans le README Chandra.
Exploitation
Voir services/chandra/README.md et features/chandra-ocr-documents.md.
Hugging Face local (recommandé pour un poste de dev avec GPU) : depuis services/chandra/, exécuter ./install-local-hf.sh, copier .env.example vers upstream/local.env, puis ./run-chandra-hf.sh <entrée> <sortie>.
Configuration : upstream/local.env (chargé par l’amont) — gabarit services/chandra/.env.example (MODEL_CHECKPOINT, TORCH_DEVICE, MAX_OUTPUT_TOKENS, TORCH_ATTN, HF_TOKEN si besoin).
Voir aussi
- service-pageindex.md — index sémantique sur Markdown / PDF
- anythingllm-workspaces.md — RAG par workspace