- Submodule services/chandra/upstream (shallow), run-chandra.sh, .env.example - Docs: service-chandra, chandra-ocr-documents; link from PageIndex feature - Index updates in docs/README, repo/README, services, system-architecture
891 B
891 B
Chandra OCR — documents structurés
Contexte
Chandra OCR 2 (Datalab) produit des sorties Markdown, HTML et JSON à partir de PDF et d’images, en préservant la structure (tableaux, zones, légendes). Deux modes d’inférence sont documentés amont : vLLM (serveur) et Hugging Face (local, dépendances plus lourdes).
Intégration smart_ide
- Répertoire :
services/chandra/avec sous-moduleupstream/. - Commande :
./run-chandra.sh(délègue àchandradans le venvupstream/.venvou àuv run chandra).
Chaînage possible
Sortie Markdown exploitable par PageIndex (--md_path) ou par des pipelines d’ingestion AnythingLLM / docv, selon les politiques de données du projet.