smart_ide/docs/features/chandra-ocr-documents.md
4NK a1ac5ae66b Add Chandra OCR service (datalab-to upstream submodule, CLI wrapper)
- Submodule services/chandra/upstream (shallow), run-chandra.sh, .env.example
- Docs: service-chandra, chandra-ocr-documents; link from PageIndex feature
- Index updates in docs/README, repo/README, services, system-architecture
2026-04-03 22:27:18 +02:00

891 B
Raw Blame History

Chandra OCR — documents structurés

Contexte

Chandra OCR 2 (Datalab) produit des sorties Markdown, HTML et JSON à partir de PDF et dimages, en préservant la structure (tableaux, zones, légendes). Deux modes dinférence sont documentés amont : vLLM (serveur) et Hugging Face (local, dépendances plus lourdes).

Intégration smart_ide

  • Répertoire : services/chandra/ avec sous-module upstream/.
  • Commande : ./run-chandra.sh (délègue à chandra dans le venv upstream/.venv ou à uv run chandra).

Chaînage possible

Sortie Markdown exploitable par PageIndex (--md_path) ou par des pipelines dingestion AnythingLLM / docv, selon les politiques de données du projet.

Documentation liée