Nicolas Cantu e93b10a719 Script de compilation, livre consolidé v0, structure v1 et correctifs

**Motivations:**
- Compilation du livre à partir des chapitres v0
- Création de la structure v1 avec chapitres et correctifs

**Evolutions:**
- v0/compile_livre.py : script de compilation
- v0/livre.md : livre consolidé généré
- Modifications des chapitres v0 (1-32), introduction, fermeture, plan_total_ouvrage, references, analyses critiques
- v1 : abstract, chapitres 1-16, correctifs chapitres 17-32, introduction, fermeture, plan_total_ouvrage, references

**Pages affectées:**
- v0/ : compile_livre.py (nouveau), livre.md (nouveau), chapitre1-32.md, introduction.md, fermeture.md, plan_total_ouvrage.md, references.md, analyse_critique_ouvrage*.md
- v1/ : abstract.md, chapitre1-16.md, correctifs/chapitre17-32.md, introduction.md, fermeture.md, plan_total_ouvrage.md, references.md (nouveaux)

Co-authored-by: Cursor <cursoragent@cursor.com>

2026-02-14 00:44:58 +01:00

23 KiB

Raw Blame History

livre	version	auteur	chapitre	type
Théorie des futurs accessibles	v1	Nicolas Cantu	7	chapitre

Généalogies, lignées et accumulation d’histoire

Ce chapitre formalise l’histoire comme un objet mathématique dérivé d’événements reproductifs orientés, et non comme un paramètre présupposé. On part de primitives non sémantiques (individus porteurs d’un objet \Gamma, événements, gamètes‑jetons, registre M) et l’on montre que, sous une règle minimale de non‑réutilisation de ressources événementielles, la structure globale des filiations devient nécessairement un graphe orienté acyclique (DAG). Cette acyclicité induit un ordre d’antériorité « généalogique » qui se superpose à l’ordre d’itération déjà reconstruit comme préordre/dérivé d’une action de monoïde (chapitre sur le temps comme ordre).

Sur ce DAG, on définit une agrégation historique M_{\mathcal{T}} (mémoire distribuée) comme un opérateur d’addition pondérée, de filtrage et d’oubli, et l’on étudie ses propriétés algébriques (associativité, commutativité, idempotence des filtres, monotonies). On introduit des métriques de croissance historique (complexité cumulée, entropie cumulative, diversité de lignées) et des bornes élémentaires (croissance au plus linéaire ou au plus exponentielle selon le régime de branchement, avec conditions explicites).

On relie ensuite ce formalisme à des modèles stochastiques établis : (i) les processus de branchement de type Galton–Watson et leur critère d’extinction/survie via fonction génératrice (résultat classique), et (ii) le coalescent de Kingman (processus de Markov sur partitions) qui décrit la généalogie « vue à rebours » de grands modèles de populations ; ces deux cadres fournissent des théorèmes consensuels sur la probabilité de survie, la profondeur attendue, et la structure statistique des lignées.

Enfin, on traite la reconstruction de lignées à partir de fragments et de registres : l’identifiabilité est en général limitée par la non‑injectivité (collisions) et, dès que des recombinaisons sont autorisées, les objets de type « graphe de recombinaison ancestral (ARG) » deviennent computationnellement difficiles à inférer ; des résultats de complexité (NP‑difficulté de problèmes minimaux) sont connus et cités.

Les lectures conditionnelles (S1) restent strictement indexées : un système discret admettant (a) des classes (compression), (b) des événements de fragmentation/recombinaison, et (c) une consommation non réversible de jetons, est structurellement capable d’une accumulation historique distribuée ; aucun « but » n’est requis. La section philosophique conclut sur une ontologie du temps historique comme ordre sur événements et sur ce que le formalisme interdit (téléologie, agentivité, identité forte).

Primitives et axiomes minimaux

On fixe un alphabet fini \mathcal{L} (classes de formes), et un espace de génotypes abstraits.

Axiomes d’objets

Individu. Un individu est un élément d’un ensemble I. À chaque individu i\in I est associé un quadruplet


\Gamma_i = (S_i, M_i, A_i, R_i)

où S_i \in \mathcal{L}^\* est une séquence finie, M_i un registre (par ex. cooccurrences), A_i un ensemble d’invariants dérivés, R_i un ensemble de règles admissibles (mutations, épissage, réparation). (Définitions : primitives du modèle de ce livre.)

Gamète‑jeton. À chaque individu i, on associe un multiensemble fini G_i d’objets \gamma (gamètes). Un gamète est une sous‑structure \gamma=(S_\gamma,M_\gamma,A_\gamma) extraite de \Gamma_i par un opérateur de fragmentation \mathrm{Frag}.

Événement reproductif. Un événement est un quintuplet


e = (p,q,\gamma_p,\gamma_q,c)

où p,q\in I sont les parents, \gamma_p\in G_p, \gamma_q\in G_q les jetons consommés, et c\in I l’enfant produit. L’objet \Gamma_c résulte d’un opérateur \mathrm{Recombine}(\gamma_p,\gamma_q;\Theta) suivi d’une réparation éventuelle \rho (comme dans les chapitres précédents).

Axiomes d’irréversibilité généalogique (non‑réutilisation)

A0 (non‑réutilisation des jetons). À chaque événement e=(p,q,\gamma_p,\gamma_q,c), les jetons \gamma_p,\gamma_q sont retirés de G_p,G_q et ne peuvent pas être réintroduits identiques (au même niveau d’analyse).

Cet axiome est la version minimale d’un monotone de consommation : la disponibilité de jetons diminue au fil des événements, imposant une flèche d’événements (au sens formel) comme dans une action de semi‑groupe non extensible en groupe.

Diagramme d’entités (niveau formel)

flowchart LR
  subgraph Individual["Individu i"]
    Gi["G_i : multiensemble de gamètes-jetons"]
    Gamma["Γ_i=(S_i,M_i,A_i,R_i)"]
  end
  Gamma -->|Frag| gamma["γ=(Sγ,Mγ,Aγ)"]
  Gi --> gamma
  gamma -->|Recombine| Gammac["Γ_c"]
  Gammac -->|Frag| Gc["G_c"]

Lignée comme DAG d’événements

On définit une lignée comme un graphe orienté construit par les événements reproductifs.

Définition formelle

Soit E l’ensemble des événements. On construit un graphe orienté \mathcal{T}=(V,E_{\to}) où :

V=I (les individus),
pour chaque événement e=(p,q,\gamma_p,\gamma_q,c), on ajoute deux arêtes orientées p\to c et q\to c.

On appelle \mathcal{T} la lignée (ou plus précisément un pedigree abstrait). Le graphe n’impose pas la bi‑parentalité : on peut généraliser à k parents par événement, mais on reste ici dans le cas 2 pour fixer les preuves.

Acyclicité induite par la non‑réutilisation

On formalise une grandeur monotone associée à la consommation.

Définition (stock total de jetons).


T = \sum_{i\in I} |G_i|.

Proposition (monotonicité stricte).
Si chaque événement consomme au moins deux jetons et ne réintroduit pas les mêmes jetons, alors T décroît strictement après chaque événement (au niveau considéré).

Preuve. Un événement retire \gamma_p,\gamma_q des stocks. Sous A0, ces jetons ne sont pas remis. Donc T diminue d’au moins 2. □

Théorème (acyclicité).
Sous l’axiome A0 et la monotonicité de T, le graphe \mathcal{T} est un DAG.

Preuve. Supposons un cycle orienté i_0\to i_1\to \cdots \to i_k=i_0. Chaque arête correspond à un événement (direct ou indirect) qui consomme des jetons et fait décroître T. En parcourant le cycle, T devrait décroître strictement et revenir à sa valeur initiale, contradiction. □

Cette forme de preuve est exactement la logique « monotone strict ⇒ pas de cycles » (même squelette que dans les preuves par fonction de Lyapunov). Elle est cohérente avec la reconstruction du temps comme ordre : un monotone strict interdit les retours exacts.

Relations d’ascendance et invariants combinatoires

Dans un DAG \mathcal{T}, on définit :

u est ancêtre de v si un chemin orienté u\to^\* v existe.
la profondeur \mathrm{depth}(v) : longueur maximale d’un chemin orienté menant à v.
la largeur \mathrm{width}(\mathcal{T}) : taille maximale d’un antichaîne (ensemble de nœuds incomparables) ; notion standard dans la théorie des posets/DAG (ici utilisée comme mesure « d’expansion parallèle »).

Proposition élémentaire (ordre partiel des individus).
L’ancêtre/descendant induit un ordre partiel sur V (réflexif via chemin vide, transitif par concaténation des chemins, antisymétrique car DAG).

Preuve. Dans un graphe sans cycles, l’existence de u\to^\* v et v\to^\* u implique un cycle si u\neq v. □

Schéma de lignée (DAG d’événements)

flowchart TD
  A["i₀"] --> C["i₂"]
  B["i₁"] --> C
  C --> E["i₄"]
  D["i₃"] --> E
  C --> F["i₅"]
  subgraph Levels["Couches (antichaînes)"]
    direction LR
    L0["génération 0"] --- L1["génération 1"] --- L2["génération 2"]
  end

Agrégation historique et métriques de complexité

Le DAG fournit l’ossature. L’« histoire » apparaît lorsque l’on définit des opérateurs d’agrégation des registres M_i le long des événements.

Agrégation `M_{\mathcal{T}}` : somme pondérée, filtrage et oubli

Soit \omega:V\to \mathbb{R}_+ une pondération (fonction arbitraire, par ex. profondeur, centralité, ou constante).

Définition (agrégation additive).


M_{\mathcal{T}} \;=\; \sum_{i\in V} \omega(i)\, M_i

(la somme est point‑par‑point sur \mathcal{L}\times\mathcal{L}).

Propriétés (algèbre).
La somme est associative et commutative et définit un monoïde additif sur l’espace des registres \mathbb{R}_+^{\mathcal{L}\times\mathcal{L}}. (Faits algébriques standards.)

Définition (filtrage). Un filtrage est un opérateur F agissant sur M en annulant certains coefficients :


(F_\theta M)(a,b)=M(a,b)\cdot \mathbf{1}_{M(a,b)\ge \theta}.

Propriété : F_\theta est idempotent (F_\theta\circ F_\theta=F_\theta).

Définition (oubli/exponentiel).
Pour \alpha\in(0,1), on définit une agrégation « à oubli » par une récurrence sur un ordre topologique du DAG :


M^{(t+1)}=\alpha M^{(t)} + \Delta M^{(t+1)},

où \Delta M^{(t+1)} est la contribution des nouveaux nœuds/hyperarêtes. Cela définit une dynamique contractante sur l’espace des registres (utile lorsque l’histoire doit être « bornée »).

Lien avec l’entropie et l’information (mesures de Shannon).
Shannon établit l’entropie H comme mesure de l’incertitude d’une variable discrète et introduit entropies jointes/conditionnelles dont la relation de chaîne permet de quantifier la perte lors d’une projection. Ici, on peut associer au registre M une distribution normalisée p_M(a,b)=M(a,b)/\sum_{u,v} M(u,v) et définir l’entropie de transitions :


H(M) = -\sum_{a,b} p_M(a,b)\log p_M(a,b).

Elle quantifie la dispersion des transitions au niveau de classes (sans sémantique).

Métriques de mémoire historique

On propose trois familles de métriques (toutes définies sur des objets mathématiques, sans interprétation psychologique).

Croissance de complexité de registre.

Support : \mathrm{supp}(M)=\{(a,b):M(a,b)>0\}
Taille support : |\mathrm{supp}(M_{\mathcal{T}})| mesure la diversité de transitions observées.
Normes : \|M_{\mathcal{T}}\|_1=\sum_{a,b} M_{\mathcal{T}}(a,b) (compte total), \|M_{\mathcal{T}}\|_0=|\mathrm{supp}| (diversité).

Entropie cumulative.

H(M_{\mathcal{T}}) comme ci‑dessus.
Entropie conditionnelle (si l’on découple états sources et transitions) :
H(B|A) mesure la dispersion des successeurs conditionnellement à la source, via standard Shannon.

Diversité de lignées.
On mesure la diversité par partition au niveau des descendants (par exemple via classes \Gamma projetées) ; techniquement, cela revient à une entropie de distribution de types.

Bornes élémentaires.
Dans le cas où l’on agrège simplement des cooccurrences et où chaque nouvel individu ajoute au plus |S_i|-1 transitions, on obtient une borne triviale :


\|M_{\mathcal{T}}\|_1 \le \sum_{i\in V} \omega(i)\,(|S_i|-1).

Si \omega\equiv 1 et |S_i|\le n_{\max}, alors \|M_{\mathcal{T}}\|_1\le |V|\,(n_{\max}-1) (croissance au plus linéaire en nombre d’individus).
À l’inverse, si le nombre d’individus croît exponentiellement (processus supercritique), la masse agrégée croît exponentiellement en espérance (section suivante).

Paysage temporel : couches et accumulation

On peut visualiser l’histoire comme accumulation par couches (antichaînes) dans le DAG.

flowchart LR
  subgraph TimeLayers["Couches d'événements (ordre partiel)"]
    direction TB
    L0["Couche 0: sources"] --> L1["Couche 1"]
    L1 --> L2["Couche 2"]
    L2 --> L3["Couche 3"]
  end
  L0 --- M0["M couche 0"]
  L1 --- M1["ΔM couche 1"]
  L2 --- M2["ΔM couche 2"]
  L3 --- M3["ΔM couche 3"]
  M0 --> Agg["Agrégation: somme/oubli"]
  M1 --> Agg
  M2 --> Agg
  M3 --> Agg
  Agg --> MT["M_𝒯"]

Modèles stochastiques de reproduction et survie des lignées

Cette section n’est pas une « application » mais une mise en correspondance avec des cadres probabilistes établis, utiles pour obtenir des résultats quantitatifs (probabilité de survie, profondeur attendue).

Processus de branchement de Galton–Watson

Le modèle de Galton–Watson (historique) a été introduit dans le contexte de l’extinction de familles (noms), par Galton et Watson. Formellement, si Z_n est la taille de la génération n et si chaque individu engendre un nombre i.i.d. d’enfants \xi, on a :


Z_{n+1}=\sum_{k=1}^{Z_n} \xi_k^{(n)},\qquad Z_0=1.

Résultats classiques (consensus) :

La probabilité d’extinction q est la plus petite solution dans [0,1] de
```
q = \varphi(q),
```
où \varphi(s)=\mathbb{E}(s^\xi) est la fonction génératrice.
Si m=\mathbb{E}[\xi]\le 1, alors q=1 (extinction presque sûre) ; si m>1, alors q<1 (survie avec probabilité positive).

Ces résultats fournissent une lecture quantitative de « survivre comme lignée » : l’acyclicité et l’accumulation ne garantissent pas l’expansion ; en régime sous‑critique, la lignée s’éteint presque sûrement.

Coalescent de Kingman : généalogie « vue à rebours »

Pour un échantillon de n individus dans une grande population idéale (Wright–Fisher / Moran), Kingman introduit un processus de Markov continu sur l’ensemble des partitions de \{1,\dots,n\}, décrivant les coalescences des lignées ancestrales lorsqu’on remonte le temps. Propriété centrale (consensus) : lorsque k lignées ancestrales sont présentes, le taux de coalescence est


\lambda_k = \binom{k}{2},

et les temps d’attente entre coalescences successives sont exponentiels indépendants de paramètres \lambda_k (après un choix d’échelle). Cette structure (pure death process sur le nombre de blocs) est explicitement discutée dans les présentations standards du coalescent.

Lien avec notre formalisme : le DAG « vers l’avant » (reproduction) devient, lorsqu’on le regarde sur un échantillon de feuilles, un arbre aléatoire « vers l’arrière » (coalescent). Ceci fournit des formules pour la profondeur attendue (temps jusqu’à MRCA) et pour la distribution de longueurs de branches.

Recombinaison : graphes ancestraux (ARG) et difficulté computationnelle

Avec recombinaison, l’ancestralité n’est plus un arbre unique mais un graphe : l’ancestral recombination graph (ARG), qui combine événements de coalescence et de recombinaison. Des sources de synthèse décrivent l’ARG comme structure fondamentale de la généalogie génomique. Des travaux classiques (Hudson) posent des modèles coalescents intégrant recombinaison, en lien avec la structure des généalogies le long du génome.

Résultat clé pour notre chapitre « algorithmes » : construire des ARG minimaux (minimiser le nombre d’événements de recombinaison compatibles avec des données) est computationnellement difficile ; plusieurs travaux mentionnent explicitement la NP‑difficulté de variantes de construction minimale. Ce point justifie une limite interne : même si le modèle définit une histoire comme DAG/ARG, la reconstruction exacte peut être non identifiable ou intractable.

Reconstruction algorithmique des lignées et limites d’identifiabilité

Le modèle distingue deux problèmes : reconstruction de l’ossature (le DAG) et reconstruction des contenus (S,M,A).

Reconstruction d’un DAG à partir de distances (heuristique)

Si l’on observe un ensemble d’individus V_{\text{obs}} avec des distances d_S (sur séquences) et/ou d_M (sur registres), une stratégie heuristique consiste à :

construire un graphe de proximité (k‑NN, seuil),
imposer une orientation par un ordre externe (horloge interne, monotone, ou timestamps observés),
extraire un DAG parcimonieux (par ex. arborescence couvrante minimale orientée, ou ensemble de parents minimisant une fonction de coût).

Ce type de méthode est heuristique : sans hypothèses additionnelles, de nombreux DAG peuvent être compatibles avec les mêmes distances.

Reconstruction avec recombinaison : réduction à des problèmes NP‑difficiles

Lorsque la recombinaison est autorisée, l’histoire devient un graphe (ARG) plutôt qu’un arbre. Plusieurs problèmes naturels deviennent NP‑difficiles :

minimiser le nombre de recombinaisons dans un réseau phylogénétique, NP‑hard dans des formulations standard.
construire un ARG minimal cohérent avec des données, NP‑hard dans des formulations minimales.

Conséquence méthodologique (interne à l’ouvrage) : une théorie abstraite de l’histoire doit accepter que « l’histoire exacte » est souvent une classe d’histoires compatibles, plutôt qu’un objet unique reconstructible.

Limite informationnelle : non‑injectivité et collisions

Même sans recombinaison, la non‑injectivité (collisions) implique que plusieurs passés peuvent mener au même présent. Landauer relie explicitement les fonctions logiquement irréversibles (sans inverse univoque) à une irréversibilité physique et à un coût minimal d’effacement, ce qui fournit un ancrage consensuel à l’idée que l’information sur les antécédents ne peut pas être récupérée gratuitement. Ici, on n’en déduit pas une physique de la lignée : on en tire une contrainte formelle sur l’identifiabilité.

Conditions minimales d’accumulation irréversible et lectures conditionnelles (S1)

Conditions minimales (formelles)

On peut isoler trois conditions, chacune dérivée des constructions précédentes :

Orientation événementielle : existence d’un monotone strict (ici, consommation de jetons) ⇒ DAG ⇒ ordre historique (preuves ci‑dessus).
Non‑injectivité effective : collisions au niveau des classes/observations ⇒ impossibilité de reconstruire le passé fin ⇒ l’histoire est irréductible à l’état présent (principe général, cohérent avec Landauer et avec la théorie de l’information de Shannon, où une projection déterministe détruit l’information conditionnelle).
Séparation d’échelles (argument de consensus) : pour voir une flèche à un niveau donné, il faut que la dynamique à ce niveau ne soit pas réversible « en pratique » (agrégation, dissipation, non‑injectivité). Cette idée est compatible avec le fait que des dynamiques microscopiques réversibles peuvent produire des irréversibilités macroscopiques via agrégation et perte d’information, point discuté classiquement en mécanique statistique et dans la lecture informationnelle de l’entropie.

Lectures conditionnelles (S1) dérivées strictement

Sans ajouter de spéculation, on peut affirmer :

Disponibilité d’une mémoire distribuée.
Dès qu’il existe un DAG d’événements et une variable additive M_{\mathcal{T}}=\sum \omega(i)M_i, l’histoire devient un objet global distribué sur les nœuds, non réductible à un seul état local.
Possibilité d’augmentation de complexité historique.
En régime où le nombre d’individus croît (p. ex. branchement supercritique m>1), les quantités cumulées (\|M_{\mathcal{T}}\|_1, diversité de transitions, entropie) croissent typiquement avec la taille de la lignée; Galton–Watson fournit le critère probabiliste minimal pour qu’une telle croissance soit possible avec probabilité non nulle.
Diversification sans finalité.
La diversification découle de la combinatoire des recombinaisons de fragments et de l’expansion du DAG; aucun objectif n’est requis pour obtenir une dispersion des types.

Analyse philosophique finale : ontologie des lignées, limites et interdits

Ontologie minimale : histoire comme ordre d’événements

Le chapitre montre que « l’histoire » n’est pas une donnée primitive : elle apparaît lorsque l’on remplace la notion d’état par celle d’événement orienté. Une lignée n’est pas une essence : c’est une structure d’ordre (DAG) munie de contenus transmissibles (\Gamma) et de cumulants (M_{\mathcal{T}}).

Cette ontologie est strictement structurale : être « dans » une histoire signifie être situé dans un poset d’événements et contribuer à un registre global.

Ce que le formalisme interdit

Il interdit toute agentivité : aucun individu n’« agit » au sens intentionnel; il ne fait que participer à des opérateurs admissibles.
Il interdit toute finalité : la survie/expansion d’une lignée est un résultat contingent mesurable (ex. probabilité de survie en Galton–Watson), non un but.
Il interdit l’identité forte : la non‑injectivité implique que plusieurs histoires distinctes peuvent être compatibles avec un même état présent; avec recombinaison, la pluralité d’ARG compatibles et la difficulté computationnelle rendent cette limite encore plus marquée.

Limites internes

La notion d’agrégation M_{\mathcal{T}} dépend d’un choix de pondération \omega et d’opérateurs de filtrage/oubli : il n’existe pas de « mémoire historique unique » sans convention.
La reconstruction exacte des histoires peut être impossible (non identifiabilité) et/ou intractable (NP‑difficulté) dans des cadres riches (recombinaison).

Tableaux comparatifs

DAG et cycles : structures d’histoire

Structure	Définition	Propriété clé	Interprétation formelle
DAG	graphe orienté sans cycles	ordre partiel ancêtre/descendant	histoire irréversible (événements non recyclables)
Graphe avec cycles	existence de boucle orientée	retour possible	absence de flèche d’événements au niveau considéré
Arbre (cas particulier de DAG)	DAG avec un parent (ou deux) et sans recombinaison	MRCA bien défini	généalogie sans recombinaison
ARG	DAG avec nœuds de recombinaison	pas un arbre unique	généalogie multi‑arbres corrélés

Modèles stochastiques : branchement vs coalescent

Modèle	« Sens du temps »	Objet aléatoire	Résultat canonique
Galton–Watson	vers l’avant	tailles `Z_n`, arbre de descendance	extinction `q` solution `q=\varphi(q)`; `q=1` si `m\le1`
Coalescent de Kingman	vers l’arrière	partition/ arbre de coalescence d’un échantillon	taux `\binom{k}{2}` pour `k` lignées; pure death process
Coalescent avec recombinaison	vers l’arrière	ARG	structure plus complexe; inférence difficile

Métriques d’histoire

Métrique	Définition	Coût de calcul (typique)	Commentaire
`\\|M_{\mathcal{T}}\\|_1`	somme des compteurs	(O(	\mathcal{L}
(	\mathrm{supp}(M_{\mathcal{T}})	)	nombre de transitions distinctes
`H(M_{\mathcal{T}})`	entropie Shannon sur transitions	`O(\#\text{non‑zéros})`	dispersion sans sémantique
profondeur/largeur	invariants DAG	(O(	V

23 KiB Raw Blame History Unescape Escape