algo/v1/chapitre7.md

---
livre: "Théorie des futurs accessibles"
version: v1
auteur: Nicolas Cantu
chapitre: 7
type: chapitre
---

# Généalogies, lignées et accumulation d’histoire

Ce chapitre formalise l’**histoire** comme un objet mathématique dérivé d’événements reproductifs orientés, et non comme un paramètre présupposé. On part de primitives non sémantiques (individus porteurs d’un objet \(\Gamma\), événements, gamètes‑jetons, registre \(M\)) et l’on montre que, sous une règle minimale de **non‑réutilisation** de ressources événementielles, la structure globale des filiations devient nécessairement un **graphe orienté acyclique (DAG)**. Cette acyclicité induit un ordre d’antériorité « généalogique » qui se superpose à l’ordre d’itération déjà reconstruit comme préordre/dérivé d’une action de monoïde (chapitre sur le temps comme ordre).

Sur ce DAG, on définit une **agrégation historique** \(M_{\mathcal{T}}\) (mémoire distribuée) comme un opérateur d’addition pondérée, de filtrage et d’oubli, et l’on étudie ses propriétés algébriques (associativité, commutativité, idempotence des filtres, monotonies). On introduit des **métriques** de croissance historique (complexité cumulée, entropie cumulative, diversité de lignées) et des bornes élémentaires (croissance au plus linéaire ou au plus exponentielle selon le régime de branchement, avec conditions explicites).

On relie ensuite ce formalisme à des modèles stochastiques établis : (i) les **processus de branchement** de type Galton–Watson et leur critère d’extinction/survie via fonction génératrice (résultat classique), et (ii) le **coalescent de Kingman** (processus de Markov sur partitions) qui décrit la généalogie « vue à rebours » de grands modèles de populations ; ces deux cadres fournissent des théorèmes consensuels sur la probabilité de survie, la profondeur attendue, et la structure statistique des lignées.

Enfin, on traite la **reconstruction** de lignées à partir de fragments et de registres : l’identifiabilité est en général limitée par la non‑injectivité (collisions) et, dès que des recombinaisons sont autorisées, les objets de type « graphe de recombinaison ancestral (ARG) » deviennent computationnellement difficiles à inférer ; des résultats de complexité (NP‑difficulté de problèmes minimaux) sont connus et cités.

Les lectures conditionnelles (S1) restent strictement indexées : un système discret admettant (a) des classes (compression), (b) des événements de fragmentation/recombinaison, et (c) une consommation non réversible de jetons, est structurellement capable d’une **accumulation historique distribuée** ; aucun « but » n’est requis. La section philosophique conclut sur une ontologie du temps historique comme ordre sur événements et sur ce que le formalisme interdit (téléologie, agentivité, identité forte).

## Primitives et axiomes minimaux

On fixe un alphabet fini \(\mathcal{L}\) (classes de formes), et un espace de génotypes abstraits.

### Axiomes d’objets

**Individu.** Un individu est un élément d’un ensemble \(I\). À chaque individu \(i\in I\) est associé un quadruplet
\[
\Gamma_i = (S_i, M_i, A_i, R_i)
\]
où \(S_i \in \mathcal{L}^\*\) est une séquence finie, \(M_i\) un registre (par ex. cooccurrences), \(A_i\) un ensemble d’invariants dérivés, \(R_i\) un ensemble de règles admissibles (mutations, épissage, réparation). (Définitions : primitives du modèle de ce livre.)

**Gamète‑jeton.** À chaque individu \(i\), on associe un multiensemble fini \(G_i\) d’objets \(\gamma\) (gamètes). Un gamète est une sous‑structure \(\gamma=(S_\gamma,M_\gamma,A_\gamma)\) extraite de \(\Gamma_i\) par un opérateur de fragmentation \(\mathrm{Frag}\).

**Événement reproductif.** Un événement est un quintuplet
\[
e = (p,q,\gamma_p,\gamma_q,c)
\]
où \(p,q\in I\) sont les parents, \(\gamma_p\in G_p\), \(\gamma_q\in G_q\) les jetons consommés, et \(c\in I\) l’enfant produit. L’objet \(\Gamma_c\) résulte d’un opérateur \(\mathrm{Recombine}(\gamma_p,\gamma_q;\Theta)\) suivi d’une réparation éventuelle \(\rho\) (comme dans les chapitres précédents).

### Axiomes d’irréversibilité généalogique (non‑réutilisation)

**A0 (non‑réutilisation des jetons).** À chaque événement \(e=(p,q,\gamma_p,\gamma_q,c)\), les jetons \(\gamma_p,\gamma_q\) sont retirés de \(G_p,G_q\) et ne peuvent pas être réintroduits identiques (au même niveau d’analyse).

Cet axiome est la version minimale d’un **monotone de consommation** : la disponibilité de jetons diminue au fil des événements, imposant une flèche d’événements (au sens formel) comme dans une action de semi‑groupe non extensible en groupe.

### Diagramme d’entités (niveau formel)

```mermaid
flowchart LR
  subgraph Individual["Individu i"]
    Gi["G_i : multiensemble de gamètes-jetons"]
    Gamma["Γ_i=(S_i,M_i,A_i,R_i)"]
  end
  Gamma -->|Frag| gamma["γ=(Sγ,Mγ,Aγ)"]
  Gi --> gamma
  gamma -->|Recombine| Gammac["Γ_c"]
  Gammac -->|Frag| Gc["G_c"]
```

## Lignée comme DAG d’événements

On définit une lignée comme un graphe orienté construit par les événements reproductifs.

### Définition formelle

Soit \(E\) l’ensemble des événements. On construit un graphe orienté \(\mathcal{T}=(V,E_{\to})\) où :

- \(V=I\) (les individus),
- pour chaque événement \(e=(p,q,\gamma_p,\gamma_q,c)\), on ajoute deux arêtes orientées \(p\to c\) et \(q\to c\).

On appelle \(\mathcal{T}\) la **lignée** (ou plus précisément un pedigree abstrait). Le graphe n’impose pas la bi‑parentalité : on peut généraliser à \(k\) parents par événement, mais on reste ici dans le cas \(2\) pour fixer les preuves.

### Acyclicité induite par la non‑réutilisation

On formalise une grandeur monotone associée à la consommation.

**Définition (stock total de jetons).**
\[
T = \sum_{i\in I} |G_i|.
\]

**Proposition (monotonicité stricte).**
Si chaque événement consomme au moins deux jetons et ne réintroduit pas les mêmes jetons, alors \(T\) décroît strictement après chaque événement (au niveau considéré).

*Preuve.* Un événement retire \(\gamma_p,\gamma_q\) des stocks. Sous A0, ces jetons ne sont pas remis. Donc \(T\) diminue d’au moins \(2\). □

**Théorème (acyclicité).**
Sous l’axiome A0 et la monotonicité de \(T\), le graphe \(\mathcal{T}\) est un DAG.

*Preuve.* Supposons un cycle orienté \(i_0\to i_1\to \cdots \to i_k=i_0\). Chaque arête correspond à un événement (direct ou indirect) qui consomme des jetons et fait décroître \(T\). En parcourant le cycle, \(T\) devrait décroître strictement et revenir à sa valeur initiale, contradiction. □

Cette forme de preuve est exactement la logique « monotone strict ⇒ pas de cycles » (même squelette que dans les preuves par fonction de Lyapunov). Elle est cohérente avec la reconstruction du temps comme ordre : un monotone strict interdit les retours exacts.

### Relations d’ascendance et invariants combinatoires

Dans un DAG \(\mathcal{T}\), on définit :

- \(u\) est **ancêtre** de \(v\) si un chemin orienté \(u\to^\* v\) existe.
- la **profondeur** \(\mathrm{depth}(v)\) : longueur maximale d’un chemin orienté menant à \(v\).
- la **largeur** \(\mathrm{width}(\mathcal{T})\) : taille maximale d’un antichaîne (ensemble de nœuds incomparables) ; notion standard dans la théorie des posets/DAG (ici utilisée comme mesure « d’expansion parallèle »).

Proposition élémentaire (ordre partiel des individus).
L’ancêtre/descendant induit un ordre partiel sur \(V\) (réflexif via chemin vide, transitif par concaténation des chemins, antisymétrique car DAG).

*Preuve.* Dans un graphe sans cycles, l’existence de \(u\to^\* v\) et \(v\to^\* u\) implique un cycle si \(u\neq v\). □

### Schéma de lignée (DAG d’événements)

```mermaid
flowchart TD
  A["i₀"] --> C["i₂"]
  B["i₁"] --> C
  C --> E["i₄"]
  D["i₃"] --> E
  C --> F["i₅"]
  subgraph Levels["Couches (antichaînes)"]
    direction LR
    L0["génération 0"] --- L1["génération 1"] --- L2["génération 2"]
  end
```

## Agrégation historique et métriques de complexité

Le DAG fournit l’ossature. L’« histoire » apparaît lorsque l’on définit des opérateurs d’agrégation des registres \(M_i\) le long des événements.

### Agrégation \(M_{\mathcal{T}}\) : somme pondérée, filtrage et oubli

Soit \(\omega:V\to \mathbb{R}_+\) une pondération (fonction arbitraire, par ex. profondeur, centralité, ou constante).

**Définition (agrégation additive).**
\[
M_{\mathcal{T}} \;=\; \sum_{i\in V} \omega(i)\, M_i
\]
(la somme est point‑par‑point sur \(\mathcal{L}\times\mathcal{L}\)).

Propriétés (algèbre).
La somme est associative et commutative et définit un monoïde additif sur l’espace des registres \(\mathbb{R}_+^{\mathcal{L}\times\mathcal{L}}\). (Faits algébriques standards.)

**Définition (filtrage).** Un filtrage est un opérateur \(F\) agissant sur \(M\) en annulant certains coefficients :
\[
(F_\theta M)(a,b)=M(a,b)\cdot \mathbf{1}_{M(a,b)\ge \theta}.
\]
Propriété : \(F_\theta\) est idempotent (\(F_\theta\circ F_\theta=F_\theta\)).

**Définition (oubli/exponentiel).**
Pour \(\alpha\in(0,1)\), on définit une agrégation « à oubli » par une récurrence sur un ordre topologique du DAG :
\[
M^{(t+1)}=\alpha M^{(t)} + \Delta M^{(t+1)},
\]
où \(\Delta M^{(t+1)}\) est la contribution des nouveaux nœuds/hyperarêtes. Cela définit une dynamique contractante sur l’espace des registres (utile lorsque l’histoire doit être « bornée »).

Lien avec l’entropie et l’information (mesures de Shannon).
Shannon établit l’entropie \(H\) comme mesure de l’incertitude d’une variable discrète et introduit entropies jointes/conditionnelles dont la relation de chaîne permet de quantifier la perte lors d’une projection.
Ici, on peut associer au registre \(M\) une distribution normalisée \(p_M(a,b)=M(a,b)/\sum_{u,v} M(u,v)\) et définir l’entropie de transitions :
\[
H(M) = -\sum_{a,b} p_M(a,b)\log p_M(a,b).
\]
Elle quantifie la dispersion des transitions au niveau de classes (sans sémantique).

### Métriques de mémoire historique

On propose trois familles de métriques (toutes définies sur des objets mathématiques, sans interprétation psychologique).

**Croissance de complexité de registre.**
- Support : \(\mathrm{supp}(M)=\{(a,b):M(a,b)>0\}\)
- Taille support : \(|\mathrm{supp}(M_{\mathcal{T}})|\) mesure la diversité de transitions observées.
- Normes : \(\|M_{\mathcal{T}}\|_1=\sum_{a,b} M_{\mathcal{T}}(a,b)\) (compte total), \(\|M_{\mathcal{T}}\|_0=|\mathrm{supp}|\) (diversité).

**Entropie cumulative.**
- \(H(M_{\mathcal{T}})\) comme ci‑dessus.
- Entropie conditionnelle (si l’on découple états sources et transitions) :
  \(H(B|A)\) mesure la dispersion des successeurs conditionnellement à la source, via standard Shannon.

**Diversité de lignées.**
On mesure la diversité par partition au niveau des descendants (par exemple via classes \(\Gamma\) projetées) ; techniquement, cela revient à une entropie de distribution de types.

Bornes élémentaires.
Dans le cas où l’on agrège simplement des cooccurrences et où chaque nouvel individu ajoute au plus \(|S_i|-1\) transitions, on obtient une borne triviale :
\[
\|M_{\mathcal{T}}\|_1 \le \sum_{i\in V} \omega(i)\,(|S_i|-1).
\]
Si \(\omega\equiv 1\) et \(|S_i|\le n_{\max}\), alors \(\|M_{\mathcal{T}}\|_1\le |V|\,(n_{\max}-1)\) (croissance au plus linéaire en nombre d’individus).
À l’inverse, si le nombre d’individus croît exponentiellement (processus supercritique), la masse agrégée croît exponentiellement en espérance (section suivante).

### Paysage temporel : couches et accumulation

On peut visualiser l’histoire comme accumulation par couches (antichaînes) dans le DAG.

```mermaid
flowchart LR
  subgraph TimeLayers["Couches d'événements (ordre partiel)"]
    direction TB
    L0["Couche 0: sources"] --> L1["Couche 1"]
    L1 --> L2["Couche 2"]
    L2 --> L3["Couche 3"]
  end
  L0 --- M0["M couche 0"]
  L1 --- M1["ΔM couche 1"]
  L2 --- M2["ΔM couche 2"]
  L3 --- M3["ΔM couche 3"]
  M0 --> Agg["Agrégation: somme/oubli"]
  M1 --> Agg
  M2 --> Agg
  M3 --> Agg
  Agg --> MT["M_𝒯"]
```

## Modèles stochastiques de reproduction et survie des lignées

Cette section n’est pas une « application » mais une mise en correspondance avec des cadres probabilistes établis, utiles pour obtenir des résultats quantitatifs (probabilité de survie, profondeur attendue).

### Processus de branchement de Galton–Watson

Le modèle de Galton–Watson (historique) a été introduit dans le contexte de l’extinction de familles (noms), par Galton et Watson.
Formellement, si \(Z_n\) est la taille de la génération \(n\) et si chaque individu engendre un nombre i.i.d. d’enfants \(\xi\), on a :
\[
Z_{n+1}=\sum_{k=1}^{Z_n} \xi_k^{(n)},\qquad Z_0=1.
\]
Résultats classiques (consensus) :

- La probabilité d’extinction \(q\) est la plus petite solution dans \([0,1]\) de
  \[
  q = \varphi(q),
  \]
  où \(\varphi(s)=\mathbb{E}(s^\xi)\) est la fonction génératrice.
- Si \(m=\mathbb{E}[\xi]\le 1\), alors \(q=1\) (extinction presque sûre) ; si \(m>1\), alors \(q<1\) (survie avec probabilité positive).

Ces résultats fournissent une lecture quantitative de « survivre comme lignée » : l’acyclicité et l’accumulation ne garantissent pas l’expansion ; en régime sous‑critique, la lignée s’éteint presque sûrement.

### Coalescent de Kingman : généalogie « vue à rebours »

Pour un échantillon de \(n\) individus dans une grande population idéale (Wright–Fisher / Moran), Kingman introduit un processus de Markov continu sur l’ensemble des partitions de \(\{1,\dots,n\}\), décrivant les coalescences des lignées ancestrales lorsqu’on remonte le temps.
Propriété centrale (consensus) : lorsque \(k\) lignées ancestrales sont présentes, le taux de coalescence est
\[
\lambda_k = \binom{k}{2},
\]
et les temps d’attente entre coalescences successives sont exponentiels indépendants de paramètres \(\lambda_k\) (après un choix d’échelle). Cette structure (pure death process sur le nombre de blocs) est explicitement discutée dans les présentations standards du coalescent.

Lien avec notre formalisme : le DAG « vers l’avant » (reproduction) devient, lorsqu’on le regarde sur un échantillon de feuilles, un arbre aléatoire « vers l’arrière » (coalescent). Ceci fournit des formules pour la profondeur attendue (temps jusqu’à MRCA) et pour la distribution de longueurs de branches.

### Recombinaison : graphes ancestraux (ARG) et difficulté computationnelle

Avec recombinaison, l’ancestralité n’est plus un arbre unique mais un graphe : l’**ancestral recombination graph (ARG)**, qui combine événements de coalescence et de recombinaison. Des sources de synthèse décrivent l’ARG comme structure fondamentale de la généalogie génomique.
Des travaux classiques (Hudson) posent des modèles coalescents intégrant recombinaison, en lien avec la structure des généalogies le long du génome.

Résultat clé pour notre chapitre « algorithmes » : construire des ARG minimaux (minimiser le nombre d’événements de recombinaison compatibles avec des données) est computationnellement difficile ; plusieurs travaux mentionnent explicitement la NP‑difficulté de variantes de construction minimale.
Ce point justifie une limite interne : même si le modèle définit une histoire comme DAG/ARG, la reconstruction exacte peut être non identifiable ou intractable.

## Reconstruction algorithmique des lignées et limites d’identifiabilité

Le modèle distingue deux problèmes : **reconstruction de l’ossature** (le DAG) et **reconstruction des contenus** (\(S,M,A\)).

### Reconstruction d’un DAG à partir de distances (heuristique)

Si l’on observe un ensemble d’individus \(V_{\text{obs}}\) avec des distances \(d_S\) (sur séquences) et/ou \(d_M\) (sur registres), une stratégie heuristique consiste à :

1. construire un graphe de proximité (k‑NN, seuil),
2. imposer une orientation par un ordre externe (horloge interne, monotone, ou timestamps observés),
3. extraire un DAG parcimonieux (par ex. arborescence couvrante minimale orientée, ou ensemble de parents minimisant une fonction de coût).

Ce type de méthode est heuristique : sans hypothèses additionnelles, de nombreux DAG peuvent être compatibles avec les mêmes distances.

### Reconstruction avec recombinaison : réduction à des problèmes NP‑difficiles

Lorsque la recombinaison est autorisée, l’histoire devient un graphe (ARG) plutôt qu’un arbre. Plusieurs problèmes naturels deviennent NP‑difficiles :

- minimiser le nombre de recombinaisons dans un réseau phylogénétique, NP‑hard dans des formulations standard.
- construire un ARG minimal cohérent avec des données, NP‑hard dans des formulations minimales.

Conséquence méthodologique (interne à l’ouvrage) : une théorie abstraite de l’histoire doit accepter que « l’histoire exacte » est souvent une classe d’histoires compatibles, plutôt qu’un objet unique reconstructible.

### Limite informationnelle : non‑injectivité et collisions

Même sans recombinaison, la non‑injectivité (collisions) implique que plusieurs passés peuvent mener au même présent. Landauer relie explicitement les fonctions logiquement irréversibles (sans inverse univoque) à une irréversibilité physique et à un coût minimal d’effacement, ce qui fournit un ancrage consensuel à l’idée que l’information sur les antécédents ne peut pas être récupérée gratuitement.
Ici, on n’en déduit pas une physique de la lignée : on en tire une contrainte formelle sur l’identifiabilité.

## Conditions minimales d’accumulation irréversible et lectures conditionnelles (S1)

### Conditions minimales (formelles)

On peut isoler trois conditions, chacune dérivée des constructions précédentes :

- **Orientation événementielle** : existence d’un monotone strict (ici, consommation de jetons) ⇒ DAG ⇒ ordre historique (preuves ci‑dessus).
- **Non‑injectivité effective** : collisions au niveau des classes/observations ⇒ impossibilité de reconstruire le passé fin ⇒ l’histoire est irréductible à l’état présent (principe général, cohérent avec Landauer et avec la théorie de l’information de Shannon, où une projection déterministe détruit l’information conditionnelle).
- **Séparation d’échelles** (argument de consensus) : pour voir une flèche à un niveau donné, il faut que la dynamique à ce niveau ne soit pas réversible « en pratique » (agrégation, dissipation, non‑injectivité). Cette idée est compatible avec le fait que des dynamiques microscopiques réversibles peuvent produire des irréversibilités macroscopiques via agrégation et perte d’information, point discuté classiquement en mécanique statistique et dans la lecture informationnelle de l’entropie.

### Lectures conditionnelles (S1) dérivées strictement

Sans ajouter de spéculation, on peut affirmer :

1. **Disponibilité d’une mémoire distribuée.**
Dès qu’il existe un DAG d’événements et une variable additive \(M_{\mathcal{T}}=\sum \omega(i)M_i\), l’histoire devient un objet global distribué sur les nœuds, non réductible à un seul état local.

2. **Possibilité d’augmentation de complexité historique.**
En régime où le nombre d’individus croît (p. ex. branchement supercritique \(m>1\)), les quantités cumulées (\(\|M_{\mathcal{T}}\|_1\), diversité de transitions, entropie) croissent typiquement avec la taille de la lignée; Galton–Watson fournit le critère probabiliste minimal pour qu’une telle croissance soit possible avec probabilité non nulle.

3. **Diversification sans finalité.**
La diversification découle de la combinatoire des recombinaisons de fragments et de l’expansion du DAG; aucun objectif n’est requis pour obtenir une dispersion des types.

## Analyse philosophique finale : ontologie des lignées, limites et interdits

### Ontologie minimale : histoire comme ordre d’événements

Le chapitre montre que « l’histoire » n’est pas une donnée primitive : elle apparaît lorsque l’on remplace la notion d’état par celle d’**événement orienté**. Une lignée n’est pas une essence : c’est une structure d’ordre (DAG) munie de contenus transmissibles (\(\Gamma\)) et de cumulants (\(M_{\mathcal{T}}\)).

Cette ontologie est strictement structurale : être « dans » une histoire signifie être situé dans un poset d’événements et contribuer à un registre global.

### Ce que le formalisme interdit

- Il interdit toute **agentivité** : aucun individu n’« agit » au sens intentionnel; il ne fait que participer à des opérateurs admissibles.
- Il interdit toute **finalité** : la survie/expansion d’une lignée est un résultat contingent mesurable (ex. probabilité de survie en Galton–Watson), non un but.
- Il interdit l’**identité forte** : la non‑injectivité implique que plusieurs histoires distinctes peuvent être compatibles avec un même état présent; avec recombinaison, la pluralité d’ARG compatibles et la difficulté computationnelle rendent cette limite encore plus marquée.

### Limites internes

- La notion d’agrégation \(M_{\mathcal{T}}\) dépend d’un choix de pondération \(\omega\) et d’opérateurs de filtrage/oubli : il n’existe pas de « mémoire historique unique » sans convention.
- La reconstruction exacte des histoires peut être impossible (non identifiabilité) et/ou intractable (NP‑difficulté) dans des cadres riches (recombinaison).

## Tableaux comparatifs

### DAG et cycles : structures d’histoire

| Structure | Définition | Propriété clé | Interprétation formelle |
|---|---|---|---|
| DAG | graphe orienté sans cycles | ordre partiel ancêtre/descendant | histoire irréversible (événements non recyclables) |
| Graphe avec cycles | existence de boucle orientée | retour possible | absence de flèche d’événements au niveau considéré |
| Arbre (cas particulier de DAG) | DAG avec un parent (ou deux) et sans recombinaison | MRCA bien défini | généalogie sans recombinaison |
| ARG | DAG avec nœuds de recombinaison | pas un arbre unique | généalogie multi‑arbres corrélés |

### Modèles stochastiques : branchement vs coalescent

| Modèle | « Sens du temps » | Objet aléatoire | Résultat canonique |
|---|---|---|---|
| Galton–Watson | vers l’avant | tailles \(Z_n\), arbre de descendance | extinction \(q\) solution \(q=\varphi(q)\); \(q=1\) si \(m\le1\) |
| Coalescent de Kingman | vers l’arrière | partition/ arbre de coalescence d’un échantillon | taux \(\binom{k}{2}\) pour \(k\) lignées; pure death process |
| Coalescent avec recombinaison | vers l’arrière | ARG | structure plus complexe; inférence difficile |

### Métriques d’histoire

| Métrique | Définition | Coût de calcul (typique) | Commentaire |
|---|---|---|---|
| \(\|M_{\mathcal{T}}\|_1\) | somme des compteurs | \(O(|\mathcal{L}|^2)\) dense | « volume » de transitions |
| \(|\mathrm{supp}(M_{\mathcal{T}})|\) | nombre de transitions distinctes | sparse \(O(\#\text{non‑zéros})\) | diversité structurale |
| \(H(M_{\mathcal{T}})\) | entropie Shannon sur transitions | \(O(\#\text{non‑zéros})\) | dispersion sans sémantique |
| profondeur/largeur | invariants DAG | \(O(|V|+|E|)\) | structure temporelle |