algo/v0/chapitre7.md
Nicolas Cantu e93b10a719 Script de compilation, livre consolidé v0, structure v1 et correctifs
**Motivations:**
- Compilation du livre à partir des chapitres v0
- Création de la structure v1 avec chapitres et correctifs

**Evolutions:**
- v0/compile_livre.py : script de compilation
- v0/livre.md : livre consolidé généré
- Modifications des chapitres v0 (1-32), introduction, fermeture, plan_total_ouvrage, references, analyses critiques
- v1 : abstract, chapitres 1-16, correctifs chapitres 17-32, introduction, fermeture, plan_total_ouvrage, references

**Pages affectées:**
- v0/ : compile_livre.py (nouveau), livre.md (nouveau), chapitre1-32.md, introduction.md, fermeture.md, plan_total_ouvrage.md, references.md, analyse_critique_ouvrage*.md
- v1/ : abstract.md, chapitre1-16.md, correctifs/chapitre17-32.md, introduction.md, fermeture.md, plan_total_ouvrage.md, references.md (nouveaux)

Co-authored-by: Cursor <cursoragent@cursor.com>
2026-02-14 00:44:58 +01:00

24 KiB
Raw Blame History

livre version auteur chapitre type
Théorie des futurs accessibles v0 Nicolas Cantu 7 chapitre initial

Généalogies, lignées et accumulation dhistoire

Résumé exécutif

Ce chapitre formalise lhistoire comme un objet mathématique dérivé dévénements reproductifs orientés, et non comme un paramètre présupposé. On part de primitives non sémantiques (individus porteurs dun objet \Gamma, événements, gamètesjetons, registre M) et lon montre que, sous une règle minimale de nonréutilisation de ressources événementielles, la structure globale des filiations devient nécessairement un graphe orienté acyclique (DAG). Cette acyclicité induit un ordre dantériorité « généalogique » qui se superpose à lordre ditération déjà reconstruit comme préordre/dérivé dune action de monoïde (chapitre sur le temps comme ordre).

Sur ce DAG, on définit une agrégation historique M_{\mathcal{T}} (mémoire distribuée) comme un opérateur daddition pondérée, de filtrage et doubli, et lon étudie ses propriétés algébriques (associativité, commutativité, idempotence des filtres, monotonies). On introduit des métriques de croissance historique (complexité cumulée, entropie cumulative, diversité de lignées) et des bornes élémentaires (croissance au plus linéaire ou au plus exponentielle selon le régime de branchement, avec conditions explicites).

On relie ensuite ce formalisme à des modèles stochastiques établis : (i) les processus de branchement de type GaltonWatson et leur critère dextinction/survie via fonction génératrice (résultat classique), et (ii) le coalescent de Kingman (processus de Markov sur partitions) qui décrit la généalogie « vue à rebours » de grands modèles de populations ; ces deux cadres fournissent des théorèmes consensuels sur la probabilité de survie, la profondeur attendue, et la structure statistique des lignées. citeturn0search0turn0search1turn0search17

Enfin, on traite la reconstruction de lignées à partir de fragments et de registres : lidentifiabilité est en général limitée par la noninjectivité (collisions) et, dès que des recombinaisons sont autorisées, les objets de type « graphe de recombinaison ancestral (ARG) » deviennent computationnellement difficiles à inférer ; des résultats de complexité (NPdifficulté de problèmes minimaux) sont connus et cités. citeturn3search0turn3search29

Les implications cosmogoniques restent strictement déduites : un univers discret admettant (a) des classes (compression), (b) des événements de fragmentation/recombinaison, et (c) une consommation non réversible de jetons, est structurellement capable dune accumulation historique distribuée ; aucun « but » nest requis. La section philosophique conclut sur une ontologie du temps historique comme ordre sur événements et sur ce que le formalisme interdit (téléologie, agentivité, identité forte).

Primitives et axiomes minimaux

On fixe un alphabet fini \mathcal{L} (classes de formes), et un espace de génotypes abstraits.

Axiomes dobjets

Individu. Un individu est un élément dun ensemble I. À chaque individu i\in I est associé un quadruplet


\Gamma_i = (S_i, M_i, A_i, R_i)

S_i \in \mathcal{L}^\* est une séquence finie, M_i un registre (par ex. cooccurrences), A_i un ensemble dinvariants dérivés, R_i un ensemble de règles admissibles (mutations, épissage, réparation). (Définitions : primitives du modèle de ce livre.)

Gamètejeton. À chaque individu i, on associe un multiensemble fini G_i dobjets \gamma (gamètes). Un gamète est une sousstructure \gamma=(S_\gamma,M_\gamma,A_\gamma) extraite de \Gamma_i par un opérateur de fragmentation \mathrm{Frag}.

Événement reproductif. Un événement est un quintuplet


e = (p,q,\gamma_p,\gamma_q,c)

p,q\in I sont les parents, \gamma_p\in G_p, \gamma_q\in G_q les jetons consommés, et c\in I lenfant produit. Lobjet \Gamma_c résulte dun opérateur \mathrm{Recombine}(\gamma_p,\gamma_q;\Theta) suivi dune réparation éventuelle \rho (comme dans les chapitres précédents).

Axiomes dirréversibilité généalogique (nonréutilisation)

A0 (nonréutilisation des jetons). À chaque événement e=(p,q,\gamma_p,\gamma_q,c), les jetons \gamma_p,\gamma_q sont retirés de G_p,G_q et ne peuvent pas être réintroduits identiques (au même niveau danalyse).

Cet axiome est la version minimale dun monotone de consommation : la disponibilité de jetons diminue au fil des événements, imposant une flèche dévénements (au sens formel) comme dans une action de semigroupe non extensible en groupe.

Diagramme dentités (niveau formel)

flowchart LR
  subgraph Individual["Individu i"]
    Gi["G_i : multiensemble de gamètes-jetons"]
    Gamma["Γ_i=(S_i,M_i,A_i,R_i)"]
  end
  Gamma -->|Frag| gamma["γ=(Sγ,Mγ,Aγ)"]
  Gi --> gamma
  gamma -->|Recombine| Gammac["Γ_c"]
  Gammac -->|Frag| Gc["G_c"]

Lignée comme DAG dévénements

On définit une lignée comme un graphe orienté construit par les événements reproductifs.

Définition formelle

Soit E lensemble des événements. On construit un graphe orienté \mathcal{T}=(V,E_{\to}) où :

  • V=I (les individus),
  • pour chaque événement e=(p,q,\gamma_p,\gamma_q,c), on ajoute deux arêtes orientées p\to c et q\to c.

On appelle \mathcal{T} la lignée (ou plus précisément un pedigree abstrait). Le graphe nimpose pas la biparentalité : on peut généraliser à k parents par événement, mais on reste ici dans le cas 2 pour fixer les preuves.

Acyclicité induite par la nonréutilisation

On formalise une grandeur monotone associée à la consommation.

Définition (stock total de jetons).


T = \sum_{i\in I} |G_i|.

Proposition (monotonicité stricte).
Si chaque événement consomme au moins deux jetons et ne réintroduit pas les mêmes jetons, alors T décroît strictement après chaque événement (au niveau considéré).

Preuve. Un événement retire \gamma_p,\gamma_q des stocks. Sous A0, ces jetons ne sont pas remis. Donc T diminue dau moins 2. □

Théorème (acyclicité).
Sous laxiome A0 et la monotonicité de T, le graphe \mathcal{T} est un DAG.

Preuve. Supposons un cycle orienté i_0\to i_1\to \cdots \to i_k=i_0. Chaque arête correspond à un événement (direct ou indirect) qui consomme des jetons et fait décroître T. En parcourant le cycle, T devrait décroître strictement et revenir à sa valeur initiale, contradiction. □

Cette forme de preuve est exactement la logique « monotone strict ⇒ pas de cycles » (même squelette que dans les preuves par fonction de Lyapunov). Elle est cohérente avec la reconstruction du temps comme ordre : un monotone strict interdit les retours exacts. citeturn1search1turn1search2

Relations dascendance et invariants combinatoires

Dans un DAG \mathcal{T}, on définit :

  • u est ancêtre de v si un chemin orienté u\to^\* v existe.
  • la profondeur \mathrm{depth}(v) : longueur maximale dun chemin orienté menant à v.
  • la largeur \mathrm{width}(\mathcal{T}) : taille maximale dun antichaîne (ensemble de nœuds incomparables) ; notion standard dans la théorie des posets/DAG (ici utilisée comme mesure « dexpansion parallèle »).

Proposition élémentaire (ordre partiel des individus).
Lancêtre/descendant induit un ordre partiel sur V (réflexif via chemin vide, transitif par concaténation des chemins, antisymétrique car DAG).

Preuve. Dans un graphe sans cycles, lexistence de u\to^\* v et v\to^\* u implique un cycle si u\neq v. □

Schéma de lignée (DAG dévénements)

flowchart TD
  A["i₀"] --> C["i₂"]
  B["i₁"] --> C
  C --> E["i₄"]
  D["i₃"] --> E
  C --> F["i₅"]
  subgraph Levels["Couches (antichaînes)"]
    direction LR
    L0["génération 0"] --- L1["génération 1"] --- L2["génération 2"]
  end

Agrégation historique et métriques de complexité

Le DAG fournit lossature. L« histoire » apparaît lorsque lon définit des opérateurs dagrégation des registres M_i le long des événements.

Agrégation M_{\mathcal{T}} : somme pondérée, filtrage et oubli

Soit \omega:V\to \mathbb{R}_+ une pondération (fonction arbitraire, par ex. profondeur, centralité, ou constante).

Définition (agrégation additive).


M_{\mathcal{T}} \;=\; \sum_{i\in V} \omega(i)\, M_i

(la somme est pointparpoint sur \mathcal{L}\times\mathcal{L}).

Propriétés (algèbre).
La somme est associative et commutative et définit un monoïde additif sur lespace des registres \mathbb{R}_+^{\mathcal{L}\times\mathcal{L}}. (Faits algébriques standards.)

Définition (filtrage). Un filtrage est un opérateur F agissant sur M en annulant certains coefficients :


(F_\theta M)(a,b)=M(a,b)\cdot \mathbf{1}_{M(a,b)\ge \theta}.

Propriété : F_\theta est idempotent (F_\theta\circ F_\theta=F_\theta).

Définition (oubli/exponentiel).
Pour \alpha\in(0,1), on définit une agrégation « à oubli » par une récurrence sur un ordre topologique du DAG :


M^{(t+1)}=\alpha M^{(t)} + \Delta M^{(t+1)},

\Delta M^{(t+1)} est la contribution des nouveaux nœuds/hyperarêtes. Cela définit une dynamique contractante sur lespace des registres (utile lorsque lhistoire doit être « bornée »).

Lien avec lentropie et linformation (mesures de Shannon).
Shannon établit lentropie H comme mesure de lincertitude dune variable discrète et introduit entropies jointes/conditionnelles dont la relation de chaîne permet de quantifier la perte lors dune projection. citeturn1search0turn1search4
Ici, on peut associer au registre M une distribution normalisée p_M(a,b)=M(a,b)/\sum_{u,v} M(u,v) et définir lentropie de transitions :


H(M) = -\sum_{a,b} p_M(a,b)\log p_M(a,b).

Elle quantifie la dispersion des transitions au niveau de classes (sans sémantique).

Métriques de mémoire historique

On propose trois familles de métriques (toutes définies sur des objets mathématiques, sans interprétation psychologique).

Croissance de complexité de registre.

  • Support : \mathrm{supp}(M)=\{(a,b):M(a,b)>0\}
  • Taille support : |\mathrm{supp}(M_{\mathcal{T}})| mesure la diversité de transitions observées.
  • Normes : \|M_{\mathcal{T}}\|_1=\sum_{a,b} M_{\mathcal{T}}(a,b) (compte total), \|M_{\mathcal{T}}\|_0=|\mathrm{supp}| (diversité).

Entropie cumulative.

  • H(M_{\mathcal{T}}) comme cidessus.
  • Entropie conditionnelle (si lon découple états sources et transitions) :
    H(B|A) mesure la dispersion des successeurs conditionnellement à la source, via standard Shannon. citeturn1search0turn1search4

Diversité de lignées.
On mesure la diversité par partition au niveau des descendants (par exemple via classes \Gamma projetées) ; techniquement, cela revient à une entropie de distribution de types.

Bornes élémentaires.
Dans le cas où lon agrège simplement des cooccurrences et où chaque nouvel individu ajoute au plus |S_i|-1 transitions, on obtient une borne triviale :


\|M_{\mathcal{T}}\|_1 \le \sum_{i\in V} \omega(i)\,(|S_i|-1).

Si \omega\equiv 1 et |S_i|\le n_{\max}, alors \|M_{\mathcal{T}}\|_1\le |V|\,(n_{\max}-1) (croissance au plus linéaire en nombre dindividus).
À linverse, si le nombre dindividus croît exponentiellement (processus supercritique), la masse agrégée croît exponentiellement en espérance (section suivante).

Paysage temporel : couches et accumulation

On peut visualiser lhistoire comme accumulation par couches (antichaînes) dans le DAG.

flowchart LR
  subgraph TimeLayers["Couches d'événements (ordre partiel)"]
    direction TB
    L0["Couche 0: sources"] --> L1["Couche 1"]
    L1 --> L2["Couche 2"]
    L2 --> L3["Couche 3"]
  end
  L0 --- M0["M couche 0"]
  L1 --- M1["ΔM couche 1"]
  L2 --- M2["ΔM couche 2"]
  L3 --- M3["ΔM couche 3"]
  M0 --> Agg["Agrégation: somme/oubli"]
  M1 --> Agg
  M2 --> Agg
  M3 --> Agg
  Agg --> MT["M_𝒯"]

Modèles stochastiques de reproduction et survie des lignées

Cette section nest pas une « application » mais une mise en correspondance avec des cadres probabilistes établis, utiles pour obtenir des résultats quantitatifs (probabilité de survie, profondeur attendue).

Processus de branchement de GaltonWatson

Le modèle de GaltonWatson (historique) a été introduit dans le contexte de lextinction de familles (noms), par Galton et Watson. citeturn0search0turn0search11
Formellement, si Z_n est la taille de la génération n et si chaque individu engendre un nombre i.i.d. denfants \xi, on a :


Z_{n+1}=\sum_{k=1}^{Z_n} \xi_k^{(n)},\qquad Z_0=1.

Résultats classiques (consensus) :

  • La probabilité dextinction q est la plus petite solution dans [0,1] de
    
    q = \varphi(q),
    
    \varphi(s)=\mathbb{E}(s^\xi) est la fonction génératrice. citeturn0search17turn0search6
  • Si m=\mathbb{E}[\xi]\le 1, alors q=1 (extinction presque sûre) ; si m>1, alors q<1 (survie avec probabilité positive). citeturn0search17turn0search6

Ces résultats fournissent une lecture quantitative de « survivre comme lignée » : lacyclicité et laccumulation ne garantissent pas lexpansion ; en régime souscritique, la lignée séteint presque sûrement.

Coalescent de Kingman : généalogie « vue à rebours »

Pour un échantillon de n individus dans une grande population idéale (WrightFisher / Moran), Kingman introduit un processus de Markov continu sur lensemble des partitions de \{1,\dots,n\}, décrivant les coalescences des lignées ancestrales lorsquon remonte le temps. citeturn0search1turn2search2turn0search12
Propriété centrale (consensus) : lorsque k lignées ancestrales sont présentes, le taux de coalescence est


\lambda_k = \binom{k}{2},

et les temps dattente entre coalescences successives sont exponentiels indépendants de paramètres \lambda_k (après un choix déchelle). Cette structure (pure death process sur le nombre de blocs) est explicitement discutée dans les présentations standards du coalescent. citeturn0search1turn0search12

Lien avec notre formalisme : le DAG « vers lavant » (reproduction) devient, lorsquon le regarde sur un échantillon de feuilles, un arbre aléatoire « vers larrière » (coalescent). Ceci fournit des formules pour la profondeur attendue (temps jusquà MRCA) et pour la distribution de longueurs de branches.

Recombinaison : graphes ancestraux (ARG) et difficulté computationnelle

Avec recombinaison, lancestralité nest plus un arbre unique mais un graphe : lancestral recombination graph (ARG), qui combine événements de coalescence et de recombinaison. Des sources de synthèse décrivent lARG comme structure fondamentale de la généalogie génomique. citeturn0search7turn0search18turn2search9
Des travaux classiques (Hudson) posent des modèles coalescents intégrant recombinaison, en lien avec la structure des généalogies le long du génome. citeturn2search0turn0search18

Résultat clé pour notre chapitre « algorithmes » : construire des ARG minimaux (minimiser le nombre dévénements de recombinaison compatibles avec des données) est computationnellement difficile ; plusieurs travaux mentionnent explicitement la NPdifficulté de variantes de construction minimale. citeturn3search0turn3search29turn3search9
Ce point justifie une limite interne : même si le modèle définit une histoire comme DAG/ARG, la reconstruction exacte peut être non identifiable ou intractable.

Reconstruction algorithmique des lignées et limites didentifiabilité

Le modèle distingue deux problèmes : reconstruction de lossature (le DAG) et reconstruction des contenus (S,M,A).

Reconstruction dun DAG à partir de distances (heuristique)

Si lon observe un ensemble dindividus V_{\text{obs}} avec des distances d_S (sur séquences) et/ou d_M (sur registres), une stratégie heuristique consiste à :

  1. construire un graphe de proximité (kNN, seuil),
  2. imposer une orientation par un ordre externe (horloge interne, monotone, ou timestamps observés),
  3. extraire un DAG parcimonieux (par ex. arborescence couvrante minimale orientée, ou ensemble de parents minimisant une fonction de coût).

Ce type de méthode est heuristique : sans hypothèses additionnelles, de nombreux DAG peuvent être compatibles avec les mêmes distances.

Reconstruction avec recombinaison : réduction à des problèmes NPdifficiles

Lorsque la recombinaison est autorisée, lhistoire devient un graphe (ARG) plutôt quun arbre. Plusieurs problèmes naturels deviennent NPdifficiles :

  • minimiser le nombre de recombinaisons dans un réseau phylogénétique, NPhard dans des formulations standard. citeturn3search9turn3search2
  • construire un ARG minimal cohérent avec des données, NPhard dans des formulations minimales. citeturn3search29turn3search0

Conséquence méthodologique (interne à louvrage) : une théorie abstraite de lhistoire doit accepter que « lhistoire exacte » est souvent une classe dhistoires compatibles, plutôt quun objet unique reconstructible.

Limite informationnelle : noninjectivité et collisions

Même sans recombinaison, la noninjectivité (collisions) implique que plusieurs passés peuvent mener au même présent. Landauer relie explicitement les fonctions logiquement irréversibles (sans inverse univoque) à une irréversibilité physique et à un coût minimal deffacement, ce qui fournit un ancrage consensuel à lidée que linformation sur les antécédents ne peut pas être récupérée gratuitement. citeturn1search1turn1search21
Ici, on nen déduit pas une physique de la lignée : on en tire une contrainte formelle sur lidentifiabilité.

Conditions minimales daccumulation irréversible et implications cosmogoniques

Conditions minimales (formelles)

On peut isoler trois conditions, chacune dérivée des constructions précédentes :

  • Orientation événementielle : existence dun monotone strict (ici, consommation de jetons) ⇒ DAG ⇒ ordre historique (preuves cidessus).
  • Noninjectivité effective : collisions au niveau des classes/observations ⇒ impossibilité de reconstruire le passé fin ⇒ lhistoire est irréductible à létat présent (principe général, cohérent avec Landauer et avec la théorie de linformation de Shannon, où une projection déterministe détruit linformation conditionnelle). citeturn1search0turn1search1
  • Séparation déchelles (argument de consensus) : pour voir une flèche à un niveau donné, il faut que la dynamique à ce niveau ne soit pas réversible « en pratique » (agrégation, dissipation, noninjectivité). Cette idée est compatible avec le fait que des dynamiques microscopiques réversibles peuvent produire des irréversibilités macroscopiques via agrégation et perte dinformation, point discuté classiquement en mécanique statistique et dans la lecture informationnelle de lentropie. citeturn1search0turn1search4

Implications cosmogoniques (strictement déduites)

Sans ajouter de spéculation, on peut affirmer :

  1. Disponibilité dune mémoire distribuée.
    Dès quil existe un DAG dévénements et une variable additive M_{\mathcal{T}}=\sum \omega(i)M_i, lhistoire devient un objet global distribué sur les nœuds, non réductible à un seul état local.

  2. Possibilité daugmentation de complexité historique.
    En régime où le nombre dindividus croît (p. ex. branchement supercritique m>1), les quantités cumulées (\|M_{\mathcal{T}}\|_1, diversité de transitions, entropie) croissent typiquement avec la taille de la lignée; GaltonWatson fournit le critère probabiliste minimal pour quune telle croissance soit possible avec probabilité non nulle. citeturn0search17turn0search6

  3. Diversification sans finalité.
    La diversification découle de la combinatoire des recombinaisons de fragments et de lexpansion du DAG; aucun objectif nest requis pour obtenir une dispersion des types.

Analyse philosophique finale : ontologie des lignées, limites et interdits

Ontologie minimale : histoire comme ordre dévénements

Le chapitre montre que « lhistoire » nest pas une donnée primitive : elle apparaît lorsque lon remplace la notion détat par celle dévénement orienté. Une lignée nest pas une essence : cest une structure dordre (DAG) munie de contenus transmissibles (\Gamma) et de cumulants (M_{\mathcal{T}}).

Cette ontologie est strictement structurale : être « dans » une histoire signifie être situé dans un poset dévénements et contribuer à un registre global.

Ce que le formalisme interdit

  • Il interdit toute agentivité : aucun individu n« agit » au sens intentionnel; il ne fait que participer à des opérateurs admissibles.
  • Il interdit toute finalité : la survie/expansion dune lignée est un résultat contingent mesurable (ex. probabilité de survie en GaltonWatson), non un but. citeturn0search17turn0search6
  • Il interdit lidentité forte : la noninjectivité implique que plusieurs histoires distinctes peuvent être compatibles avec un même état présent; avec recombinaison, la pluralité dARG compatibles et la difficulté computationnelle rendent cette limite encore plus marquée. citeturn3search29turn3search0

Limites internes

  • La notion dagrégation M_{\mathcal{T}} dépend dun choix de pondération \omega et dopérateurs de filtrage/oubli : il nexiste pas de « mémoire historique unique » sans convention.
  • La reconstruction exacte des histoires peut être impossible (non identifiabilité) et/ou intractable (NPdifficulté) dans des cadres riches (recombinaison). citeturn3search29turn3search9

Tableaux comparatifs

DAG et cycles : structures dhistoire

Structure Définition Propriété clé Interprétation formelle
DAG graphe orienté sans cycles ordre partiel ancêtre/descendant histoire irréversible (événements non recyclables)
Graphe avec cycles existence de boucle orientée retour possible absence de flèche dévénements au niveau considéré
Arbre (cas particulier de DAG) DAG avec un parent (ou deux) et sans recombinaison MRCA bien défini généalogie sans recombinaison
ARG DAG avec nœuds de recombinaison pas un arbre unique généalogie multiarbres corrélés citeturn0search7turn0search18

Modèles stochastiques : branchement vs coalescent

Modèle « Sens du temps » Objet aléatoire Résultat canonique
GaltonWatson vers lavant tailles Z_n, arbre de descendance extinction q solution q=\varphi(q); q=1 si m\le1 citeturn0search17
Coalescent de Kingman vers larrière partition/ arbre de coalescence dun échantillon taux \binom{k}{2} pour k lignées; pure death process citeturn0search1turn0search12
Coalescent avec recombinaison vers larrière ARG structure plus complexe; inférence difficile citeturn0search18turn3search29

Métriques dhistoire

Métrique Définition Coût de calcul (typique) Commentaire
\|M_{\mathcal{T}}\|_1 somme des compteurs (O( \mathcal{L}
( \mathrm{supp}(M_{\mathcal{T}}) ) nombre de transitions distinctes
H(M_{\mathcal{T}}) entropie Shannon sur transitions O(\#\text{nonzéros}) dispersion sans sémantique citeturn1search0
profondeur/largeur invariants DAG (O( V