**Motivations:** - Compilation du livre à partir des chapitres v0 - Création de la structure v1 avec chapitres et correctifs **Evolutions:** - v0/compile_livre.py : script de compilation - v0/livre.md : livre consolidé généré - Modifications des chapitres v0 (1-32), introduction, fermeture, plan_total_ouvrage, references, analyses critiques - v1 : abstract, chapitres 1-16, correctifs chapitres 17-32, introduction, fermeture, plan_total_ouvrage, references **Pages affectées:** - v0/ : compile_livre.py (nouveau), livre.md (nouveau), chapitre1-32.md, introduction.md, fermeture.md, plan_total_ouvrage.md, references.md, analyse_critique_ouvrage*.md - v1/ : abstract.md, chapitre1-16.md, correctifs/chapitre17-32.md, introduction.md, fermeture.md, plan_total_ouvrage.md, references.md (nouveaux) Co-authored-by: Cursor <cursoragent@cursor.com>
23 KiB
| livre | version | auteur | chapitre | type |
|---|---|---|---|---|
| Théorie des futurs accessibles | v1 | Nicolas Cantu | 7 | chapitre |
Généalogies, lignées et accumulation d’histoire
Ce chapitre formalise l’histoire comme un objet mathématique dérivé d’événements reproductifs orientés, et non comme un paramètre présupposé. On part de primitives non sémantiques (individus porteurs d’un objet \Gamma, événements, gamètes‑jetons, registre M) et l’on montre que, sous une règle minimale de non‑réutilisation de ressources événementielles, la structure globale des filiations devient nécessairement un graphe orienté acyclique (DAG). Cette acyclicité induit un ordre d’antériorité « généalogique » qui se superpose à l’ordre d’itération déjà reconstruit comme préordre/dérivé d’une action de monoïde (chapitre sur le temps comme ordre).
Sur ce DAG, on définit une agrégation historique M_{\mathcal{T}} (mémoire distribuée) comme un opérateur d’addition pondérée, de filtrage et d’oubli, et l’on étudie ses propriétés algébriques (associativité, commutativité, idempotence des filtres, monotonies). On introduit des métriques de croissance historique (complexité cumulée, entropie cumulative, diversité de lignées) et des bornes élémentaires (croissance au plus linéaire ou au plus exponentielle selon le régime de branchement, avec conditions explicites).
On relie ensuite ce formalisme à des modèles stochastiques établis : (i) les processus de branchement de type Galton–Watson et leur critère d’extinction/survie via fonction génératrice (résultat classique), et (ii) le coalescent de Kingman (processus de Markov sur partitions) qui décrit la généalogie « vue à rebours » de grands modèles de populations ; ces deux cadres fournissent des théorèmes consensuels sur la probabilité de survie, la profondeur attendue, et la structure statistique des lignées.
Enfin, on traite la reconstruction de lignées à partir de fragments et de registres : l’identifiabilité est en général limitée par la non‑injectivité (collisions) et, dès que des recombinaisons sont autorisées, les objets de type « graphe de recombinaison ancestral (ARG) » deviennent computationnellement difficiles à inférer ; des résultats de complexité (NP‑difficulté de problèmes minimaux) sont connus et cités.
Les lectures conditionnelles (S1) restent strictement indexées : un système discret admettant (a) des classes (compression), (b) des événements de fragmentation/recombinaison, et (c) une consommation non réversible de jetons, est structurellement capable d’une accumulation historique distribuée ; aucun « but » n’est requis. La section philosophique conclut sur une ontologie du temps historique comme ordre sur événements et sur ce que le formalisme interdit (téléologie, agentivité, identité forte).
Primitives et axiomes minimaux
On fixe un alphabet fini \mathcal{L} (classes de formes), et un espace de génotypes abstraits.
Axiomes d’objets
Individu. Un individu est un élément d’un ensemble I. À chaque individu i\in I est associé un quadruplet
\Gamma_i = (S_i, M_i, A_i, R_i)
où S_i \in \mathcal{L}^\* est une séquence finie, M_i un registre (par ex. cooccurrences), A_i un ensemble d’invariants dérivés, R_i un ensemble de règles admissibles (mutations, épissage, réparation). (Définitions : primitives du modèle de ce livre.)
Gamète‑jeton. À chaque individu i, on associe un multiensemble fini G_i d’objets \gamma (gamètes). Un gamète est une sous‑structure \gamma=(S_\gamma,M_\gamma,A_\gamma) extraite de \Gamma_i par un opérateur de fragmentation \mathrm{Frag}.
Événement reproductif. Un événement est un quintuplet
e = (p,q,\gamma_p,\gamma_q,c)
où p,q\in I sont les parents, \gamma_p\in G_p, \gamma_q\in G_q les jetons consommés, et c\in I l’enfant produit. L’objet \Gamma_c résulte d’un opérateur \mathrm{Recombine}(\gamma_p,\gamma_q;\Theta) suivi d’une réparation éventuelle \rho (comme dans les chapitres précédents).
Axiomes d’irréversibilité généalogique (non‑réutilisation)
A0 (non‑réutilisation des jetons). À chaque événement e=(p,q,\gamma_p,\gamma_q,c), les jetons \gamma_p,\gamma_q sont retirés de G_p,G_q et ne peuvent pas être réintroduits identiques (au même niveau d’analyse).
Cet axiome est la version minimale d’un monotone de consommation : la disponibilité de jetons diminue au fil des événements, imposant une flèche d’événements (au sens formel) comme dans une action de semi‑groupe non extensible en groupe.
Diagramme d’entités (niveau formel)
flowchart LR
subgraph Individual["Individu i"]
Gi["G_i : multiensemble de gamètes-jetons"]
Gamma["Γ_i=(S_i,M_i,A_i,R_i)"]
end
Gamma -->|Frag| gamma["γ=(Sγ,Mγ,Aγ)"]
Gi --> gamma
gamma -->|Recombine| Gammac["Γ_c"]
Gammac -->|Frag| Gc["G_c"]
Lignée comme DAG d’événements
On définit une lignée comme un graphe orienté construit par les événements reproductifs.
Définition formelle
Soit E l’ensemble des événements. On construit un graphe orienté \mathcal{T}=(V,E_{\to}) où :
V=I(les individus),- pour chaque événement
e=(p,q,\gamma_p,\gamma_q,c), on ajoute deux arêtes orientéesp\to cetq\to c.
On appelle \mathcal{T} la lignée (ou plus précisément un pedigree abstrait). Le graphe n’impose pas la bi‑parentalité : on peut généraliser à k parents par événement, mais on reste ici dans le cas 2 pour fixer les preuves.
Acyclicité induite par la non‑réutilisation
On formalise une grandeur monotone associée à la consommation.
Définition (stock total de jetons).
T = \sum_{i\in I} |G_i|.
Proposition (monotonicité stricte).
Si chaque événement consomme au moins deux jetons et ne réintroduit pas les mêmes jetons, alors T décroît strictement après chaque événement (au niveau considéré).
Preuve. Un événement retire \gamma_p,\gamma_q des stocks. Sous A0, ces jetons ne sont pas remis. Donc T diminue d’au moins 2. □
Théorème (acyclicité).
Sous l’axiome A0 et la monotonicité de T, le graphe \mathcal{T} est un DAG.
Preuve. Supposons un cycle orienté i_0\to i_1\to \cdots \to i_k=i_0. Chaque arête correspond à un événement (direct ou indirect) qui consomme des jetons et fait décroître T. En parcourant le cycle, T devrait décroître strictement et revenir à sa valeur initiale, contradiction. □
Cette forme de preuve est exactement la logique « monotone strict ⇒ pas de cycles » (même squelette que dans les preuves par fonction de Lyapunov). Elle est cohérente avec la reconstruction du temps comme ordre : un monotone strict interdit les retours exacts.
Relations d’ascendance et invariants combinatoires
Dans un DAG \mathcal{T}, on définit :
uest ancêtre devsi un chemin orientéu\to^\* vexiste.- la profondeur
\mathrm{depth}(v): longueur maximale d’un chemin orienté menant àv. - la largeur
\mathrm{width}(\mathcal{T}): taille maximale d’un antichaîne (ensemble de nœuds incomparables) ; notion standard dans la théorie des posets/DAG (ici utilisée comme mesure « d’expansion parallèle »).
Proposition élémentaire (ordre partiel des individus).
L’ancêtre/descendant induit un ordre partiel sur V (réflexif via chemin vide, transitif par concaténation des chemins, antisymétrique car DAG).
Preuve. Dans un graphe sans cycles, l’existence de u\to^\* v et v\to^\* u implique un cycle si u\neq v. □
Schéma de lignée (DAG d’événements)
flowchart TD
A["i₀"] --> C["i₂"]
B["i₁"] --> C
C --> E["i₄"]
D["i₃"] --> E
C --> F["i₅"]
subgraph Levels["Couches (antichaînes)"]
direction LR
L0["génération 0"] --- L1["génération 1"] --- L2["génération 2"]
end
Agrégation historique et métriques de complexité
Le DAG fournit l’ossature. L’« histoire » apparaît lorsque l’on définit des opérateurs d’agrégation des registres M_i le long des événements.
Agrégation M_{\mathcal{T}} : somme pondérée, filtrage et oubli
Soit \omega:V\to \mathbb{R}_+ une pondération (fonction arbitraire, par ex. profondeur, centralité, ou constante).
Définition (agrégation additive).
M_{\mathcal{T}} \;=\; \sum_{i\in V} \omega(i)\, M_i
(la somme est point‑par‑point sur \mathcal{L}\times\mathcal{L}).
Propriétés (algèbre).
La somme est associative et commutative et définit un monoïde additif sur l’espace des registres \mathbb{R}_+^{\mathcal{L}\times\mathcal{L}}. (Faits algébriques standards.)
Définition (filtrage). Un filtrage est un opérateur F agissant sur M en annulant certains coefficients :
(F_\theta M)(a,b)=M(a,b)\cdot \mathbf{1}_{M(a,b)\ge \theta}.
Propriété : F_\theta est idempotent (F_\theta\circ F_\theta=F_\theta).
Définition (oubli/exponentiel).
Pour \alpha\in(0,1), on définit une agrégation « à oubli » par une récurrence sur un ordre topologique du DAG :
M^{(t+1)}=\alpha M^{(t)} + \Delta M^{(t+1)},
où \Delta M^{(t+1)} est la contribution des nouveaux nœuds/hyperarêtes. Cela définit une dynamique contractante sur l’espace des registres (utile lorsque l’histoire doit être « bornée »).
Lien avec l’entropie et l’information (mesures de Shannon).
Shannon établit l’entropie H comme mesure de l’incertitude d’une variable discrète et introduit entropies jointes/conditionnelles dont la relation de chaîne permet de quantifier la perte lors d’une projection.
Ici, on peut associer au registre M une distribution normalisée p_M(a,b)=M(a,b)/\sum_{u,v} M(u,v) et définir l’entropie de transitions :
H(M) = -\sum_{a,b} p_M(a,b)\log p_M(a,b).
Elle quantifie la dispersion des transitions au niveau de classes (sans sémantique).
Métriques de mémoire historique
On propose trois familles de métriques (toutes définies sur des objets mathématiques, sans interprétation psychologique).
Croissance de complexité de registre.
- Support :
\mathrm{supp}(M)=\{(a,b):M(a,b)>0\} - Taille support :
|\mathrm{supp}(M_{\mathcal{T}})|mesure la diversité de transitions observées. - Normes :
\|M_{\mathcal{T}}\|_1=\sum_{a,b} M_{\mathcal{T}}(a,b)(compte total),\|M_{\mathcal{T}}\|_0=|\mathrm{supp}|(diversité).
Entropie cumulative.
H(M_{\mathcal{T}})comme ci‑dessus.- Entropie conditionnelle (si l’on découple états sources et transitions) :
H(B|A)mesure la dispersion des successeurs conditionnellement à la source, via standard Shannon.
Diversité de lignées.
On mesure la diversité par partition au niveau des descendants (par exemple via classes \Gamma projetées) ; techniquement, cela revient à une entropie de distribution de types.
Bornes élémentaires.
Dans le cas où l’on agrège simplement des cooccurrences et où chaque nouvel individu ajoute au plus |S_i|-1 transitions, on obtient une borne triviale :
\|M_{\mathcal{T}}\|_1 \le \sum_{i\in V} \omega(i)\,(|S_i|-1).
Si \omega\equiv 1 et |S_i|\le n_{\max}, alors \|M_{\mathcal{T}}\|_1\le |V|\,(n_{\max}-1) (croissance au plus linéaire en nombre d’individus).
À l’inverse, si le nombre d’individus croît exponentiellement (processus supercritique), la masse agrégée croît exponentiellement en espérance (section suivante).
Paysage temporel : couches et accumulation
On peut visualiser l’histoire comme accumulation par couches (antichaînes) dans le DAG.
flowchart LR
subgraph TimeLayers["Couches d'événements (ordre partiel)"]
direction TB
L0["Couche 0: sources"] --> L1["Couche 1"]
L1 --> L2["Couche 2"]
L2 --> L3["Couche 3"]
end
L0 --- M0["M couche 0"]
L1 --- M1["ΔM couche 1"]
L2 --- M2["ΔM couche 2"]
L3 --- M3["ΔM couche 3"]
M0 --> Agg["Agrégation: somme/oubli"]
M1 --> Agg
M2 --> Agg
M3 --> Agg
Agg --> MT["M_𝒯"]
Modèles stochastiques de reproduction et survie des lignées
Cette section n’est pas une « application » mais une mise en correspondance avec des cadres probabilistes établis, utiles pour obtenir des résultats quantitatifs (probabilité de survie, profondeur attendue).
Processus de branchement de Galton–Watson
Le modèle de Galton–Watson (historique) a été introduit dans le contexte de l’extinction de familles (noms), par Galton et Watson.
Formellement, si Z_n est la taille de la génération n et si chaque individu engendre un nombre i.i.d. d’enfants \xi, on a :
Z_{n+1}=\sum_{k=1}^{Z_n} \xi_k^{(n)},\qquad Z_0=1.
Résultats classiques (consensus) :
- La probabilité d’extinction
qest la plus petite solution dans[0,1]de
oùq = \varphi(q),\varphi(s)=\mathbb{E}(s^\xi)est la fonction génératrice. - Si
m=\mathbb{E}[\xi]\le 1, alorsq=1(extinction presque sûre) ; sim>1, alorsq<1(survie avec probabilité positive).
Ces résultats fournissent une lecture quantitative de « survivre comme lignée » : l’acyclicité et l’accumulation ne garantissent pas l’expansion ; en régime sous‑critique, la lignée s’éteint presque sûrement.
Coalescent de Kingman : généalogie « vue à rebours »
Pour un échantillon de n individus dans une grande population idéale (Wright–Fisher / Moran), Kingman introduit un processus de Markov continu sur l’ensemble des partitions de \{1,\dots,n\}, décrivant les coalescences des lignées ancestrales lorsqu’on remonte le temps.
Propriété centrale (consensus) : lorsque k lignées ancestrales sont présentes, le taux de coalescence est
\lambda_k = \binom{k}{2},
et les temps d’attente entre coalescences successives sont exponentiels indépendants de paramètres \lambda_k (après un choix d’échelle). Cette structure (pure death process sur le nombre de blocs) est explicitement discutée dans les présentations standards du coalescent.
Lien avec notre formalisme : le DAG « vers l’avant » (reproduction) devient, lorsqu’on le regarde sur un échantillon de feuilles, un arbre aléatoire « vers l’arrière » (coalescent). Ceci fournit des formules pour la profondeur attendue (temps jusqu’à MRCA) et pour la distribution de longueurs de branches.
Recombinaison : graphes ancestraux (ARG) et difficulté computationnelle
Avec recombinaison, l’ancestralité n’est plus un arbre unique mais un graphe : l’ancestral recombination graph (ARG), qui combine événements de coalescence et de recombinaison. Des sources de synthèse décrivent l’ARG comme structure fondamentale de la généalogie génomique. Des travaux classiques (Hudson) posent des modèles coalescents intégrant recombinaison, en lien avec la structure des généalogies le long du génome.
Résultat clé pour notre chapitre « algorithmes » : construire des ARG minimaux (minimiser le nombre d’événements de recombinaison compatibles avec des données) est computationnellement difficile ; plusieurs travaux mentionnent explicitement la NP‑difficulté de variantes de construction minimale. Ce point justifie une limite interne : même si le modèle définit une histoire comme DAG/ARG, la reconstruction exacte peut être non identifiable ou intractable.
Reconstruction algorithmique des lignées et limites d’identifiabilité
Le modèle distingue deux problèmes : reconstruction de l’ossature (le DAG) et reconstruction des contenus (S,M,A).
Reconstruction d’un DAG à partir de distances (heuristique)
Si l’on observe un ensemble d’individus V_{\text{obs}} avec des distances d_S (sur séquences) et/ou d_M (sur registres), une stratégie heuristique consiste à :
- construire un graphe de proximité (k‑NN, seuil),
- imposer une orientation par un ordre externe (horloge interne, monotone, ou timestamps observés),
- extraire un DAG parcimonieux (par ex. arborescence couvrante minimale orientée, ou ensemble de parents minimisant une fonction de coût).
Ce type de méthode est heuristique : sans hypothèses additionnelles, de nombreux DAG peuvent être compatibles avec les mêmes distances.
Reconstruction avec recombinaison : réduction à des problèmes NP‑difficiles
Lorsque la recombinaison est autorisée, l’histoire devient un graphe (ARG) plutôt qu’un arbre. Plusieurs problèmes naturels deviennent NP‑difficiles :
- minimiser le nombre de recombinaisons dans un réseau phylogénétique, NP‑hard dans des formulations standard.
- construire un ARG minimal cohérent avec des données, NP‑hard dans des formulations minimales.
Conséquence méthodologique (interne à l’ouvrage) : une théorie abstraite de l’histoire doit accepter que « l’histoire exacte » est souvent une classe d’histoires compatibles, plutôt qu’un objet unique reconstructible.
Limite informationnelle : non‑injectivité et collisions
Même sans recombinaison, la non‑injectivité (collisions) implique que plusieurs passés peuvent mener au même présent. Landauer relie explicitement les fonctions logiquement irréversibles (sans inverse univoque) à une irréversibilité physique et à un coût minimal d’effacement, ce qui fournit un ancrage consensuel à l’idée que l’information sur les antécédents ne peut pas être récupérée gratuitement. Ici, on n’en déduit pas une physique de la lignée : on en tire une contrainte formelle sur l’identifiabilité.
Conditions minimales d’accumulation irréversible et lectures conditionnelles (S1)
Conditions minimales (formelles)
On peut isoler trois conditions, chacune dérivée des constructions précédentes :
- Orientation événementielle : existence d’un monotone strict (ici, consommation de jetons) ⇒ DAG ⇒ ordre historique (preuves ci‑dessus).
- Non‑injectivité effective : collisions au niveau des classes/observations ⇒ impossibilité de reconstruire le passé fin ⇒ l’histoire est irréductible à l’état présent (principe général, cohérent avec Landauer et avec la théorie de l’information de Shannon, où une projection déterministe détruit l’information conditionnelle).
- Séparation d’échelles (argument de consensus) : pour voir une flèche à un niveau donné, il faut que la dynamique à ce niveau ne soit pas réversible « en pratique » (agrégation, dissipation, non‑injectivité). Cette idée est compatible avec le fait que des dynamiques microscopiques réversibles peuvent produire des irréversibilités macroscopiques via agrégation et perte d’information, point discuté classiquement en mécanique statistique et dans la lecture informationnelle de l’entropie.
Lectures conditionnelles (S1) dérivées strictement
Sans ajouter de spéculation, on peut affirmer :
-
Disponibilité d’une mémoire distribuée.
Dès qu’il existe un DAG d’événements et une variable additiveM_{\mathcal{T}}=\sum \omega(i)M_i, l’histoire devient un objet global distribué sur les nœuds, non réductible à un seul état local. -
Possibilité d’augmentation de complexité historique.
En régime où le nombre d’individus croît (p. ex. branchement supercritiquem>1), les quantités cumulées (\|M_{\mathcal{T}}\|_1, diversité de transitions, entropie) croissent typiquement avec la taille de la lignée; Galton–Watson fournit le critère probabiliste minimal pour qu’une telle croissance soit possible avec probabilité non nulle. -
Diversification sans finalité.
La diversification découle de la combinatoire des recombinaisons de fragments et de l’expansion du DAG; aucun objectif n’est requis pour obtenir une dispersion des types.
Analyse philosophique finale : ontologie des lignées, limites et interdits
Ontologie minimale : histoire comme ordre d’événements
Le chapitre montre que « l’histoire » n’est pas une donnée primitive : elle apparaît lorsque l’on remplace la notion d’état par celle d’événement orienté. Une lignée n’est pas une essence : c’est une structure d’ordre (DAG) munie de contenus transmissibles (\Gamma) et de cumulants (M_{\mathcal{T}}).
Cette ontologie est strictement structurale : être « dans » une histoire signifie être situé dans un poset d’événements et contribuer à un registre global.
Ce que le formalisme interdit
- Il interdit toute agentivité : aucun individu n’« agit » au sens intentionnel; il ne fait que participer à des opérateurs admissibles.
- Il interdit toute finalité : la survie/expansion d’une lignée est un résultat contingent mesurable (ex. probabilité de survie en Galton–Watson), non un but.
- Il interdit l’identité forte : la non‑injectivité implique que plusieurs histoires distinctes peuvent être compatibles avec un même état présent; avec recombinaison, la pluralité d’ARG compatibles et la difficulté computationnelle rendent cette limite encore plus marquée.
Limites internes
- La notion d’agrégation
M_{\mathcal{T}}dépend d’un choix de pondération\omegaet d’opérateurs de filtrage/oubli : il n’existe pas de « mémoire historique unique » sans convention. - La reconstruction exacte des histoires peut être impossible (non identifiabilité) et/ou intractable (NP‑difficulté) dans des cadres riches (recombinaison).
Tableaux comparatifs
DAG et cycles : structures d’histoire
| Structure | Définition | Propriété clé | Interprétation formelle |
|---|---|---|---|
| DAG | graphe orienté sans cycles | ordre partiel ancêtre/descendant | histoire irréversible (événements non recyclables) |
| Graphe avec cycles | existence de boucle orientée | retour possible | absence de flèche d’événements au niveau considéré |
| Arbre (cas particulier de DAG) | DAG avec un parent (ou deux) et sans recombinaison | MRCA bien défini | généalogie sans recombinaison |
| ARG | DAG avec nœuds de recombinaison | pas un arbre unique | généalogie multi‑arbres corrélés |
Modèles stochastiques : branchement vs coalescent
| Modèle | « Sens du temps » | Objet aléatoire | Résultat canonique |
|---|---|---|---|
| Galton–Watson | vers l’avant | tailles Z_n, arbre de descendance |
extinction q solution q=\varphi(q); q=1 si m\le1 |
| Coalescent de Kingman | vers l’arrière | partition/ arbre de coalescence d’un échantillon | taux \binom{k}{2} pour k lignées; pure death process |
| Coalescent avec recombinaison | vers l’arrière | ARG | structure plus complexe; inférence difficile |
Métriques d’histoire
| Métrique | Définition | Coût de calcul (typique) | Commentaire |
|---|---|---|---|
\|M_{\mathcal{T}}\|_1 |
somme des compteurs | (O( | \mathcal{L} |
| ( | \mathrm{supp}(M_{\mathcal{T}}) | ) | nombre de transitions distinctes |
H(M_{\mathcal{T}}) |
entropie Shannon sur transitions | O(\#\text{non‑zéros}) |
dispersion sans sémantique |
| profondeur/largeur | invariants DAG | (O( | V |