Aspects algorithmiques des réarrangements génomiques : duplications et ordres partiels

Thèse Année : 2009

Algorithmic Aspects of Genome Rearrangements: Duplications and Partial Orders Aspects algorithmiques des réarrangements génomiques : duplications et ordres partiels

(1)

1 (Université Paris Sud Bât. 650 Lovelace 91405 Orsay Cedex - France) 403623

LRI - Laboratoire de Recherche en Informatique (LRI - Bâtiments 650-660 Université Paris-Sud 91405 Orsay Cedex - France) 2544
- UP11 - Université Paris-Sud - Paris 11 (Bâtiment 300 - 91405 Orsay cedex - France) 92966
- CentraleSupélec (3, rue Joliot Curie, Plateau de Moulon, 91192 GIF-SUR-YVETTE Cedex - France) 411575
- CNRS - Centre National de la Recherche Scientifique : UMR8623 (France) 441569

"> BioInfo - LRI - Bioinformatique (LRI)

Annelyse Thévenin

Fonction : Auteur
PersonId : 934640

Bioinformatique (LRI)

Résumé

Comparative genomics is an important tool to better understand the different between species. Several methods exist to compare two genomes such that the computation of (dis)similarities' measures. In this work, we study three measures : numbers of adjacencies, of breakpoints and of common intervals. In presence of duplicated genes or when the gene order is only partially known, calculate these measures is a NP-hard problem. In first, we want to compute the numbers of adjacencies and breakpoints for three models (exemplar, intermediate, maximum) between two genomes with duplications. To get an exact result, we express these problems by pseudo-boolean programs. Thus, we can use the solver CPLEX, efficient for this study. Thanks a experimentation with 12 genomes of γ-proteobacteria, we get enough results to: compare the both measures and the 3 models and evaluate heuristics. In particular, we propose heuristics (based on a search for longest common subsequence) giving very good results. In parallel, we have established for different computational problems measures between two genomes with duplication, whether it exists a polynomial approximation. Secondly, we calculate the number of adjacencies and common intervals between two partial orders (with the possibility that one order is total). We use a programming approach pseudo-Boolean too and an other solver, efficient for this study: minisat+. Using nearly 800 simulated genomes, we study the influence of parameters associated with partial orders and we compare the two measures studied.

La génomique comparative est une discipline importante pour la compréhension de l'évolution du vivant. Différentes méthodes de comparaison existent, nous nous intéressons ici en particulier aux mesures de (dis)similarités entre les génomes. Dans cette étude, nous étudions 3 mesures : les nombres d'adjacences, de points de cassures et d'intervalles communs. En présence de gènes dupliqués ou lorsque l'ordre des gènes n'est que partiellement connu, calculer ces mesures est un problème connu pour être NP-difficile. D'une part, nous désirons calculer les nombres d'adjacences et de points de cassures pour trois modèles (exemplaire, intermédiaire, maximum) entre deux génomes possédant des duplications. Afin d'obtenir un algorithme exact, nous modélisons ces problèmes en programmes pseudo-booléens. Après expérimentation sur 12 génomes de γ-protéobactéries, nous obtenons suffisamment de résultats pour : comparer les deux mesures et les 3 modèles et évaluer des heuristiques. À ce titre, nous proposons une famille d'heuristiques basée sur une recherche de plus longue sous-séquence commune qui donne de très bons résultats sur ces données. Parallèlement à cela, nous avons étudié, pour différents problèmes de calcul de mesures entre deux génomes avec duplication, l'approximation polynomial. D'autre part, nous calculons les nombres d'adjacences et d'intervalles communs entre deux ordres partiels (avec la possibilité qu'un des ordres soit total). Nous utilisons de nouveau une approche de programmation pseudo-booléenne. À l'aide de près de 800 génomes simulés, nous étudions l'influence de paramètres inhérents aux ordres partiels et nous comparons les deux mesures étudiées.

Mots clés

Comparative genomics (dis)similarity measures duplicated gene exemplar/intermediate/maximum matching polynomial time approximation partially ordered genome pseudo-boolean programming heuristic.

heuristique Génomique comparative mesures de (dis)similarités gènes dupliqués couplage exemplaire/intermédiaire/maximum approximation en temps polynomial génome partiellement ordonné programme pseudo-booléen heuristique.

Domaines

Bio-informatique [q-bio.QM] Bio-Informatique, Biologie Systémique [q-bio.QM]

Fichier principal

PhD-Thevenin.pdf (1.71 Mo)

Annelyse Thévenin : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00768996

Soumis le : jeudi 27 décembre 2012-11:23:15

Dernière modification le : mercredi 14 février 2024-03:09:36

Archivage à long terme le : jeudi 28 mars 2013-03:48:07

Dates et versions

tel-00768996 , version 1 (27-12-2012)

Identifiants

HAL Id : tel-00768996 , version 1

Citer

Annelyse Thévenin. Aspects algorithmiques des réarrangements génomiques : duplications et ordres partiels. Bio-informatique [q-bio.QM]. Université Paris Sud - Paris XI, 2009. Français. ⟨NNT : 2009PA112194⟩. ⟨tel-00768996⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS CNRS UMR8623 LRI-BIOINFO UNIV-PARIS-SACLAY LISN LISN-BIOINFO

210 Consultations

271 Téléchargements