Thèse
Année : 2009
Résumé
Comparative genomics is an important tool to better understand the different between species. Several methods exist to compare two genomes such that the computation of (dis)similarities' measures. In this work, we study three measures : numbers of adjacencies, of breakpoints and of common intervals. In presence of duplicated genes or when the gene order is only partially known, calculate these measures is a NP-hard problem. In first, we want to compute the numbers of adjacencies and breakpoints for three models (exemplar, intermediate, maximum) between two genomes with duplications. To get an exact result, we express these problems by pseudo-boolean programs. Thus, we can use the solver CPLEX, efficient for this study. Thanks a experimentation with 12 genomes of γ-proteobacteria, we get enough results to: compare the both measures and the 3 models and evaluate heuristics. In particular, we propose heuristics (based on a search for longest common subsequence) giving very good results. In parallel, we have established for different computational problems measures between two genomes with duplication, whether it exists a polynomial approximation. Secondly, we calculate the number of adjacencies and common intervals between two partial orders (with the possibility that one order is total). We use a programming approach pseudo-Boolean too and an other solver, efficient for this study: minisat+. Using nearly 800 simulated genomes, we study the influence of parameters associated with partial orders and we compare the two measures studied.
La génomique comparative est une discipline importante pour la compréhension de l'évolution du vivant. Différentes méthodes de comparaison existent, nous nous intéressons ici en particulier aux mesures de (dis)similarités entre les génomes. Dans cette étude, nous étudions 3 mesures : les nombres d'adjacences, de points de cassures et d'intervalles communs. En présence de gènes dupliqués ou lorsque l'ordre des gènes n'est que partiellement connu, calculer ces mesures est un problème connu pour être NP-difficile. D'une part, nous désirons calculer les nombres d'adjacences et de points de cassures pour trois modèles (exemplaire, intermédiaire, maximum) entre deux génomes possédant des duplications. Afin d'obtenir un algorithme exact, nous modélisons ces problèmes en programmes pseudo-booléens. Après expérimentation sur 12 génomes de γ-protéobactéries, nous obtenons suffisamment de résultats pour : comparer les deux mesures et les 3 modèles et évaluer des heuristiques. À ce titre, nous proposons une famille d'heuristiques basée sur une recherche de plus longue sous-séquence commune qui donne de très bons résultats sur ces données. Parallèlement à cela, nous avons étudié, pour différents problèmes de calcul de mesures entre deux génomes avec duplication, l'approximation polynomial. D'autre part, nous calculons les nombres d'adjacences et d'intervalles communs entre deux ordres partiels (avec la possibilité qu'un des ordres soit total). Nous utilisons de nouveau une approche de programmation pseudo-booléenne. À l'aide de près de 800 génomes simulés, nous étudions l'influence de paramètres inhérents aux ordres partiels et nous comparons les deux mesures étudiées.
Loading...
Annelyse Thévenin : Connectez-vous pour contacter le contributeur
https://theses.hal.science/tel-00768996
Soumis le : jeudi 27 décembre 2012-11:23:15
Dernière modification le : mercredi 14 février 2024-03:09:36
Archivage à long terme le : jeudi 28 mars 2013-03:48:07
Dates et versions
- HAL Id : tel-00768996 , version 1
Citer
Annelyse Thévenin. Aspects algorithmiques des réarrangements génomiques : duplications et ordres partiels. Bio-informatique [q-bio.QM]. Université Paris Sud - Paris XI, 2009. Français. ⟨NNT : 2009PA112194⟩. ⟨tel-00768996⟩
Collections
210
Consultations
271
Téléchargements