en fr Comparison of the targets obtained by a scoring matrix and by a regular expression. Application to the search for LXR binding sites Comparaison des cibles d’une matrice de score et d’une expression régulière. ApplicatReportar como inadecuado




en fr Comparison of the targets obtained by a scoring matrix and by a regular expression. Application to the search for LXR binding sites Comparaison des cibles d’une matrice de score et d’une expression régulière. Applicat - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

* Corresponding author 1 Dyliss - Dynamics, Logics and Inference for biological Systems and Sequences Inria Rennes – Bretagne Atlantique , IRISA-D7 - GESTION DES DONNÉES ET DE LA CONNAISSANCE 2 UR1 - Université de Rennes 1 3 PEGASE - Physiologie, Environnement et Génétique pour l-Animal et les Systèmes d-Elevage Rennes

Abstract : In bioinformatics, it is a common task to search for new instances of a pattern built from a set of reference sequences.
For the simplest and most frequent cases, patterns are represented in two ways : regular expression or scoring matrix.
In the first case, the acceptance of a sequence is a binary decision.
In the second case, the quality of the sequence is indicated by a score.
Since both representations seem to be used indifferently in pratice, one may wonder if they have any impact on the result.
Is there a best representation? What is the accurate threshold value for a scoring matrix? Allowing mutations in a regular expression is it comparable to moving the score of acceptance of a matrix? These are questions adressed in this paper, through a test case on binding site search.
This study compares hits obtained with scoring matrices or by regular expressions allowing up to two substitutions.
The study shows that, in our LXR study, sequences found by a scoring matrix are closer to the targeted hits than sequences found by a regular expression.


Résumé : En bio-informatique, il est habituel de rechercher de nouvelles instances d-un modèle construit à partir d-un ensemble de séquences de référence.
Dans la majorité des cas, les plus simples, ces modèles sont représentés soit par des expressions régulières, soit par les matrices de score.
Dans le cas des expressions régulières, le résultat d-une analyse est binaire acceptation ou rejet.
Dans le cas des matrices de score, un score indique la qualité du résultat.
Si, en pratique, ces deux représentations semblent pouvoir être utilisées indifféremment , on peut se demander si elles ont un impact sur le résultat.
Y-a-t-il une meilleure représentation ? Comment fixer le seuil d-acceptabilité d-une matrice de score ? Autoriser des mutations sur une expression régulière est-il comparable à faire varier le seuil d-acceptation d-une matrice? Ce sont des questions évoquées dans ce papier, au travers du cas d-application du site de fixation de LXR.
Cette étude compare les occurrences obtenues avec une matrice de score et avec une expression régulière autorisant jusqu-à deux substitutions.
Elle montre que, dans notre étude LXR, les séquences obtenues avec une matrice de score sont plus proches des références que les séquences obtenues par l-expression régulière.


en fr

Keywords : pattern matching approximate regular expression RSAT matrix transcription factor binding sites

Mots-clés : matrice RSAT site de fixation de facteur de transcription position-weight matrix matrice poids-position expression régulière approchée





Autor: Aymeric Antoine-Lorquin - Sandrine Lagarrigue - Frédéric Lecerf - Jacques Nicolas - Catherine Belleannée -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados