Designing scientific workflows following a structure and provenance-aware strategyReportar como inadecuado




Designing scientific workflows following a structure and provenance-aware strategy - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

1 LRI - Laboratoire de Recherche en Informatique 2 AMIB - Algorithms and Models for Integrative Biology LIX - Laboratoire d-informatique de l-École polytechnique Palaiseau, LRI - Laboratoire de Recherche en Informatique, UP11 - Université Paris-Sud - Paris 11, Inria Saclay - Ile de France, Polytechnique - X, CNRS - Centre National de la Recherche Scientifique : UMR8623

Abstract : Scientific workflow systems are equipped of provenance modules able to collect data produced and consumed during workflow runs to enhance reproducibility. For several reasons, the complexity of workflow and workflow execution structures is increasing over time, with a clear impact on scientific workflows reuse. The global aim of this thesis is to enhance workflow reuse by providing strategies to reduce the complexity of workflow structures while preserving provenance. Two strategies are introduced. First, we propose an approach to rewrite any scientific workflow represented as a directed acyclic graph DAG into a series-parallel SP structure while preserving provenance. Such structures allow to design polynomial-time algorithms for complex workflow operations e.g., comparing workflows while such operations are related to an NP-hard problem for general DAG structures. The SPFlow rewriting and provenance-preserving algorithm is thus introduced. Second, we provide a methodology and a technique to reduce the redundancy present in workflows by detecting and removing -anti-patterns- responsible for such redundancy. The DistillFlow algorithm is able to transform a workflow into a distilled semantically-equivalent workflow, free or partly free of anti-patterns and with a more concise and simpler structure. The two main approaches SPFlow and DistillFlow are based on a provenance model that we have introduced to represent the provenance structure of the workflow executions. Our solutions are available for use at https:-www.lri.fr-~chenj. They have been systematically tested on large collections of real workflows, especially from the Taverna system.

Résumé : Les systèmes de workflows disposent de modules de gestion de provenance qui collectent les informations relatives aux exécutions données consommées et produites permettant d-assurer la reproductibilité d-une expérience. Pour plusieurs raisons, la complexité de la structure du workflow et de ses d-exécutions est en augmentation, rendant la réutilisation de workflows plus difficile. L-objectif global de cette thèse est d-améliorer la réutilisation des workflows en fournissant des stratégies pour réduire la complexité des structures de workflow tout en préservant la provenance. Deux stratégies sont introduites. Tout d-abord, nous introduisons SPFlow un algorithme de réécriture de workflow scientifique préservant la provenance et transformant tout graphe acyclique orienté DAG en une structure plus simple, série-parallèle SP. Ces structures permettent la conception d-algorithmes polynomiaux pour effectuer des opérations complexes sur les workflows par exemple, leur comparaison alors que ces mêmes opérations sont associées à des problèmes NP-difficile pour des structures générales de DAG. Deuxièmement, nous proposons une technique capable de réduire la redondance présente dans les workflow en détectant et supprimant des motifs responsables de cette redondance, nommés -anti-patterns-. Nous avons conçu l-algorithme DistillFlow capable de transformer un workflow en un workflow sémantiquement équivalent -distillé-, possédant une structure plus concise et dans laquelle on retire autant que possible les anti-patterns. Nos solutions SPFlow et DistillFlow ont été testées systématiquement sur de grandes collections de workflows réels, en particulier avec le système Taverna. Nos outils sont disponibles à l-adresse: https:-www.lri.fr-~chenj-.

en fr

Keywords : scientific workflows biological data integration series-parallel graphs

Mots-clés : workflows scientifiques provenance integration de données biologiques graphes series-paralleles





Autor: Jiuqiang Chen -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados