Plate-forme de Répartition de Charge et de Tolérance aux Fautes pour Applications Parallèles en Environnement Réparti

B. Folliot, P. Sens, P.-G. Raverdy

Masi-IBP 1996/01: Rapport de Recherche Masi / Masi research reports
22 pages - Février/February 1996 - French document.

PostScript : 71 Ko /Kb

Titre français : Plate-forme de Répartition de Charge et de Tolérance aux Fautes pour Applications Parallèles en Environnement Réparti
Titre anglais : Load Sharing and Fault Tolerant Plateform for Parallel Applications in Distributed Systems


Résumé : Cet article présente une plate-forme répartie d'exécution pour applications parallèles unifiant un gestionnaire de partage de charge et de tolérance aux fautes. Cette plate-forme, GatoStar, repose sur l'unification de deux applications développées au-dessus du système Unix : Gatos et Star. L'apport principal de cette unification est de fournir un support complet et cohérent pour l'exécution performante d'applications parallèles à gros grain et longue durée de vie. Les processus d'applications sont initialement placés sur un ensemble hétérogènes de machines disponibles. Ils sont déplacés au cours de leur exécution en fonction de la charge globale du système ou des fautes de machines. Des mesures de performance en environnement réel montrent l'efficacité et les limites de notre système. Des perspectives du placement dynamique en environnement hybride (composé de machines parallèles connectées à un réseau de stations de travail) sont également présentées.

Abstract : This paper presents a distributed fault-tolerant load sharing facility for parallel applications support. This platform, called GatoStar, is based on the integration of two facilities developed on top of Unix: Gatos and Star. The main advantage of this unification is to offer a full and coherent support for efficient execution of coarse grain and long running parallel applications. Application's processes are initially allocated to a set of available heterogeneous hosts. Then, they are migrated during their execution according to the global system load or to hosts failures. Performance measurements in a real environment show the efficiency and the limits of our system. Some Placement perspectives in hybrid environment (composed of parallel machine connected to a workstations network) are also presented.


Mots-clés : systèmes répartis, placement d'applications parallèles, répartition de charge, point de reprise, journalisation de message, placement hybride.

Key-words : distributed systems, parallel applications placement, load sharing, checkpointing, message logging, hybrid placement.


Publications internes Masi 1996 / Masi research reports 1996