GatoStar : A Fault Tolerant Load Sharing Facility for Parallel Applications

B. Folliot, P. Sens

IBP-Masi 1994/37: Rapport de Recherche Masi / Masi research reports
16 pages - Décembre/December 1994 - Document en anglais.

Titre / Title: GatoStar : A Fault Tolerant Load Sharing Facility for Parallel Applications


Résumé : Ce papier présente pourquoi et comment unifier des gestionnaires de partage de charge et de tolérance aux fautes. La réalisation d'un tel gestionnaire, GatoStar, est présenté et discuté. Ce système repose sur l'intégration de deux applications développées au-dessus du système Unix : Gatos et Star. Gatos est un gestionnaire de partage de charge qui répartit automatiquement les applications parallèles sur un ensemble hétérogène de sites en fonction d'algorithmes d'allocation multi-critères. Star est un gestionnaire de tolérance aux fautes qui reprend automatiquement les processus s'exécutant sur des machines défaillantes en utilisant une technique de points de reprise et de journalisation de messages. L'avantage principal de cette approche est d'augmenter les performances de la tolérance aux fautes en tirant parti des algorithmes de partage de charge lors de l'allocation et de la reprise des processus. Cette unification n'augmente pas uniquement l'efficacité des deux systèmes mais évite également la redondance de nombreux mécanismes. En effet, chacun des systèmes a besoin d'intégrer au moins trois mécanismes communs permettant de maintenir une connaissance globale des processus s'exécutant, de détecter la défaillance de site, et de transférer des informations concernant l'ensemble des machines. L'unification s'appuie sur un anneau logique utilisé pour la détection les pannes de site et l'acquisition des informations sur l'état des machines. Ainsi, toutes les informations nécessaires sont obtenues à faible coût par rapport aux deux systèmes pris de manière indépendante.

Abstract : This paper presents how and why to unify load sharing and fault tolerance facilities. A realization of a fault tolerant load sharing facility, GatoStar, is presented and discussed. It is based on the integration of two applications developed on top of Unix: Gatos and Star. Gatos is a load sharing manager which automatically distributes parallel applications among heterogeneous hosts according to multicriteria allocation algorithms. Star is a software fault tolerance manager which automatically recovers processes of faulty machines based on checkpointing and message logging. The main advantage of this approach is to increase fault tolerant performance by taking advantage of the load sharing policies when allocating or recovering processes. This unification not only improves the efficiency of both facilities but avoids many redundancies mechanisms between them. Indeed, each facility needs to manage at least three common features: global knowledge of the running processors, a crash detection mechanism and remote process management. The backbone of this unification is a logical ring of communication for host crash detection and for host related information transfer. Thus, all necessary information is acquired with a relatively low cost of messages compared to the two systems taken independently.


Publications internes Masi 1994 / Masi research reports 1994