Dans un contexte technologique ou les données sont très faciles à produire, l’analyse quant à elle
devient de plus en plus complexe. Les plateformes de calcul telles que MapReduce (HADOOP) ont été
largement adoptées pour les traitements analytiques. Bien que ces plateformes offrent un modèle de
calcul hautement parallélisable et tolérant aux pannes matérielles, elles demeurent néanmoins pour
certains traitements inefficaces notamment lorsque les données ont besoin d’être réutilisées. C’est à
partir de ces constats que SPARK est née.
SPARK se veut être une plateforme généraliste robuste aux pannes et hautement parallélisable, ou le
traitement des données exploite au maximum la mémoire pour améliorer les performances.
Spark propose des approches tout à fait complémentaires aux outils de calcul intensif et haut-débit
(HPC, HTC) déjà implantés dans nos environnements. L’objectif de cette présentation sera de présen-
ter SPARK aussi bien au niveau architecturel que conceptuel et l’interêt que peut représenter une
telle technologie.
Osman AIDEL IN2P3-CC Grid service