Administrateur Système HPC (H/F)

Vue d'ensemble

AS+ est la filiale du Groupe EOLEN portant les activités liées au calcul haute performance (HPC). Pour le compte de nos clients, et en relation avec leurs équipes ou celles de leurs sous-traitants, vous prenez en charge les missions d’exploitation et d’administration suivantes sur des infrastructures de type supercalculateur

Localisation - France
Industrie - Industrie, Télécoms
Société - Eolen France

AS+ est la filiale du Groupe EOLEN portant les activités liées au calcul haute performance (HPC). Nos équipes ont développé, depuis plusieurs années, une forte expertise sur les méthodes et outils de développement dédiés aux plates-formes de calcul intensif : architectures multi-cœurs, accélérateurs, clusters de calcul.  Cette expertise nous permet de proposer, à travers notre centre de compétences HPC, une offre de services complète portant sur le maintien en conditions opérationnelles d’infrastructures de calcul,  le développement, l’optimisation et le portage sur architectures parallèles de codes de calcul et des modes d’intervention au plus proche des besoins de nos clients : conseil/audit, formations, assistance technique ou prestations clé en main.

Les équipes AS+ sont présentes sur plusieurs centres de calcul de premier plan : TGCC (Joliot-Curie & CCRT), IDRIS (Jean-Zay), TOTAL (Pangea 3).

PROFIL DU CANDIDAT

• Diplômes de base Bac + 5 :  Ecole d’Ingénieur et/ou master 2

• Expérience de quelques années dans le calcul haute performance souhaitable 

RESPONSABILITES ET MISSIONS :

Pour le compte de nos clients, et en relation avec leurs équipes ou celles de leurs sous-traitants, vous prenez en charge les missions d’exploitation et d’administration suivantes sur des infrastructures de type supercalculateur :

• Maintien en conditions opérationnelles des configurations de calcul et de stockage – préparation des actions de maintenance planifiée

• Mise en place et exploitation de solutions de surveillance des systèmes (Nagios, Shinken)

• Optimisation de la configuration des systèmes et des outils d’exploitation – mise en place de mécanismes de haute disponibilité (corosync) – virtualisation/containerisation (docker)

• Analyse et qualification des incidents et dysfonctionnements 

• Maintien d’une base de données de faits techniques

• Maintien de la documentation à jour à la suite des opérations réalisées.

• Relations avec les tiers constructeurs et éditeurs de solution pour la résolution des incidents et la mise en place de solutions de confinement/contournement

• Développements de scripts et de procédures d’automatisation en mode devops à des fins de validation, déploiement ou de surveillance (bash, python, puppet/saltstack, git)

• Anticiper sur les évolutions des configurations : suivi des versions, veille technologique.

• Reporting de l’activité de la prestation

COMPETENCES

Vous disposez de compétences solides dans plusieurs des domaines ci-dessous

• Systèmes d’exploitation GNU/Linux : RHEL, Centos, Debian, Ubuntu

• Technologies d’administration standard : DNS, DHCP, LDAP

• Technologies de supervision : Nagios, Shinken

• Inteconnect : Infiniband, OPA, BXI, ROCE

• Stockage distribué : GPFS, Lustre, BeeGFS, Panasas

• Technologies de virtualisation et containers/orchestration (docker, kubernetes, kafka)

• Technologies de déploiement et configuration : puppet, ansible

• Logiciels de déploiement / gestion de clusters (CM) : SaltStack, Bright CM

• Schedulers : PBS, Slurm, LSF,

• Langages de script : python, bash, ruby 

• Langages de développement : C, FORTRAN, Makefile/Cmake

COMPETENCES FONCTIONNELLES 

• Rigueur dans l’exécution et la restitution des actions

• Facilités de communication oracle et écrite 

• Capacité d’écoute 

• Capacité à coordonner des équipes techniques 

• Dynamisme et force de proposition 

• Anglais professionnel, Français courant


Informations Complémentaires

Poste basé en Île de France