Logo Anthéa RH - Retour à l'accueil

Operations Cloud Expert - Ingénieur Cloud DevOps Run Aws · Gcp · Kubernetes · Terraform H/F

Lieu : Nanterre
Contrat : Intérim
Télétravail : Télétravail partiel
Salaire : 65 000 € - 70 000 € brut / an

Les missions du poste

CONTEXTE & OBJECTIF DU POSTE

Le client recherche un ingénieur Cloud/DevOps orienté production pour assurer la stabilité, la fiabilité et la performance des systèmes en production sur un environnement cloud hybride AWS/GCP. Le rôle est à dominante RUN opérationnel avec une forte dimension automatisation et industrialisation (IaC, CI/CD, scripting).

La stack : AWS + GCP, Kafka, Elasticsearch, Couchbase, Mesos - environnement legacy en évolution vers du cloud. Le profil doit être à l'aise dans la complexité et l'hétérogénéité.

Trois enjeux concrets :

- Garantir la disponibilité production au quotidien : monitoring proactif, gestion des incidents de bout en bout (détection, RCA, actions correctives), astreinte via PagerDuty
- Automatiser et industrialiser les opérations : réduction de la dette manuelle via Terraform, Ansible, Python et Bash
- Collaborer avec les équipes de développement pour améliorer la déployabilité et l'exploitabilité des applications

MISSIONS PRINCIPALES

Supervision & Disponibilité Production

- Assurer le monitoring 24/7 des systèmes de production via Grafana, Prometheus, Datadog et Stackdriver - détection proactive des anomalies avant impact utilisateur
- Créer et maintenir les dashboards et les alertes, corréler les événements pour le diagnostic d'incidents
- Participer à l'astreinte on-call (PagerDuty) sur les systèmes critiques

Gestion des Incidents

- Prendre en charge les incidents de production, mener le troubleshooting et produire les RCA (Root Cause Analysis)
- Définir et mettre en oeuvre les actions correctives et préventives pour éviter la récurrence
- Communiquer de façon claire avec les équipes et le management en situation de crise

Automatisation & Infrastructure as Code

- Écrire et maintenir les configurations Terraform en production (modules, state management, workspaces)
- Automatiser les opérations répétitives via Python et Bash - déploiements, inventaire, vérification, reporting
- Gérer la configuration via Ansible et maintenir les pipelines GitLab CI

Exploitation des Environnements Conteneurisés & Plateformes

- Opérer Kubernetes en production : déploiements, services, scaling HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC
- Opérer Kafka en production : monitoring du lag consumer, gestion des topics et partitions, diagnostic des incidents de streaming
- Assurer le support opérationnel sur les bases de données : PostgreSQL, Elasticsearch, Couchbase (performances, sauvegardes, restaurations)

Réseau & Sécurité Cloud

- Gérer les VPN, NAT, routage IP, proxy et load balancing en environnement cloud AWS et GCP
- Appliquer les bonnes pratiques de sécurité et de gestion des accès (IAM, VPC)

Le profil recherché

PROFIL RECHERCHÉ

- 5 à 8 ans en ingénierie cloud/DevOps/ops, dont au moins 3 ans sur des environnements de production cloud (AWS ou GCP) avec Kubernetes
- Expérience d'astreinte ou on-call sur des systèmes critiques : signal fort qui forme des réflexes de diagnostic et de gestion de crise que les profils purement "projet" n'ont pas
- Exposition à Kafka en production : critère discriminant
- Capacité à opérer sur AWS ET GCP - le multi-cloud est explicite, un profil mono-provider devra démontrer une capacité de transfert rapide
- Anglais courant : documentation, runbooks, communication avec des équipes internationales

COMPÉTENCES REQUISES

- Cloud AWS + GCP () : Exploitation opérationnelle des deux providers en production - EC2/GCE, S3/GCS, RDS, IAM, VPC, load balancers, App Engine - pratique réelle requise sur les deux
- Kubernetes (++) : Exploitation en production : déploiements, services, ingress, HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC, monitoring
- Terraform (++) : Écriture et maintenance de configurations IaC en production - modules, state management, workspaces
- Monitoring (++) : Grafana + Prometheus + Datadog + Stackdriver : création de dashboards, définition d'alertes, corrélation d'événements pour le diagnostic d'incidents
- Scripting Python + Bash (++) : Automatisation opérationnelle, scripts de déploiement, outils d'inventaire et de vérification - niveau confirmé
- Kafka, Bases de données & Réseau : Kafka : monitoring du lag consumer, gestion des topics, diagnostic des incidents de streaming ; PostgreSQL, Elasticsearch, Couchbase : support opérationnel en production ; VPN, NAT, routage IP, proxy, load balancing en environnement cloud
- CI/CD & Configuration : GitLab CI : maintenance et amélioration de pipelines ; Ansible : configuration management et automatisation de déploiements

Bienvenue chez Ascalium

Créé en 2008, le Groupe Ascalium est un acteur global du recrutement spécialisé dans le placement de freelances (#WeAreFreelance) et le portage salarial (#WeArePortage).

En 16 ans, plus de 5 000 consultants ont fait confiance au groupe et près de 100 clients ont été satisfaits.

Ascalium accompagne également ses clients dans leur recherche de compétences en CDI.