Compétence Technique

Diagnostic & Résolution Complexe

Remonter à la cause racine pour résoudre durablement, pas seulement traiter le symptôme visible.

Ma Définition

Le troubleshooting réseau, c'est résoudre des problèmes dont les symptômes sont souvent flous, les causes multiples, et le contexte sous pression. La méthode compte autant que la technique : isoler les variables, progresser couche par couche dans le modèle OSI, et distinguer les corrélations des causalités. Un bon diagnostic ne cherche pas seulement à rétablir le service, il cherche à comprendre pourquoi le problème s'est produit pour éviter la récidive.

Dans un contexte comme Criteo, où un incident peut impacter +2000 collaborateurs dans plusieurs pays simultanément, la capacité à diagnostiquer vite et juste sous pression est une compétence critique. Un workaround mal documenté peut masquer un problème plus profond qui resurgira au pire moment, généralement en dehors des heures ouvrables.

Méthode OSI

Progresser couche par couche pour isoler les variables et distinguer les corrélations des causalités.

Pression et rapidité

Sur +2000 collaborateurs impactés, diagnostiquer vite et juste sous pression est une compétence critique autant que technique.

Résolution durable

Un workaround mal documenté masque le problème et garantit la récidive. La cause racine est l'objectif.

Mes Éléments de Preuve

Latences LDAPS sur authentification Wi-Fi mondiale : Diagnostic multi-couche

Un incident remonte en N2 : des délais d'authentification Wi-Fi anormaux, jusqu'à 30 secondes, impactent des collaborateurs sur plusieurs sites. L'investigation débute par les logs du Meraki Dashboard : rien d'anormal côté infrastructure Wi-Fi. Je pivote vers les Kemp Load Balancers, qui distribuent les requêtes LDAPS vers les contrôleurs de domaine Active Directory. L'analyse des logs LB révèle des timeouts intermittents sur certains pools de serveurs AD. En croisant avec les logs Active Directory, j'identifie que certains contrôleurs répondent normalement tandis que d'autres accumulent de la latence. La reconfiguration des pools LDAPS côté Kemp, ajustement des health checks et redistribution de charge, a résolu l'incident. La valeur ajoutée : en ne m'arrêtant pas à la couche Wi-Fi (le symptôme visible), j'ai remonté jusqu'à la couche IAM (la cause réelle), évitant un diagnostic superficiel et une récidive probable.

Support N1/N2/N3 : +2000 collaborateurs, incidents variés

Au quotidien, j'interviens sur des incidents de niveaux variables : réinitialisation de port switch (N1), problème de configuration VLAN ou de politique Meraki (N2), incident de routage ou d'authentification globale (N3). Cette diversité forge une capacité de contextualisation rapide, quel équipement, quel segment réseau, quelle politique d'accès pourrait être en cause ?, et un réflexe de documentation systématique après résolution pour capitaliser.

Analyse multi-couche

Ne pas s'arrêter à la couche Wi-Fi (le symptôme), remonter jusqu'à la couche IAM (la cause) via logs LB et Active Directory.

Triage N1/N2/N3

Contextualisition rapide sur chaque ticket : quel équipement, quel segment réseau, quelle politique d'accès pourrait être en cause.

Documentation post-incident

Transformation de chaque résolution en article Knowledge Base pour capitaliser et réduire le temps de résolution en cas de récidive.

Autocritique

Mon point fort est l'analyse multi-couche et la capacité à ne pas m'arrêter au symptôme visible. Ma marge de progression est sur la vitesse de triage initial : quand plusieurs incidents arrivent simultanément, la priorisation est plus difficile à calibrer, et j'ai tendance à creuser trop profond sur un problème avant de m'assurer que ce n'est pas la bonne issue à escalader vers un expert spécifique.

Avec le recul, ce que je conseillerais : documenter le diagnostic en temps réel, pas uniquement la solution. La prochaine personne qui rencontrera le même problème a besoin de comprendre le raisonnement, pas seulement le fix. Et un raisonnement bien documenté permet aussi d'identifier les erreurs de méthode a posteriori.

Point fort

Analyse multi-couche, capacité à ne pas s'arrêter au symptôme visible et à remonter jusqu'à la cause racine.

Point de vigilance

Sur des incidents simultanés, tendance à creuser trop profond sur un problème avant d'évaluer si c'est la bonne issue à escalader.

Mon Évolution

Je souhaite monter en compétences sur les outils d'observabilité réseau, Grafana, NetFlow, ou des solutions comme Datadog Network Monitoring, pour passer du troubleshooting réactif à une détection proactive des anomalies. L'enjeu : capter les dérives de baseline avant qu'elles ne deviennent des incidents.

L'AIOps est une direction que je surveille : des solutions capables de corréler automatiquement des événements issus de sources multiples (logs, métriques, alertes) pour identifier les causes probables avant même que l'utilisateur appelle. C'est la trajectoire naturelle du troubleshooting réseau dans les grandes infrastructures.

Observabilité réseau

Montée en compétence sur Grafana, NetFlow et Datadog Network Monitoring pour détecter les anomalies avant qu'elles ne deviennent des incidents.

AIOps

Veille active sur la détection proactive des dérives de baseline, passer du troubleshooting réactif à la prévention.

Réalisations Rattachées

Cette compétence s'est exprimée principalement au travers des projets suivants :

Support IT International

Diagnostic et résolution des latences LDAPS sur authentification Wi-Fi mondiale via analyse croisée LB + AD.

Innovation Hub

Validation progressive des configurations et résolution des incidents pendant le déploiement sur étage en production.