Présentation de la surveillance dans Google Cloud
Dans ce module, nous allons vous présenter les différents produits inclus dans la suite de journalisation, de surveillance et d'observabilité de Google Cloud.
Éviter aux clients de subir des désagréments
Dans ce module, nous allons vous présenter plusieurs concepts de l'ingénierie en fiabilité des sites (SRE) et la façon dont nous pouvons les utiliser pour éviter aux clients de subir des désagréments. Dans ce contexte, un client correspond à tout consommateur d'un système cloud.
Règles d'alerte
Les alertes permettent de détecter et de résoudre rapidement les problèmes qui surviennent dans les applications cloud. Dans ce module, vous allez découvrir comment développer des stratégies d'alerte, définir des règles d'alerte, ajouter des canaux de notification, identifier les types d'alertes et leurs cas d'utilisation courants, créer des groupes de ressources et générer les alertes associées, et gérer des règles d'alerte de manière automatisée.
Surveiller les systèmes critiques
La surveillance consiste à effectuer le suivi des activités qui se produisent sur les ressources créées dans Google Cloud. Dans ce module, nous allons examiner les options et les bonnes pratiques à suivre pour les architectures de projets de surveillance. Nous allons différencier les principaux rôles Cloud IAM nécessaires pour déterminer qui peut faire quoi en termes de surveillance. Tout comme l'architecture, il s'agit d'une première étape fondamentale. Nous allons examiner certains des tableaux de bord par défaut créés par Google et apprendre à les utiliser de manière appropriée. Nous allons créer des graphiques et les utiliser pour créer des tableaux de bord personnalisés afin d'afficher la consommation des ressources et la charge d'une application. Enfin, nous allons définir des tests de disponibilité pour effectuer le suivi de l'activité et de la latence.
Configurer les services Google Cloud à des fins d'observabilité
Dans la prochaine partie de notre examen des métriques, nous allons voir comment configurer les services Google Cloud à des fins d'observabilité. Dans ce module, vous allez découvrir comment intégrer les agents Logging et Monitoring dans des VM et des images Compute Engine, activer et utiliser Kubernetes Monitoring, présenter et expliquer la surveillance Kubernetes avec Prometheus, et exposer des métriques personnalisées via du code et à l'aide d'OpenCensus.
Journalisation et analyse avancées
Dans ce module, nous allons examiner certaines des fonctionnalités avancées de journalisation et d'analyse de Google Cloud. Plus précisément, vous allez découvrir comment identifier les approches d'ajout de tags aux ressources et en sélectionner une, définir des récepteurs de journaux, créer des métriques de surveillance basées sur les entrées de journal, associer les erreurs de l'application à Logging et à d'autres outils de la suite des opérations avec Error Reporting, et exporter des journaux vers BigQuery pour le stockage à long terme et les analyses basées sur SQL.
Surveiller la sécurité du réseau et les journaux d'audit
Dans ce module, nous allons aborder deux sujets principaux : l'association de Monitoring au réseau VPC et l'utilisation de Cloud Audit Logs de Google. Vous allez découvrir comment collecter et analyser des journaux de flux VPC, de règles de pare-feu et Cloud NAT, activer la mise en miroir de paquets, expliquer les fonctionnalités de Network Intelligence Center et utiliser Cloud Audit Logs pour savoir qui a fait quoi et quand. Nous allons également vous présenter les bonnes pratiques concernant les journaux d'audit.
Gérer les incidents
À ce stade du cours, nous nous sommes principalement concentrés sur les moyens d'inspecter et de surveiller l'état des systèmes exécutés dans Google Cloud. Mais quelle que soit la solidité de vos stratégies de planification, de conception, de définition d'architecture et de maintenance préventive, les choses peuvent mal tourner. La façon dont vous gérez les incidents a un impact considérable sur la perception des utilisateurs. Dans ce module, vous allez apprendre à gérer les incidents à l'aide d'un processus méthodique.
Examiner les problèmes de performances des applications
Lorsque vous déployez des applications sur Google Cloud, les produits de gestion des performances des applications (Cloud Trace, Cloud Debugger et Cloud Profiler) fournissent une suite d'outils permettant d'obtenir des insights sur le fonctionnement du code ainsi que des services et pouvant aider à résoudre les éventuels problèmes.
Optimiser les coûts de surveillance
Dans notre dernier module, nous allons aborder l'optimisation des coûts de la suite Google Cloud Operations. Plus précisément, vous allez découvrir comment analyser les coûts d'utilisation des ressources pour les composants liés aux opérations de Google Cloud et apprendre à implémenter les bonnes pratiques pour contrôler le coût des opérations dans Google Cloud.