Tech

L’approche d’Intuit Engineering pour simplifier la gestion de Kubernetes avec l’IA

Intuit a récemment expliqué comment ils ont géré les complexités de la surveillance et du débogage des clusters Kubernetes à l’aide de l’IA générative (GenAI). Les expériences GenAI ont été menées pour rationaliser les processus de détection, de débogage et de correction.

Lili Waningénieur logiciel senior et Anusha Ragunathaningénieur logiciel principal chez Intuit a détaillé l’expérience et fourni un aperçu de la plateforme de services Kubernetes d’Intuit.

Avec plus de 325 clusters Kubernetes prenant en charge plus de 7 000 applications et services, Intuit a dû relever des défis pour maintenir la santé des clusters et minimiser la fatigue des alertes parmi les ingénieurs de garde.

L’intuition Plateforme de services Kubernetes est vaste et complexe, ce qui rend difficile son observation et son débogage efficace. La croissance rapide des applications et les changements fréquents dans les clusters ont ajouté des niveaux supplémentaires de complexité. Les ingénieurs étaient souvent fatigués des alertes en raison du volume considérable de sources de données et d’alertes, ce qui compliquait la détection et la résolution des problèmes.

L’équipe d’Intuit a identifié trois domaines clés à améliorer : la détection, le débogage et la correction.

Pour améliorer les capacités de détection, Intuit a mis en œuvre un système appelé « Cluster Golden Signals », qui reflète le concept de signaux d’or de service. Ce système fournit une vue consolidée de la santé d’un cluster en filtrant le bruit et en se concentrant sur les signaux critiques pour l’alerte.

Les composants principaux des clusters Kubernetes sont surveillés via des tableaux de bord qui regroupent les métriques en un seul indicateur de santé (sain, dégradé ou critique) à l’aide d’expressions Prometheus. Cette approche permet aux ingénieurs d’isoler rapidement les clusters problématiques et de déterminer si les problèmes sont liés au service ou à la plate-forme, réduisant ainsi le temps moyen de détection des problèmes (MTTD).

Pour un débogage plus approfondi, Intuit a intégré un outil open source appelé K8sGPT. Cet outil analyse les clusters Kubernetes pour diagnostiquer et trier les problèmes en exploitant les connaissances codifiées des ingénieurs en fiabilité des sites. K8sGPT utilise des analyseurs spécifiques aux ressources pour extraire les messages d’erreur pertinents des clusters, les enrichissant ainsi d’informations sur l’IA. En combinant les métriques Prometheus avec Golden Signals, K8sGPT peut inciter les modèles publics à rechercher des détails supplémentaires sur les erreurs.

Cette intégration fournit plus de contexte pour identifier les causes profondes potentielles des alertes.

Source: Expériences GenAI : surveillance et débogage de la santé du cluster Kubernetes

En guise de côté, K8sGPT figurait parmi les 10 projets les plus contribués par la CNCF. Le premier commit a eu lieu en mars 2023. Actuellement, le projet compte 5,6 000 étoiles et 88 contributeurs. Installé dans un cluster Kubernetes, K8sGPT prend en charge des modèles comme OpenAI, Azure, Cohere, Amazon Bedrock, Google Gemini et les modèles locaux. K8sGPT a été présenté aux côtés d’autres projets comme kube-burner, Kuasar, KRKN et easgress lors de la conférence KubeCon EU 2024.

Il fonctionne sur les machines Windows, Mac et Linux et peut être installé via Brew, RPM, DEB ou APK.

Une fois les problèmes débogués, la correction est l’étape suivante. K8sGPT s’intègre aux grands modèles linguistiques (LLM) publics d’entreprises comme OpenAI, Google et Microsoft pour suggérer des étapes de correction pour les erreurs spécifiques à Kubernetes. Cependant, les LLM publics manquent de contexte sur les configurations spécifiques de la plateforme Intuit.

Pour combler cette lacune, Intuit a développé un système d’exploitation propriétaire GenAI (GenOS), qui héberge des modèles locaux augmentés de données spécifiques à Intuit grâce à la génération augmentée par récupération (RAG).

Intuit prévoit de continuer à surveiller les progrès réalisés dans la réduction du MTTD et du temps moyen de résolution (MTTR). Ils visent également à explorer les applications potentielles de GenAI dans d’autres domaines tels que la gestion du trafic et le débogage des machines virtuelles Java.



Source link