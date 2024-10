Le 29 octobre 2024, Microsoft a publié la bibliothèque Microsoft.Extensions.VectorData.Abstractions pour .NET en avant-première. Il facilite l’intégration de solutions .NET avec le SDK AI Semantic Kernel, en utilisant des abstractions sur des implémentations et des modèles d’IA concrets.

Microsoft Semantic Kernel est un SDK prêt pour l’entreprise qui permet aux développeurs de connecter différents modèles LLM et différents langages, avec des orchestrations automatiques pour ces plugins. Grâce à la collaboration entre les équipes Semantic Kernel et .NET de Microsoft, ils ont publié plusieurs bibliothèques d’assistance et d’abstraction. La première était la bibliothèque Microsoft.Extensions.AI permettant d’abstraire les services d’IA courants tels qu’un client de chat, par exemple.

Le deuxième paquet, le Bibliothèque Microsoft.Extensions.VectorData.Abstractionsse concentre sur l’abstraction des magasins de vecteurs utilisés pour les intégrations LLM. Un intégration est une représentation d’un enregistrement de données dans un espace vectoriel de grande dimension. Ils permettent au modèle LLM de convertir des données discrètes dans un format pouvant être traité ultérieurement par les réseaux neuronaux LLM. Les enregistrements sémantiquement similaires seront intégrés les uns aux autres dans l’espace vectoriel, permettant ainsi une recherche sémantique au lieu d’une simple correspondance de texte.

Les opérations que le Microsoft.Extensions.VectorData.Abstractions les supports de bibliothèque sont les opérations CRUD et de recherche. Les développeurs utilisent des objets .NET POCO annotés avec attributs vectoriels tel que VectorStoreRecordKey , VectorStoreRecordData et VectorStoreRecordVector comme illustré dans l’exemple suivant :

public class Movie { [VectorStoreRecordKey] public int Key {get;set;} [VectorStoreRecordData] public string Title {get;set;} [VectorStoreRecordData] public string Description {get;set;} [VectorStoreRecordVector(384, DistanceFunction.CosineSimilarity)] public ReadOnlyMemory Vector {get;set;} }

Notez que le Movie la classe spécifie une clé, deux propriétés de chaîne en tant que données et une propriété dérivée, Vector qui représente le vecteur d’enregistrement incorporé dans le LLM (avec 384 dimensions et utilisant fonction de distance de similarité cosinus).

Pour stocker et intégrer les enregistrements vidéo, la bibliothèque d’abstraction utilise IEmbeddingGenerator et IVectorStore interfaces. Le magasin est un magasin de vecteurs en mémoire fourni par Semantic Kernel. Quant à l’intégration, l’échantillon exploite Ollama package LLM prédéfini qui s’exécute sur la machine du développeur et utilise all-minilm petit modèle d’intégration, bien que d’autres modèles d’intégration plus grands puissent être utilisés. Cette configuration est réalisée avec la ligne de code suivante :

IEmbeddingGenerator > generator = new OllamaEmbeddingGenerator(new Uri("http://localhost:11434/"), "all-minilm");

Pour stocker les enregistrements dans le magasin vectoriel, le modèle POCO Vector la propriété est générée par le IEmbeddingGenerator.GenerateEmbeddingVectorAsync méthode. L’enregistrement est ensuite stocké dans l’espace vectoriel ( movies est une collection d’objets dans IVectorStore ).

movie.Vector = await generator.GenerateEmbeddingVectorAsync(movie.Description); await movies.UpsertAsync(movie);

Désormais, ces enregistrements intégrés peuvent être interrogés. La requête est un texte d’invite LLM, intégré sous forme de vecteur utilisant la même interface que précédemment :

var query = "A family friendly movie"; var queryEmbedding = await generator.GenerateEmbeddingVectorAsync(query);

L’interface du magasin de données vectorielles possède un VectorizedSearchAsync méthode qui récupère les éléments les plus proches du texte d’invite fourni pour la recherche.

var searchOptions = new VectorSearchOptions() { Top = 1, VectorPropertyName = "Vector" }; var results = await movies.VectorizedSearchAsync(queryEmbedding, searchOptions);

L’exemple de code complet est fourni sur le Article de blog Microsoftalors qu’il existe d’autres exemples de code à la Site d’apprentissage du noyau sémantique.

Une application directe de la bibliothèque d’abstraction du magasin de vecteurs consiste à étendre un LLM avec un magasin de données personnalisé, en utilisant génération augmentée par récupération (RAG) qui permet d’utiliser des LLM pour interroger une base de connaissances spécifique, le tout sans avoir besoin de recycler le modèle. Il y a un échantillon complet du magasin vectoriel RAG fourni par Microsoft.

La bibliothèque est publiée en avant-première et devrait le rester jusqu’à la sortie de .NET 9. Les développeurs peuvent fournir des commentaires via le Liste des problèmes du référentiel GitHub.

Pour l’avenir, Microsoft déclare que le plan est de :