Cet article présente un modèle flexible basé sur Transformer pour détecter des anomalies dans les journaux système. En intégrant des modèles de journaux avec un modèle BERT pré-entraîné et en incorporant un encodage positionnel et temporel, il capture à la fois le contexte sémantique et séquentiel dans les séquences de journaux. L'approche prend en charge des longueurs de séquence variables et des fonctionnalités d'entrée configurables, permettant une expérimentation extensive sur différents ensembles de données. Le modèle effectue une classification binaire supervisée pour distinguer les modèles normaux des modèles anormaux, en utilisant un jeton similaire à [CLS] pour la représentation au niveau de la séquence. Dans l'ensemble, il repousse les limites de la détection d'anomalies basée sur les journaux en intégrant des techniques modernes de NLP et d'apprentissage profond dans la surveillance des systèmes.Cet article présente un modèle flexible basé sur Transformer pour détecter des anomalies dans les journaux système. En intégrant des modèles de journaux avec un modèle BERT pré-entraîné et en incorporant un encodage positionnel et temporel, il capture à la fois le contexte sémantique et séquentiel dans les séquences de journaux. L'approche prend en charge des longueurs de séquence variables et des fonctionnalités d'entrée configurables, permettant une expérimentation extensive sur différents ensembles de données. Le modèle effectue une classification binaire supervisée pour distinguer les modèles normaux des modèles anormaux, en utilisant un jeton similaire à [CLS] pour la représentation au niveau de la séquence. Dans l'ensemble, il repousse les limites de la détection d'anomalies basée sur les journaux en intégrant des techniques modernes de NLP et d'apprentissage profond dans la surveillance des systèmes.

Détection d'anomalies basée sur les transformers utilisant des embeddings de séquences de logs

Abstrait

1 Introduction

2 Contexte et travaux connexes

2.1 Différentes formulations de la tâche de détection d'anomalies basée sur les logs

2.2 Supervisé contre non supervisé

2.3 Informations dans les données de logs

2.4 Regroupement à fenêtre fixe

2.5 Travaux connexes

3 Une approche configurable de détection d'anomalies basée sur les transformers

3.1 Formulation du problème

3.2 Analyse et intégration des logs

3.3 Encodage positionnel et temporel

3.4 Structure du modèle

3.5 Classification binaire supervisée

4 Configuration expérimentale

4.1 Ensembles de données

4.2 Métriques d'évaluation

4.3 Génération de séquences de logs de longueurs variables

4.4 Détails d'implémentation et environnement expérimental

5 Résultats expérimentaux

5.1 RQ1: Comment notre modèle de détection d'anomalies proposé se comporte-t-il par rapport aux références?

5.2 RQ2: Dans quelle mesure les informations séquentielles et temporelles au sein des séquences de logs affectent-elles la détection d'anomalies?

5.3 RQ3: Dans quelle mesure les différents types d'informations contribuent-ils individuellement à la détection d'anomalies?

6 Discussion

7 Menaces à la validité

8 Conclusions et références

\

3 Une approche configurable de détection d'anomalies basée sur les transformers

Dans cette étude, nous présentons une nouvelle méthode basée sur les transformers pour la détection d'anomalies. Le modèle prend des séquences de logs comme entrées pour détecter les anomalies. Le modèle utilise un modèle BERT préentraîné pour intégrer les modèles de logs, permettant la représentation d'informations sémantiques dans les messages de logs. Ces intégrations, combinées à un encodage positionnel ou temporel, sont ensuite introduites dans le modèle transformer. Les informations combinées sont utilisées dans la génération ultérieure de représentations au niveau des séquences de logs, facilitant le processus de détection d'anomalies. Nous concevons notre modèle pour qu'il soit flexible: les caractéristiques d'entrée sont configurables afin que nous puissions utiliser ou mener des expériences avec différentes combinaisons de caractéristiques des données de logs. De plus, le modèle est conçu et formé pour gérer des séquences de logs d'entrée de longueurs variables. Dans cette section, nous présentons notre formulation du problème et la conception détaillée de notre méthode.

\ 3.1 Formulation du problème

Nous suivons les travaux précédents [1] pour formuler la tâche comme une tâche de classification binaire, dans laquelle nous entraînons notre modèle proposé à classer les séquences de logs en anomalies et normales de manière supervisée. Pour les échantillons utilisés dans l'entraînement et l'évaluation du modèle, nous utilisons une approche de regroupement flexible pour générer des séquences de logs de longueurs variables. Les détails sont présentés dans la Section 4

\ 3.2 Analyse et intégration des logs

Dans notre travail, nous transformons les événements de logs en vecteurs numériques en encodant les modèles de logs avec un modèle de langage préentraîné. Pour obtenir les modèles de logs, nous adoptons l'analyseur Drain [24], qui est largement utilisé et offre de bonnes performances d'analyse sur la plupart des ensembles de données publics [4]. Nous utilisons un modèle sentence-bert préentraîné [25] (c'est-à-dire, all-MiniLML6-v2 [26]) pour intégrer les modèles de logs générés par le processus d'analyse des logs. Le modèle préentraîné est formé avec un objectif d'apprentissage contrastif et atteint des performances de pointe sur diverses tâches de NLP. Nous utilisons ce modèle préentraîné pour créer une représentation qui capture les informations sémantiques des messages de logs et illustre la similarité entre les modèles de logs pour le modèle de détection d'anomalies en aval. La dimension de sortie du modèle est de 384.

\ 3.3 Encodage positionnel et temporel

Le modèle transformer original [27] adopte un encodage positionnel pour permettre au modèle d'utiliser l'ordre de la séquence d'entrée. Comme le modèle ne contient ni récurrence ni convolution, les modèles seront agnostiques à la séquence de logs sans l'encodage positionnel. Bien que certaines études suggèrent que les modèles transformer sans encodage positionnel explicite restent compétitifs avec les modèles standard lors du traitement de données séquentielles [28, 29], il est important de noter que toute permutation de la séquence d'entrée produira le même état interne du modèle. Comme les informations séquentielles ou temporelles peuvent être des indicateurs importants d'anomalies dans les séquences de logs, les travaux précédents basés sur les modèles transformer utilisent l'encodage positionnel standard pour injecter l'ordre des événements de logs ou des modèles dans la séquence [11, 12, 21], visant à détecter les anomalies associées à un ordre d'exécution incorrect. Cependant, nous avons remarqué que dans une implémentation de réplication couramment utilisée d'une méthode basée sur transformer [5], l'encodage positionnel était, en fait, omis. À notre connaissance, aucun travail existant n'a encodé les informations temporelles basées sur les horodatages des logs pour leur méthode de détection d'anomalies. L'efficacité de l'utilisation d'informations séquentielles ou temporelles dans la tâche de détection d'anomalies n'est pas claire.

\ Dans notre méthode proposée, nous tentons d'incorporer l'encodage séquentiel et temporel dans le modèle transformer et d'explorer l'importance des informations séquentielles et temporelles pour la détection d'anomalies. Plus précisément, notre méthode proposée a différentes variantes utilisant les techniques d'encodage séquentiel ou temporel suivantes. L'encodage est ensuite ajouté à la représentation du log, qui sert d'entrée à la structure du transformer.

\

3.3.1 Encodage du temps écoulé relatif (RTEE)

Nous proposons cette méthode d'encodage temporel, RTEE, qui substitue simplement l'indice de position dans l'encodage positionnel par le timing de chaque événement de log. Nous calculons d'abord le temps écoulé selon les horodatages des événements de logs dans la séquence de logs. Au lieu d'utiliser l'indice de séquence d'événements de logs comme position pour les équations sinusoïdales et cosinusoïdales, nous utilisons le temps écoulé relatif au premier événement de log dans la séquence de logs pour substituer l'indice de position. Le Tableau 1 montre un exemple d'intervalles de temps dans une séquence de logs. Dans l'exemple, nous avons une séquence de logs contenant 7 événements avec une durée de 7 secondes. Le temps écoulé depuis le premier événement jusqu'à chaque événement de la séquence est utilisé pour calculer l'encodage temporel pour les événements correspondants. Similaire à l'encodage positionnel, l'encodage est calculé avec les équations 1 mentionnées ci-dessus, et l'encodage ne sera pas mis à jour pendant le processus d'entraînement.

\

3.4 Structure du modèle

Le transformer est une architecture de réseau neuronal qui s'appuie sur le mécanisme d'auto-attention pour capturer la relation entre les éléments d'entrée dans une séquence. Les modèles et frameworks basés sur les transformers ont été utilisés dans la tâche de détection d'anomalies par de nombreux travaux précédents [6, 11, 12, 21]. Inspirés par les travaux précédents, nous utilisons un modèle basé sur l'encodeur transformer pour la détection d'anomalies. Nous concevons notre approche pour accepter des séquences de logs de longueurs variables et générer des représentations au niveau de la séquence. Pour y parvenir, nous avons employé certains tokens spécifiques dans la séquence de logs d'entrée pour que le modèle génère une représentation de séquence et identifie les tokens rembourrés et la fin de la séquence de logs, s'inspirant de la conception du modèle BERT [31]. Dans la séquence de logs d'entrée, nous avons utilisé les tokens suivants: est placé au début de chaque séquence pour permettre au modèle de générer des informations agrégées pour toute la séquence, est ajouté à la fin de la séquence pour signifier son achèvement, est utilisé pour marquer les tokens masqués sous le paradigme d'entraînement auto-supervisé, et est utilisé pour les tokens rembourrés. Les intégrations pour ces tokens spéciaux sont générées aléatoirement en fonction de la dimension de la représentation de log utilisée. Un exemple est montré dans la Figure 1, le temps écoulé pour , et est fixé à -1. La représentation au niveau de l'événement de log et l'intégration positionnelle ou temporelle sont additionnées comme caractéristique d'entrée de la structure du transformer.

\ 3.5 Classification binaire supervisée Sous cet objectif d'entraînement, nous utilisons la sortie du premier token du modèle transformer tout en ignorant les sorties des autres tokens. Cette sortie du premier token est conçue pour agréger les informations de toute la séquence de logs d'entrée, similaire au token du modèle BERT, qui fournit une représentation agrégée de la séquence de tokens. Par conséquent, nous considérons la sortie de ce token comme une représentation au niveau de la séquence. Nous entraînons le modèle avec un objectif de classification binaire (c'est-à-dire, la perte d'entropie croisée binaire) avec cette représentation.

\

:::info Auteurs:

  1. Xingfang Wu
  2. Heng Li
  3. Foutse Khomh

:::

:::info Cet article est disponible sur arxiv sous la licence CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Opportunité de marché
Logo de Bert
Cours Bert(BERT)
$0,022748
$0,022748$0,022748
+%0,06
USD
Graphique du prix de Bert (BERT) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

Alerte de hausse : L'intérêt ouvert et les taux de financement du Bitcoin signalent un rallye haussier de fin d'année

Alerte de hausse : L'intérêt ouvert et les taux de financement du Bitcoin signalent un rallye haussier de fin d'année

BitcoinWorld Alerte Hausse : Les Positions Ouvertes et les Taux de Financement du Bitcoin Signalent un Rallye Haussier de Fin d'Année La récente envolée du Bitcoin au-delà de 90 000 $ a suscité un nouvel optimisme
Partager
bitcoinworld2025/12/22 21:40
Dans Quelle Cryptomonnaie Devriez-vous Envisager d'Investir pour des Gains à Court Terme ?

Dans Quelle Cryptomonnaie Devriez-vous Envisager d'Investir pour des Gains à Court Terme ?

L'article Quelle crypto devriez-vous envisager d'investir pour des gains à court terme ? est apparu en premier sur Coinpedia Fintech News L'investissement crypto à court terme attirera toujours
Partager
CoinPedia2025/12/22 21:34
La croissance des emprunts bancaires en Inde a augmenté à 10,3% le 1er septembre, contre 10% précédemment

La croissance des emprunts bancaires en Inde a augmenté à 10,3% le 1er septembre, contre 10% précédemment

L'article "La croissance des prêts bancaires en Inde a augmenté à 10,3% en septembre 1 par rapport aux 10% précédents" est apparu sur BitcoinEthereumNews.com. Les informations sur ces pages contiennent des déclarations prospectives qui impliquent des risques et des incertitudes. Les Marchés et instruments présentés sur cette page sont uniquement à titre informatif et ne doivent en aucun cas être interprétés comme une recommandation d'achat ou de vente de ces actifs. Vous devez effectuer vos propres recherches approfondies avant de prendre des décisions d'investissement. FXStreet ne garantit en aucune façon que ces informations sont exemptes d'erreurs, d'inexactitudes ou de déclarations erronées. Il ne garantit pas non plus que ces informations sont d'actualité. Investir sur les Marchés ouverts comporte un grand Risque, y compris la perte totale ou partielle de votre investissement, ainsi qu'une détresse émotionnelle. Tous les risques, pertes et coûts associés à l'investissement, y compris la perte totale du principal, sont sous votre responsabilité. Les points de vue et opinions exprimés dans cet article sont ceux des auteurs et ne reflètent pas nécessairement la politique officielle ou la position de FXStreet ou de ses annonceurs. L'auteur ne sera pas tenu responsable des informations trouvées à la fin des liens publiés sur cette page. Sauf mention explicite contraire dans le corps de l'article, au moment de la rédaction, l'auteur n'a aucune position sur les actions mentionnées dans cet article et n'entretient aucune relation commerciale avec les entreprises mentionnées. L'auteur n'a pas reçu de Compensation pour la rédaction de cet article, autre que de FXStreet. FXStreet et l'auteur ne fournissent pas de recommandations personnalisées. L'auteur ne fait aucune déclaration quant à l'exactitude, l'exhaustivité ou la pertinence de ces informations. FXStreet et l'auteur ne seront pas responsables des erreurs, omissions ou pertes, blessures ou dommages résultant de cette information et de son utilisation. Erreurs et omissions exceptées. L'auteur et FXStreet ne sont pas des conseillers en investissement enregistrés et rien dans cet article n'est destiné...
Partager
BitcoinEthereumNews2025/09/20 00:10