banner

Nouvelles

Aug 11, 2023

Identification précise et rapide des phénotypes de bactéries peu préparées à l'aide de la spectroscopie Raman assistée par l'apprentissage automatique

Rapports scientifiques volume 12, Numéro d'article : 16436 (2022) Citer cet article

Accès 1997

4 Citations

4 Altmétrique

Détails des métriques

L'augmentation mondiale de la résistance aux antimicrobiens (RAM) est une grave menace pour la santé humaine. Pour éviter la propagation de la RAM, des outils de diagnostic rapides et fiables qui facilitent une gestion optimale des antibiotiques sont un besoin non satisfait. À cet égard, la spectroscopie Raman promet une identification rapide sans étiquette et sans culture et un test de sensibilité aux antimicrobiens (AST) en une seule étape. Cependant, même si de nombreuses études d'identification de bactéries et d'AST basées sur Raman ont démontré des résultats impressionnants, certaines lacunes doivent être corrigées. Pour combler le fossé entre les études de preuve de concept et l'application clinique, nous avons développé des techniques d'apprentissage automatique en combinaison avec un nouvel algorithme d'augmentation des données, pour une identification rapide des phénotypes de bactéries peu préparées et les distinctions entre les bactéries résistantes à la méthicilline (MR) et bactéries sensibles à la méthicilline (MS). Pour cela, nous avons mis en place un modèle de transformateur spectral pour les images Raman hyper-spectrales de bactéries. Nous montrons que notre modèle surpasse les modèles standards de réseaux de neurones convolutifs sur une multitude de problèmes de classification, à la fois en termes de précision et en termes de temps d'apprentissage. Nous atteignons une précision de classification de plus de 96 % sur un ensemble de données composé de 15 classes différentes et une précision de classification de 95,6 % pour six espèces de bactéries MR-MS. Plus important encore, nos résultats sont obtenus en utilisant uniquement des données de formation et de test rapides et faciles à produire.

Vue d'ensemble du matériel (microscope Raman) et du logiciel (architecture à transformateur spectral). (a) La simple préparation d'échantillons de bactéries, où les bactéries des plaques de gélose sont simplement transférées directement sur les lames d'objectif CaF\(_2\) puis mesurées. Le processus de transfert et de recherche des bactéries prend moins d'une minute. (b) Schéma du microscope Raman fait maison. Le microscope Raman utilise une longueur d'onde d'excitation de 785 nm, car il s'est avéré optimal pour l'identification des bactéries, car il évite largement la fluorescence et donne toujours un signal Raman suffisamment élevé pour permettre la détection par un CCD à un rapport signal-à- rapport de bruit (SNR). Un objectif de microscope (MO) 100× est utilisé pour focaliser le laser d'excitation (taille du spot \(\sim \) 1 \(\upmu \)m), la collecte de la lumière diffusée Raman et l'imagerie visuelle. Le balayage raster est réalisé avec une étape XYZ automatisée. Un miroir dichroïque (DM) (passe-haut 750 nm) est utilisé pour coupler la lumière d'éclairage visible à un CCD pour l'imagerie et la localisation des bactéries, tandis qu'un autre DM (passe-haut 805 nm) sépare la lumière diffusée Raman de la pompe. Un filtre passe-haut supplémentaire (HPF, 800 nm) et un filtre passe-bande (BPF, 785 nm ± 10 nm) sont utilisés pour le filtrage de la pompe à 785 nm. Le microscope intégré a un champ de vision d'environ 60 \(\upmu \)m \(\times \) 60 \(\upmu \)m, et les spectres Raman sont collectés à un décalage de nombre d'onde de 700-1600 cm\(^{-1}\) par un spectromètre Horiba. (c) Le schéma fonctionnel de l'outil d'apprentissage automatique développé. Le transformateur spectral (ST) se compose d'une couche d'intégration positionnelle facultative, suivie d'une couche de suppression. La couche suivante est un bloc transformateur-encodeur qui contient séquentiellement une normalisation de couche, une attention multitête, une normalisation de couche, puis un perceptron multicouche (MLP) avec une non-linéarité GELU. La sortie du transformateur-codeur est suivie d'une normalisation de couche et d'une couche de regroupement de séquences. Enfin, la couche de sortie est une couche linéaire entièrement connectée.

Alors que certaines crises sanitaires, telles que la pandémie de corona, sont imprévisibles et nécessitent des mesures immédiates, d'autres se développent lentement, sont de nature insoluble, mais peuvent, avec le temps, devenir une menace plus importante pour la santé humaine1,2. Un exemple de ce dernier est la résistance aux antimicrobiens (RAM)3,4,5,6. La RAM se produit lorsque des microbes, tels que des bactéries et des champignons, survivent à l'exposition à des composés qui inhiberaient normalement leur croissance ou les tueraient. Cela entraîne un processus de sélection, permettant aux variétés résistantes de se développer et de se propager. Bien que la résistance aux antimicrobiens soit un processus naturel, elle est considérablement accélérée par des pressions sélectives telles que la surutilisation d'antimicrobiens7,8,9,10,11. Les techniques conventionnelles utilisées pour identifier la RAM dans les bactéries sont le test de diffusion sur disque, le test epsilomètre et la microdilution, qui nécessitent une culture et peuvent prendre des jours12,13. Le long temps de traitement de ces techniques peut mettre la vie du patient infecté en danger, mais est également problématique, car les bactéries pathogènes peuvent se propager et infecter davantage de personnes. Par conséquent, il est courant de prescrire des antibiotiques à large spectre aux patients, ce qui conduit à un traitement inutile14. Ainsi, l'insuffisance déjà répandue et croissante de la thérapie antimicrobienne est attribuée à la surutilisation des antimicrobiens dans les soins de santé et l'agriculture5,8,15. En 2019, l'Organisation mondiale de la santé (OMS) a déclaré la résistance aux antimicrobiens comme "l'une des 10 plus grandes menaces mondiales pour la santé publique auxquelles l'humanité est confrontée" et, selon un rapport publié par le Groupe de coordination interinstitutions ad hoc des Nations Unies sur la résistance aux antimicrobiens (IACG), si aucune action est prise, les agents pathogènes résistants aux antimicrobiens pourraient chaque année causer 10 millions de décès d'ici 20502.

Pour atténuer le désastre potentiel d'une ère post-antibiotique, des organisations telles que l'OMS et l'IACG appellent au développement d'un diagnostic rapide au point de service qui facilitera le traitement avec des antimicrobiens ciblés1,5. Pour y parvenir, de nombreuses technologies différentes ont été étudiées12,16,17,18,19. Une technologie très prometteuse est la spectroscopie Raman (RS). La RS est une technique basée sur la diffusion inélastique qui se produit lorsque les photons entrent en collision avec des molécules et permet une décomposition unique du signal pour une large gamme de molécules20. Surtout, RS a l'avantage d'être rapide, peu coûteux, sans étiquette et ne nécessite pas nécessairement de culture pré-analytique. Plusieurs études ont montré que les capacités de RS peuvent être considérablement renforcées lorsqu'elles sont assistées par des outils de chimiométrie et d'apprentissage automatique (ML)19,21,22,23,24,25,26,27,28,29,30,31. Pourtant, certaines lacunes doivent être corrigées avant qu'il ne devienne une plate-forme viable pour l'identification fiable des bactéries et les applications de diagnostic au point de service. Avant tout, RS est sensible à des facteurs tels que le stade de croissance des cellules analysées, les changements dans l'environnement de mesure et l'incohérence dans la préparation des échantillons23. Par conséquent, il convient de préparer les échantillons de manière à réduire la difficulté de classification. Des approches telles que la préparation de bactéries uniques ou de tapis monocouches de bactéries sont malheureusement complexes et nécessitent une expertise, un équipement personnalisé et peuvent prendre des heures25,32,33. De plus, les incohérences dans la préparation des échantillons peuvent entraîner des modifications des spectres Raman, nécessitant davantage de données pour les modèles ML afin de capturer l'étendue des variations nécessaires pour atteindre des précisions cliniquement pertinentes19. De plus, les études sur les bactéries RS portant sur des échantillons de patients sont rares et on ne peut pas supposer que l'utilisation de données provenant d'échantillons cultivés en laboratoire permettra une identification précise d'échantillons de patients authentiques. De plus, il y a peu ou pas d'approbation des normes pour les paramètres de mesure Raman et les méthodes et paramètres de préparation des échantillons22,23. Ce manque empêche prodigieusement la consolidation des bases de données, ralentissant l'agrégation des mégadonnées qui pourraient être utilisées pour des applications cliniques. Pour atteindre des précisions cliniquement pertinentes à l'aide de RS, ces problèmes doivent être résolus et les résoudre tous nécessiteront un effort collectif.

Dans ce travail, nous nous concentrons sur la résolution des problèmes de préparation simple des échantillons et des changements dans l'environnement de mesure34. Nous réduisons la préparation de l'échantillon au simple transfert des bactéries dans l'environnement de mesure (comme illustré à la Fig. 1a), ce qui minimise le problème d'incohérence de l'échantillon. Cette procédure présente l'avantage supplémentaire de supprimer la préparation des échantillons en tant que paramètre inhibiteur pour la consolidation des données. De plus, pour atténuer la situation de disponibilité limitée des données pour la formation du modèle ML, nous avons développé un nouveau modèle ML de transformateur spectral (ST) qui est efficace après la formation sur des ensembles de données de bactéries RS petites et grandes. Pour alimenter le ST avec de bonnes données d'entraînement représentatives, nous avons développé un nouvel algorithme d'augmentation de données, désormais connu sous le nom de NoiseMix. Nous démontrons que notre modèle ST en conjonction avec NoiseMix permet une classification précise des bactéries simples et des tapis multicouches de bactéries en une seule fois, tout en ne s'appuyant que sur des données de formation rapides et faciles à produire acquises sur des tapis multicouches épais de bactéries. . À notre connaissance, il s'agit d'une approche complètement nouvelle pour l'acquisition de données d'entraînement et par la suite la classification des bactéries à l'aide de RS assisté par ML. Explicitement, nous démontrons les capacités de notre modèle ST ML développé et de NoiseMix sur un ensemble de données composé de 12 classes de bactéries provenant d'échantillons de bactéries peu préparés et de 3 classes de non-bactéries. Nous constatons que NoiseMix améliore la précision moyenne de la classification de 12,9 % pour les quatre tests différents par rapport à l'utilisation de l'équilibrage des classes et de la suppression de la pente. En outre, nous démontrons que le modèle ST peut faire la distinction entre les phénotypes résistants aux antibiotiques et sensibles, c'est-à-dire MR S. epidermidis (MRSE), MS S. epidermidis (MSSE), 2 types de MR S. aureus (MRSA) et deux types de MS S. aureus (MSSA). Nous obtenons des précisions d'identification de 97,7\(\%\) et 94,6\(\%\) entre les isolats MRSE-MSSE et MRSA-MSSA, respectivement. En plus d'identifier des échantillons peu préparés, nous effectuons des tests de référence détaillés du ST en le comparant à un réseau de neurones convolutionnels (CNN) développé dans les travaux de Ho. et coll. sur plusieurs ensembles de données de bactéries RS25. Nous constatons que notre modèle ST surpasse significativement le modèle CNN en termes de temps de calcul, qui est amélioré d'un ordre de grandeur, et qu'il surpasse généralement le modèle CNN en termes de précision de classification, pour lequel nous obtenons une amélioration de 7,5 \( \%\) par rapport au modèle CNN de référence25.

Un microscope Raman maison est utilisé pour acquérir des ensembles de données de formation et de validation d'échantillons de bactéries peu préparés. Les schémas de notre microscope Raman pour l'acquisition de cartes hyper-spectrales Raman sont illustrés à la Fig. 1b. La raison de l'utilisation d'un système maison est qu'il nous donne la possibilité d'optimiser le rapport signal/bruit (SNR) des microscopes Raman et d'adapter le système à la tâche de détection des bactéries. Ainsi, nous pouvons acquérir des spectres Raman en utilisant des temps de mesure très courts jusqu'à 0,1 seconde et également disposer d'un système relativement bon marché par rapport aux microscopes Raman commerciaux. Pour plus de détails sur le microscope et le spectromètre, voir la section Méthodes.

La classification réussie des bactéries à l'aide de RS et ML repose fortement sur la présence d'une grande base de données de formation à utiliser dans les étapes de formation et de validation du modèle. La collecte de données devient donc souvent aussi importante que les algorithmes ML eux-mêmes, car des données surreprésentées ou sous-représentées conduiront à des prédictions biaisées. Si la RS doit être envisagée pour des applications de diagnostic in situ rapides, la complexité et le coût en temps de la préparation des échantillons doivent être considérablement réduits34,35,36. Pour explorer à quel point nous pouvons simplifier et réduire le temps et la complexité de la préparation des échantillons, nous avons expérimenté le simple transfert d'échantillons de bactéries d'une monoculture bactérienne directement vers une diapositive d'objectif CaF \ (_2 \) suivie de mesures Raman raster-scan. Cette approche fait varier naturellement la profondeur des échantillons bactériens des tapis monocouches aux tapis multicouches, provoquant de grandes variations du SNR32 intra-échantillon. Les cartes de données d'entraînement produites de cette manière nécessitent une segmentation manuelle, car les cartes peuvent contenir des zones sans bactéries (arrière-plan). Pour éviter le besoin d'une segmentation manuelle, nous produisons plutôt des données de formation exclusivement à partir de mesures de tapis bactériens multicouches. Cependant, les données provenant de mesures de tapis bactériens multicouches ont une distribution SNR limitée par rapport aux données acquises à partir de mono- à multicouches bactériennes. Dans le but de recréer synthétiquement les variances naturelles pouvant apparaître dans les données de test, nous produisons des données d'apprentissage en faisant varier le temps d'intégration du spectroscope de 0,1 à 1 seconde (10 moyennes pour chaque acquisition). Avec ce processus et une configuration de spectroscopie Raman automatisée (voir Méthodes), nous acquérons plusieurs milliers de spectres d'entraînement par jour. Notre base de données de bactéries de référence finale contient plus de 5200 spectres Raman bruts pour chacune des 12 espèces bactériennes et 3 espèces non bactériennes. Toutes les données brutes sont prétraitées linéairement par une procédure simple (voir Méthodes) avant d'être utilisées pour l'augmentation des données, la formation du modèle ou la prédiction du modèle.

Inspirés de la vision par ordinateur dans laquelle les données d'entraînement "supplémentaires" sont souvent augmentées, par exemple en faisant pivoter, retourner, flouter ou ajouter du bruit blanc aux images, nous avons développé un algorithme d'augmentation de données (NoiseMix) qui nous permet de créer synthétiquement des données d'entraînement supplémentaires et améliorent ainsi la généralisation et les performances du modèle. L'algorithme d'augmentation NoiseMix (voir Matériel supplémentaire pour plus de détails techniques), fonctionne en prenant des spectres Raman rapides et faciles à produire à partir de tapis bactériens multicouches, puis en mélangeant des données avec encore plus de "bruit" à la fois de la surface/de l'environnement de mesure et des données de bruit à partir de mesures dans l'environnement. En plus d'augmenter la quantité d'exemples de données d'apprentissage, NoiseMix, tel qu'implémenté ici, apporte deux autres avantages. Premièrement, il permet une extension synthétique du jeu de données RS vers la région des distributions SNR inférieures. En ce sens, des données d'apprentissage avec un SNR arbitrairement faible peuvent en principe être réalisées, bien que le SNR soit en pratique maintenu au-dessus d'une certaine valeur minimale pour éviter l'inclusion d'exemples d'apprentissage constitués de bruit pur. Remarquablement, nous constatons que l'algorithme d'augmentation NoiseMix permet une identification de haute précision de bactéries uniques, bien que les exemples de formation originaux soient exclusivement recueillis à partir de tapis bactériens multicouches. Deuxièmement, l'algorithme NoiseMix fournit un moyen d'exploiter toutes les données d'ensembles de données déséquilibrés en s'assurant que toutes les classes sont représentées par la même quantité de données à chaque époque d'apprentissage.

Aperçu des performances de l'identification des bactéries avec le modèle ST et l'algorithme NoiseMix. ( a ) Montre la matrice de confusion obtenue pour la tâche de classification comprenant 12 classes bactériennes et 3 classes non bactériennes (agar, polysterene et CaF \ (_2 \)). La colonne de classification CaF\(_2\) (à droite) contient des éléments non nuls car les surfaces des échantillons n'étaient dans certains cas que partiellement recouvertes de bactéries. Pour cette raison, les classes non bactériennes sont grisées car elles ne sont pas incluses dans la précision de l'identification bactérienne. (b) Affiche une comparaison des performances entre quatre modèles ML différents entraînés avec et sans l'application de NoiseMix. Les résultats affichés dans la matrice de confusion sont obtenus à l'aide du modèle ST-pe(1,10,3)* formé à l'aide d'une taille de lot de 300 et de l'optimiseur AdamW. Les trois autres modèles sont également entraînés à l'aide de l'optizimer AdamW, mais avec une taille de lot plus petite de 100. Les précisions (et densités) du modèle représentent des moyennes sur 10 fractionnements d'entraînement. En (c), nous montrons les résultats d'un test de référence entre les modèles CNN et ST lorsqu'il est appliqué à trois tâches de classification différentes. Les trois ensembles de données sont décrits dans le matériel supplémentaire. Dans ce cas, les précisions rapportées représentent la moyenne de 10 exécutions en utilisant une répartition formation/validation de 90\(\%\)/10\(\%\).

L'identification des bactéries à l'aide de RS a connu ces dernières années un gain de performances significatif, car les techniques d'apprentissage en profondeur telles que les connexions résiduelles et les CNN se sont révélées plus performantes que les méthodes d'apprentissage supervisé plus classiques telles que la régression logistique et les machines à vecteurs de support25,37,38. Pour améliorer encore plus cela, nous avons développé un modèle d'apprentissage en profondeur basé sur l'attention inspiré de l'état de l'art actuel en matière de vision par ordinateur et de programmation en langage naturel. Le modèle ST (esquissé sur la Fig. 1c et expliqué plus en détail dans Méthodes) est une version compacte de l'encodeur de transformateur standard39, mais diffère en utilisant le regroupement de séquences pour mapper les sorties séquentielles du transformateur à une classe singulière.

Notre architecture de modèle ST est initialement paramétrée par trois arguments ST(-pe)(i, j, k), où i est la profondeur du transformateur-codeur, j est le nombre de têtes dans la couche d'attention multi-têtes, k est la rapport de perceptron multicouche, et l'inclusion de -pe signifie une intégration positionnelle facultative. Les trois arguments ont été traités comme des hyperparamètres supplémentaires de notre modèle et ont été sélectionnés à l'aide d'un estimateur de Parzen arborescent, en utilisant une formation et une validation sur la tâche de classification des isolats25, c'est-à-dire que nous n'avons pas utilisé nos propres données RS pour adapter notre architecture de modèle à la tâche à accomplir.

Nos principaux résultats sont résumés dans la Fig. 2, avec un affichage de la matrice de confusion de la tâche de classification en 15 classes (12 bactéries et 3 non-bactéries). Une précision globale supérieure à 96\(\%\) est obtenue sur les 12 classes de bactéries à l'aide d'un modèle ST-pe(1,10,3) formé à l'aide de l'optimiseur AdamW et en appliquant NoiseMix. La figure 2b décompose une comparaison de la précision entre plusieurs modèles ML différents, avec et sans application de NoiseMix, sur la même tâche de classification à 15 classes. Nous observons que l'augmentation des données d'entraînement avec NoiseMix améliore considérablement les performances du modèle dans la phase de test pour les trois modèles ST et le modèle CNN de référence, et nous constatons que les deux architectures de modèles ST surpassent le modèle CNN de référence sur notre ensemble de données de 15 classes.

En plus de la précision du modèle (donnée sous forme de rapport entre les classifications correctes des bactéries et le nombre total de classifications bactériennes), nous rapportons également une métrique de densité sur la figure 2b. La densité (ou couverture bactérienne) est définie comme le rapport des classifications bactériennes au nombre total de classifications effectuées dans chaque test. Cette métrique est incluse dans notre cas car une partie de nos données de test pour certaines bactéries consiste en des données de fond (voir par exemple la Fig. 3 ci-dessous), et donc toutes les mesures ne doivent pas être affiliées à un type de bactérie. Notamment, la métrique de densité est considérablement augmentée en appliquant NoiseMix, ce qui est attribué à la capacité des algorithmes à améliorer la classification des signaux à faible SNR.

La figure 2c compare les performances de classification du modèle sur trois ensembles de données de bactéries différents (pour un aperçu des ensembles de données et du processus de formation appliqué, voir Matériel supplémentaire). Les jeux de données "Bacteria ID 1" et "Bacteria ID 2" proviennent des travaux de Ho et. al.25. Pour ces ensembles de données, nous n'observons qu'une amélioration marginale, en moyenne, en utilisant l'un ou l'autre des deux modèles ST testés. L'ensemble de données final "E. coli binaire" provient de notre propre base de données RS et contient des spectres Raman d'E. coli ATCC 25922 et d'E. coli ATCC 35218. Pour cet ensemble de données, les modèles ST surpassent à nouveau de manière significative les modèles CNN, ce qui suggère que le ST l'architecture peut bien fonctionner sur une tâche plus large de problèmes de classification basés sur la spectroscopie.

Comme référence de performance finale, nous avons comparé le temps de calcul du modèle ST avec celui du modèle CNN de référence25 (voir Matériel supplémentaire). On observe généralement une accélération approximative d'un ordre de grandeur en faveur du modèle ST développé. Cependant, il convient de noter qu'une petite partie de cette accélération peut être causée par des différences dans les hyperparamètres du modèle, tels que la décroissance du poids, la quantité de paramètres et le taux d'apprentissage, et que la différence ne peut donc pas être uniquement attribuée aux architectures du modèle.

Imagerie Raman et identification ST de E. coli ATCC 25922 et E. coli ATCC 35218. La première colonne montre des images visuelles des zones de mesure et illustre les profondeurs bactériennes allant d'une à plusieurs couches (4–6 \(\upmu \) m d'épaisseur). Les cartes Raman sont présentées dans la deuxième colonne pour un décalage Raman de 1004 cm\(^{-1}\), attribué aux vibrations du mode de respiration annulaire de l-Phe, et enfin les cartes de prédiction ST sont présentées dans les troisième et quatrième colonnes . La taille des cartes est de 51 \(\upmu \)m \(\times \) 51 \(\upmu \)m et elles consistent chacune en 2601 spectres Raman (700–1600 cm\(^{-1}\) ) avec un espacement de 1 \(\upmu \)m entre les points. Les spectres Raman sont acquis avec une moyenne de 10 fois l'intégration de 0,5 s. (a) Mesures Raman d'E. coli ATCC 25922. Le taux de prédiction global (couverture de surface de densité) est de 49,1 % pour E. coli ATCC 25922, 10,4 % pour E. coli ATCC 35218 et 40,2 % pour le fond CaF\(_2\) . Pour le reste des bactéries/classes, le taux de prédiction total s'élève à 0,3 %. La carte de prédiction à droite montre la prédiction pour le reste des classes tracées pour > 0,5, où seul E. coli ATCC 35218 a des valeurs supérieures à 0,5. (b) Mesures d'E. coli ATCC 35218. Le taux de prédiction global est de 8,0 % pour E. coli ATCC 25922, 49,0 % pour E. coli ATCC 35218 et 42,8 % pour le bruit de fond. Pour le reste des bactéries/classes, la prédiction est de 0,2 %. Encore une fois, le ST fait quelques erreurs de classification d'E. coli ATCC 25922. ( c ) Mesures Raman pour un mélange binaire de E. coli ATCC 25922 et E. coli ATCC 35218 résultant en un taux de prédiction (couverture de surface) de 48,8% et 51,2%, respectivement. La ST ne fait dans ce cas aucune erreur de classification. Toute prédiction d'autres bactéries que les deux E. coli est nulle. Pour les trois cartes acquises, les cartes de prédiction ST concordent très bien avec la carte Raman et la carte visuelle.

Pour une meilleure compréhension de la capacité et des performances de notre modèle ST développé et de NoiseMix, nous visualisons l'analyse en montrant les cartes Raman et les cartes de prédiction ST. Nous effectuons des tests à la fois sur des monocultures et des mélanges de monocultures, comme le montre la figure 3. Les figures 3a, b montrent des images visuelles de la zone de test pour deux monocultures de E. coli ATCC 25922 et E. coli ATCC 35218, respectivement. Les cartes Raman sont acquises avec un pas de 1 \(\upmu \)m sur une surface de 50\(\upmu \)mx 50\(\upmu \)m et sont tracées pour les vibrations du mode de respiration annulaire de l-Phe ( Décalage Raman 1004 cm\(^{-1}\)). Chaque carte Raman est constituée de 2601 points et chaque point (spectre Raman, 700-1600 cm\(^{-1}\)) est acquis à partir de 10 moyennes avec un temps d'intégration de 0,5 seconde, avec un temps de mesure complet de 217 minutes. En comparant les images visuelles, les cartes d'intensité Raman et les cartes de prédiction des Fig. 3a, b, nous trouvons un excellent accord entre les différentes formes de visualisation. D'après les cartes de contour d'intensité Raman représentées sur la figure 3, il est évident que l'intensité Raman diminue dans la zone de démarcation entre CaF\(_2\) et les bactéries. Cela est dû en partie à une couche de bactéries plus fine (monocouche) et en partie au chevauchement laser-bactéries plus petit. Sans la méthode NoiseMix, les cartes de prédiction ST sous-estimeraient la région couverte de bactéries et feraient beaucoup plus d'erreurs de classification dans la zone de démarcation entre le CaF\(_2\) et les bactéries. Ainsi, la diminution résultante du SNR des signaux Raman a pour conséquence que les modèles ML, qui sont exclusivement entraînés sur des tapis bactériens multicouches, sous-estiment la région couverte de bactéries, et font un grand nombre d'erreurs de classification dans la zone de démarcation. Cependant, en appliquant NoiseMix dans la phase d'entraînement, le modèle ST devient extrêmement efficace même pour détecter et identifier de faibles concentrations de bactéries (monocouches) même si les données d'entraînement d'origine ne contiennent que des mesures de tapis bactériens multicouches. Ce qui est attribué à la capacité des algorithmes NoiseMix à améliorer la classification des signaux Raman à faible SNR. Nous définissons une précision pour une classe comme : correct/(croix + correct), où les croix sont toutes des prédictions erronées avec des valeurs supérieures à 0,5 et excluant la prédiction du bruit de fond (CaF\(_2\)). Cela donne une précision de 87,3 % et 87,9 % pour les figures 3a, b, respectivement. En comparant les précisions avec la couverture de surface, nous constatons que notre classificateur ST pour ce cas spécifique est indéterminé dans environ 10 % du temps, où le taux de prédiction est inférieur à 0,5. Le classificateur ST à 15 classes effectue principalement les erreurs de classification dans la zone de démarcation. Notez qu'en augmentant le temps d'intégration à 2 secondes ou plus, cela réduirait l'occurrence d'erreurs de classification, mais a pour conséquence que le temps de mesure complet d'une carte Raman avec 2601 spectres Raman prendrait plus de 14 heures.

La figure 3c montre un mélange aléatoire de cultures E. coli ATCC 25922 et E. coli ATCC 35218. Les deux échantillons de monoculture sont transférés directement sur la lame d'objectif CaF\(_2\), où ils sont mélangés puis mesurés. À partir de l'image visuelle et de la carte Raman, aucune information sur le mélange d'E. coli ATCC 35218 et d'E. coli ATCC 25922 ne peut être obtenue. La seule information qui en est déduite est que la couche est légèrement plus épaisse sur le côté gauche, ce qui peut être vu à partir de la projection de 10 pixels du tracé de contour sur les axes x et y. Cependant, à partir de la carte de prédiction ST, nous voyons clairement le mélange des deux bactéries E. coli. Nous constatons que le modèle ST, avec NoiseMix appliqué dans la phase de formation du modèle, n'a fait aucune erreur de classification et n'a prédit que les espèces correctes, à savoir E. coli, avec un rapport de densité estimé de 48,8 % d'E. coli ATCC 25922 et 51,2 % de E. coli ATCC 35218. La raison de ce résultat de classification impressionnant, où seul E. coli est prédit, est due à la couche épaisse de distribution de bactéries de 4–6 \(\upmu \)m, Ainsi, le signal Raman SNR est toujours relativement élevé. De plus, nous trouvons une précision globale de 98,1 % pour E. coli ATCC 25922 et E. coli ATCC 35218, où les derniers 1,9 % sont des points de données indéterminés avec un taux de prédiction égal de 0,5, ce qui totalise environ 49 points dans le Raman. carte.

Mesures Raman et différenciation des phénotypes résistants aux antibiotiques. La figure montre les images visuelles et les cartes de prédiction ST pour (a) S. epidermidis résistant à la méthicilline ATCC 35984 (MRSE), (b) S. epidermidis sensible à la méthicilline ATCC 14990 (MSSE), (c) S. résistant à la méthicilline. aureus MRSA ATCC252, et d) S. aureus sensible à la méthicilline MSSA ATCC 2752. La distribution des bactéries va d'une seule bactérie à des couches épaisses (4–6 \(\upmu \)m d'épaisseur) de bactéries. D'après les images visuelles, nous voyons que a) MRSE et b) MSSE sont acquis pour une seule (quelques) bactérie. Le temps d'intégration utilisé était de 10 secondes pour acquérir chaque spectre Raman et en moyenne 10 fois. Pour MRSE, la taille des cartes est de 5 \(\upmu \)m \(\times \) 5 \(\upmu \)m et consiste en 441 spectres Raman individuels (700–1600 cm\(^{-1}\ )) avec un espacement de 0,25 \(\upmu \)m entre les points. Pour MSSE, la taille des cartes est de 10 \(\upmu \)m \(\times \) 10 \(\upmu \)m avec un espacement de 1 \(\upmu \)m entre les points et consiste en 441 spectres Raman individuels . Le temps d'intégration utilisé était de 2 secondes pour acquérir chaque spectre Raman et en moyenne 10 fois. Dans les deux cas, la ST ne fait aucune erreur de classification, mais il y a peu de certitude que les bactéries soient MSSE et MRSE, comme le montrent les cartes de prédiction MSSE et MRSE en (a) et (b), respectivement. En (c) et (d), les cartes visuelles et de prédiction pour le SARM et le MSSA sont présentées. Les 50 \(\upmu \)m \(\times \) 50 \(\upmu \)m et consistent en 2601 spectres Raman (700–1600 cm\(^{-1}\)) avec 1 \(\upmu \)m espacement entre les points. Le temps d'intégration utilisé est de 0,5 seconde et en moyenne 10 fois pour l'acquisition de chaque spectre.

La figure 4 montre des mesures et des tests pour la différenciation des bactéries résistantes aux antibiotiques. Pour cette preuve de concept AST, nous recueillons des cartes Raman à partir d'isolats cliniques de MR S. epidermidis ATCC 35984 (MRSE), MR S. aureus ATCC 252 (MRSA 252), MR S. aureus ATTCC 4951 (MRSA4951) et sur MS S epidermidis ATCC 14990 (MSSE), MS \(\textit{S. aureus}\) ATTCC 4699 (MSSA 4699) et MS \(\textit{S. aureus}\) ATCC 2752 (MSSA 2752). La performance globale du modèle du classificateur à 15 classes sur la tâche de classification MR-MS peut être vue dans la matrice de confusion de la Fig. 2. Le classificateur ST contient également S. lugdunensis, S. haemolyticus et S. pettenkoferi, ces souches ont été choisies pour représentent la variation biologique, les interférences croisées potentielles pour rendre une tâche de classification plus difficile pour le ST, et pour créer une vision réaliste des possibilités de notre technique. Notamment, nous constatons que le ST fait la distinction entre les isolats MRSE et MSSE de S. epidermidis avec une précision de prédiction supérieure à 99,5\(\%\). Des exemples de cartes de prédictions pour le MRSE, le MSSE, le MRSA 252 et le MSSA 2752 et les bactéries de référence peuvent être vus sur la Fig. 4. Sur la Fig. 4c, d, la mesure du SARM et du MSSA est montrée pour deux monocultures de SARM 252 et MSSA 2752 bactéries de référence, respectivement. La figure 4c montre que le ST estime que les taux de prédiction (couverture de surface de densité) sont de 40,5 \ (\ %\) pour le fond CaF\(_2\), 56 \ (\ %\) pour le SARM 252, 0,4 \ (\ %\ ) pour MSSA 2752 et 3.1\(\%\) pour E. coli ATCC 25922. Encore une fois, il est évident que dans la zone de démarcation entre CaF\(_2\) et la bactérie SARM, les taux d'erreur de classification sont plus élevés, en raison de la diminution de SNR. Pour cette mesure, le ST fait en effet 69 erreurs de classification, comme le montre la figure 4c, où des taux de prédiction compris entre 0,5 et jusqu'à 0,99 pour E. coli ATCC 25922 sont trouvés. Cependant, cela pourrait également être lié à la contamination de l'échantillon d'essai. Sur la figure 4b, les mesures de MSSA 2752 sont présentées. Nous constatons que les taux de prédiction (couverture de surface) sont de 41,6\(\%\) pour le bruit de fond CaF\(_2\), 55,4\(\%\) pour MSSA 2752 et 3\(\%\) pour MSSA 4699. ST a quelques erreurs de classification, où le ST prédit que la bactérie est MSSA 4699, comme le montre la figure 4b, encore une fois, celles-ci se trouvent principalement dans la zone de démarcation et sont donc liées au faible SNR trouvé ici. En augmentant le temps d'intégration, à 2 secondes ou plus, on aurait contourné ces erreurs de classification, mais depuis la carte composée de 2601 spectres individuels, le temps d'acquisition prendrait plus de 14 heures. À partir de la matrice de confusion, nous constatons que la performance globale du classificateur ST à 15 classes a une précision de prédiction de 94,6\(\%\), pour la sous-matrice des deux isolats de SARM et de deux isolats de MSSA. Si nous comparons nos résultats avec un classificateur binaire utilisé dans Ref.25, où ils distinguent SARM et MSSA avec une précision de 89,1\(\%\), nous constatons que notre modèle ST surpasse clairement le modèle CNN. Notez que si les mesures ne sont effectuées que sur des couches épaisses de monocultures de bactéries, nous constatons que le ST a une très grande précision. Non représenté visuellement, mais on trouve à titre d'exemple pour MSSA 2752 et MRSA 4951 des précisions de 99,7% et 99,9%, respectivement. Ce qui n'est peut-être pas surprenant puisque les ensembles de données de validation de formation sont très similaires.

En plus de faire la distinction entre les isolats résistants aux antibiotiques et les isolats sensibles aux antibiotiques, nous testons également notre méthode ST et NoiseMix développée sur des bactéries uniques (peu de bactéries), comme on peut le voir sur les Fig. 4a, b. Les cartes sont acquises avec un temps d'intégration de 10 secondes, mais sans NoiseMix, nous avons constaté que le modèle ST ne pouvait identifier aucune bactérie, démontrant ainsi comment NoiseMix améliore la sensibilité des modèles ML. Les taux de prédiction (couverture de surface de densité) pour la Fig. 4a sont de 96,8\(\%\) CaF\(_2\) fond, 2,9\(\%\) MRSE et 0,3\(\%\) MSSE. Le pic de prédiction le plus élevé pour MSSE n'est que de 0,15. Ainsi, la ST ne fait aucune erreur de classification entre MRSE et MSSE ou toute autre classe de bactéries. Pour la figure 4b, nous constatons que les taux de prédiction sont de 93\(\%\) CaF\(_2\) bruit de fond, 0,2\(\%\) E. coli ATCC 35218, 1,3\(\%\) MRSE et 5,5 \(\%\) de MSSE. Encore une fois, le ST ne fait aucune erreur de classification entre MRSE et MSSE, puisque le pic de prédiction le plus élevé trouvé pour MSSE est de 0,45. Il est remarquable que notre ST, associé à NoiseMix, permette également une identification de haute précision de bactéries individuelles, bien que les exemples de formation originaux soient exclusivement collectés à partir de tapis bactériens multicouches.

Mesures Raman et classifications ST de trois cultures E. coli échantillons de patients. La figure montre les images visuelles des zones de mesure, où l'on peut voir que la distribution des bactéries va à nouveau d'une couche profonde (4–6 \(\upmu \)m d'épaisseur) à une seule profondeur de bactéries et les cartes de prédiction ST pour E . coli ATCC 25922 et E. coli ATCC 35218. La taille des cartes est de 50 \(\upmu \)m \(\times \) 50 \(\upmu \)m et elles consistent chacune en 2601 spectres Raman (700– 1600 cm\(^{-1}\)) avec un espacement de 1 \(\upmu \)m entre les points. Le temps d'intégration utilisé est de 0,5 seconde pour l'acquisition des spectres et en moyenne 10 fois par point/spectre. Le tableau montre les taux de prédiction globaux pour le bruit de fond CaF\(_2\), E. coli ATCC 25922, E. coli ATCC 35218 et le reste des classes. Plus précisément, nous voyons que (a) l'échantillon de patient 1 a un taux de prédiction global pour les autres bactéries de 6,9 %, (b) l'échantillon de patient 2 de 4,7 % et c) l'échantillon de patient 3 de 8,1 %. Cependant, les précisions (taux de prédiction > 0,5) sont pour P1 : 98,5 %, P2 : 99,4 % et P3 : 98 % que l'échantillon est E. coli.

Dans la Fig. 3, nous avons étudié les performances de ST et NoiseMix sur des bactéries de référence E. coli provenant des mêmes isolats de monoculture clinique. Cependant, afin de démontrer que notre ST fonctionne également potentiellement pour les isolats de patients cliniques, nous avons effectué des tests sur trois nouveaux isolats de patients cliniques d'E. coli obtenus auprès du Département de microbiologie clinique de l'hôpital universitaire d'Odense. Les isolats d'E. coli P1, P2 et P3 (illustrés à la Fig. 5) sont isolés de l'urine et ont été des espèces identifiées à partir d'un test indole (positif) et d'un étalement sur des plaques de gélose CHROMID®CPS ELITE (Biomérieux, USA). Notez que le ST n'a jamais vu ces spectres Raman auparavant. Ainsi, les échantillons de patients ont ou pourraient avoir un phénotype légèrement différent, puis les bactéries de référence E. coli utilisées pour la formation du ST. Nous nous attendons donc à ce que le ST renvoie des prédictions pour un mélange des deux bactéries de référence E. coli. Les images visuelles et les cartes de prédiction pour les 3 isolats de patients E. coli sont présentées à la Fig. 5. À partir des cartes de prédiction ST, nous pouvons estimer le chevauchement (taux de prédiction) avec E. coli ATCC 25922 et E. coli ATCC 35218. Nous trouvons que l'erreur de classification moyenne pour les 3 échantillons de patients est de 1,4 % et est en partie due au fait que le ST n'a vu aucune donnée d'entraînement pour les 3 échantillons de patients auparavant. Nous voyons à nouveau que l'erreur de classification se trouve principalement dans la zone de démarcation entre le fond CaF\(_2\) et le tapis bactérien et est donc également liée au faible SNR Raman. Des profils de résistance aux antibiotiques pour les trois isolats cliniques et pour les deux souches E. coli ATCC ont également été réalisés à l'aide du test de diffusion sur disque. À partir de ces données (voir Matériel supplémentaire), cela pourrait suggérer que P1 présente en effet la plus grande similitude avec E. coli ATCC 25922 en ce qui concerne le profil de résistance aux antibiotiques, tandis que P2 et P3 présentent un schéma de résistance similaire à E. coli ATCC 35218. Tel quel évident dans la Fig. 5, la classification ST préfère également classer l'isolat P1 comme E. coli ATCC 25922, tandis que P2 et P3 sont plus souvent classés comme étant E. coli ATCC 35218, ce qui indique une tendance du profil de résistance des isolats à guider les mesures Raman. Cependant, plus d'échantillons et de mesures doivent être effectués afin de vérifier cela et de tirer une conclusion. Cependant, nous pouvons conclure que notre ST peut effectivement distinguer en quelques secondes/minutes les phénotypes microbiens d'E. coli avec une précision de classification moyenne de 98,6 % pour les trois échantillons de patients.

Pour une identification rapide des bactéries et pour lutter contre la propagation de la RAM, nous avons mené une expérience de preuve de concept en utilisant RS assisté par ML. Nous avons démontré que la RS est une technologie prometteuse pour les études en microbiologie. Pour cela, nous avons développé un modèle ML basé sur l'attention et un nouvel algorithme d'augmentation des données (NoiseMix) pour obtenir des résultats de pointe dans l'identification des bactéries. L'architecture du modèle ST utilisée dans ce travail s'inspire du succès du transformateur visuel (VIT)40 et des transformateurs convolutionnels compacts (CCT) pour leur capacité à bien généraliser, lorsqu'ils sont entraînés sur de petits ensembles de données41. Contrairement aux VIT et aux CCT, nous avons constaté que, lorsqu'il s'agit de données RS, la division des spectres Raman en patchs et la mise en œuvre de convolutions pour induire un biais inductif nuisent aux performances du modèle. De plus, nous avons constaté que la limitation de la profondeur du modèle augmente considérablement l'efficacité du modèle, au moins sur les problèmes avec une disponibilité limitée des données. Nous soupçonnons que cela est dû à la capacité des modèles de transformateurs profonds à sur-ajuster, ce qui devient un facteur limitant, lorsque la variance intra-échantillon est élevée, comme nous l'observons pour nos ensembles de données. Ce qui serait également le cas pour les implémentations pratiques de RS pour les mesures in situ dans les cliniques et les hôpitaux. Nous croyons fermement que notre nouvelle méthode d'augmentation des données et la RS assistée par notre ST développé peuvent combler l'écart entre la recherche fondamentale et l'application pratique dans les laboratoires cliniques42. Nous avons explicitement démontré que notre ST surpasse un CNN résiduel spécifique à un domaine à la fois en termes de précision et de temps de calcul25. La réduction significative du temps de calcul réduit de manière importante à la fois le temps de diagnostic et le coût de l'appareil de diagnostic car le temps d'inférence du ST est rapide, même sur du matériel à faible coût. Les modèles ST utilisés dans ce travail pourraient également être appliqués à d'autres problèmes de classification basés sur la spectroscopie tels que la détection du cancer ou l'identification des minéraux. Notre système Raman assisté par le modèle ST distingue 15 classes différentes avec une précision de classification globale supérieure à 96\(\%\), tandis que le CNN a une précision de classification globale légèrement inférieure à 88,6 %. Comme il s'agissait d'une preuve de concept, notre ensemble de données ne contient que 15 classes, cependant, la base de données peut facilement être étendue pour contenir n'importe quel nombre de bactéries et de non-bactéries.

En comparant notre méthode aux méthodes actuellement utilisées dans les hôpitaux, à savoir les tests exigeants en main-d'œuvre et en temps dans les laboratoires, RS assisté par ML est une amélioration en termes de vitesse, de couverture, de prix et de manipulation. D'autres technologies telles que la cytométrie en flux, la réaction en chaîne par polymérase et la spectrométrie de masse MALDI-TOF sont également étudiées de manière intensive pour leur potentiel en tant que technologies de diagnostic rapides et fiables12,16,17,18. L'inconvénient de ces technologies est qu'elles nécessitent de gros équipements coûteux, un personnel spécialement formé et qu'elles ne peuvent pas être utilisées localement comme outil de diagnostic/dépistage au point de service. Il est important de noter que les spectromètres de masse nécessitent une culture, ont des difficultés à discriminer les espèces bactériennes étroitement apparentées et à différencier certains phénotypes de résistance aux antibiotiques, tels que le SARM et le MSSA19. En revanche, nous démontrons que notre RS assistée par l'approche ST et NoiseMix permet une classification précise des différents phénotypes de bactéries, à savoir E. coli, S. Epidermidis et S. Aureus. Surtout, notre résultat est obtenu avec des données de formation Raman faciles à produire qui ont été recueillies à partir de tapis de monoculture profonde de bactéries. Avec cette approche de préparation simple pour l'acquisition de données de formation, nous obtenons systématiquement des temps de diagnostic inférieurs à quelques minutes, si la culture est ignorée. L'importance de notre méthode de collecte de données est primordiale, car notre approche facilite le développement facile, rapide et bon marché de grands ensembles de données, ce qui est crucial pour l'application clinique. Par conséquent, il est possible de créer simplement des données d'entraînement à partir de bactéries cultivées, puis d'intégrer le bruit de fond et le bruit des contaminants avec NoiseMix dans les données d'entraînement rapides et faciles à produire. Cela permettrait à la fois une production rapide de données et une préparation rapide des échantillons, et ne nécessiterait aucune forme de filtrage ou de culture des bactéries. Il est donc raisonnable de supposer que notre approche peut être facilement adoptée pour le diagnostic direct de la septicémie à partir d'échantillons de patients authentiques, sans aucune prétention. En supposant cela, un diagnostic précis et donc un traitement avec un antimicrobien ciblé peuvent être obtenus en quelques minutes.

Les bactéries proviennent d'isolats bactériens qui ont été cultivés pendant une nuit sur des plaques de gélose et ont été scellés avec du parafilm et stockés à 5 ° C jusqu'à la préparation de l'échantillon. La durée de stockage variait, mais n'entraînait pas de modifications spectrales des caractéristiques de la souche ou du phénotype. Toutes les autres conditions de préparation des échantillons ont été maintenues cohérentes entre les échantillons. Les échantillons de test ont été préparés séparément des échantillons utilisés pour la formation, afin de s'assurer que la classification n'était pas influencée par des différences dans la préparation des échantillons. Pour préparer les échantillons pour la mesure Raman, un échantillon a simplement été transféré d'une seule colonie directement sur une lame d'objectif de qualité Raman CaF\(_2\) stérilisée.

Bacteria-surface + NoiseMix et Bacteria-surface : L'ensemble de données d'entraînement Bacteria-surface est composé de trois temps d'intégration pour chaque classe. L'ensemble de données se compose de 12 classes de bactéries (E. coli ATCC 35218, E. coli ATCC 25922, S. epidermidis résistant à la méthicilline ATCC 35984 (MRSE), S. epidermidis sensible à la méthicilline ATCC 14990 (MSSE), Micrococcus luteus, S. lugdunensis, S. haemolyticus, S. pettenkoferi, S. aureus ATCC 252 résistant à la méthicilline, S. aureus ATTCC4951 résistant à la méthicilline, S. aureus sensible à la méthicilline ATTCC4699, S. aureus ATCC 2752 sensible à la méthicilline et 3 classes non bactériennes , fluorure de calcium, (CaF\(_2\)), gélose et billes de polystyrène. Les données des classes bactériennes de l'ensemble de données Bacteria-surface training ont été acquises en mesurant sur des lames CaF\(_2\) entièrement couvertes par tapis bactériens multicouches. Les données de la classe de fond CaF\(_2\) dans l'ensemble de données d'entraînement Bacteria-surface ont été acquises en mesurant des lames de CaF\(_2\) propres. Les données de la classe d'agar dans l'ensemble de données d'entraînement Bacteria-surface , a été acquise en mesurant sur des lames CaF\(_2\) recouvertes d'une épaisse couche de gélose. entièrement recouvert de billes de polystyrène. Pour les tests utilisant NoiseMix, par exemple dans les Figs. 2,3,4, les données d'entraînement CaF\(_2\) et agar Bacteria-surface, sont utilisées comme entrées de mélange pour l'algorithme. L'ensemble de données de test Bacteria-surface utilisé à la Fig. 2 comprend 12 classes de bactéries et 3 classes de non-bactéries. Chaque classe de l'ensemble de données de test Bacteria-surface est représentée par une mesure sur une surface CaF\(_2\) partiellement couverte. Les classes de bactéries dans le jeu de données de test Bacteria-surface ne sont donc pas représentées par le même nombre de spectres Raman de bactéries. Le jeu de données de validation Bacteria-surface est produit de la même manière que le jeu de données de test Bacteria-surface mais ne contient pas les 15 classes. Les mesures indiquées sur les Fig. 3,4,5 sont acquis en suivant la même procédure que celle utilisée pour produire l'ensemble de données de test Bacteria-surface. Le prétraitement des données de l'ensemble de données d'entraînement Bacteria-surface consiste à normaliser chaque spectre entre 0 et 1. Le prétraitement des données montrées dans les Figs. 3,4,5 des données de test et de validation de la surface des bactéries, se compose de deux étapes. (i) la pente des spectres est supprimée en soustrayant la fonction linéaire entre les valeurs de début et de fin des spectres, et (ii) une étape de normalisation dans laquelle chaque spectre Raman est normalisé entre 0 et 1. Pour les résultats présentés dans les Figs . 3,4,5, nous utilisons 100\(\%\) de données de l'ensemble de données d'entraînement Bacteria-surface pour l'entraînement, puis nous utilisons l'ensemble de données de validation Bacteria-surface retenu pour la sélection du modèle. Comme l'ensemble de validation est produit avec la même procédure que l'ensemble de données de test réel, il s'agit d'un meilleur indicateur de l'efficacité de la classification du modèle.

Bactérie ID 1 : Les modèles sont formés sur l'ensemble de données de référence de Stanford25, qui se compose de 30 isolats bactériens et de levure avec 2000 spectres pour chacun des 30 isolats. Les modèles ont ensuite été affinés sur l'ensemble de données de réglage fin de référence qui se compose de 30 isolats bactériens et de levure avec 100 spectres pour chacun des 30 isolats25. Les modèles sont ensuite testés sur le jeu de données de test de référence, composé de 30 isolats bactériens et de levure avec 100 spectres pour chacun des 30 isolats25.

Bactérie ID 2 : Les modèles ont été entraînés uniquement sur l'ensemble de données de réglage fin de référence, puis testés sur l'ensemble de données de test de référence25.

Binaire E. coli : les modèles ont été formés et testés sur des ensembles de données binaires constitués d'E. coli ATCC 35218 et E. coli ATCC 25922. Les données des ensembles de données binaires E. coli ont été acquises en mesurant sur des lames CaF\(_2\), recouverts de tapis bactériens multicouches. L'ensemble de données de formation binaire E. coli a 5180 spectres pour chaque classe, et chaque classe est composée de deux temps d'intégration différents, chacun contenant 2590 spectres. L'ensemble de données de test binaire E. coli a 2590 spectres pour chaque classe, et les temps d'intégration sont différents de ceux de l'ensemble d'apprentissage. Le prétraitement des ensembles de données binaires E. coli consiste en deux étapes effectuées automatiquement sans intervention de l'utilisateur : (i) une étape de correction de la ligne de base à l'aide de Zhangfit43, et (ii) une étape de normalisation dans laquelle chaque spectre Raman est normalisé entre 0 et 1 .

Le microscope Raman pour l'acquisition de données Raman est illustré à la Fig. 1b. Le microscope Raman utilise un laser d'excitation de 785 nm (TA pro, Toptica, Allemagne) avec une puissance de 60 mW. Le faisceau de pompe est nettoyé spatialement avec une fibre monomode (SM) de 1 mètre de long (câble patch PANDA PM FC/PC vers FC/APC) avec un diamètre de champ de mode de 5,3 \(\upmu \)m. Un objectif de microscope (MO) à longue distance de travail \(100\times \) (LMPLN-IR/LCPLN-IR, ouverture numérique NA = 0,85) d'Olympus est utilisé à la fois pour l'imagerie, la focalisation du laser d'excitation et la collecte de la lumière rétrodiffusée . Les échantillons de bactéries sont placés sur des lames objectives de fluorure de calcium de grade Raman (CaF\(_2\)) et la position est contrôlée avec une étape de balayage XYZ automatisée. Un miroir dichroïque (DM) (passe-haut 750 nm, Semrock) est utilisé pour coupler la lumière d'éclairage visible à un dispositif à couplage de charge (CCD) pour l'imagerie. Un deuxième DM (passe-haut 800 nm) est utilisé pour séparer le signal Raman de la pompe. Des filtres supplémentaires (passe-haut, 800 nm, Semrock) et (passe-bande, 785 nm ± 10 nm, Semrock) sont utilisés pour le filtrage de la pompe à 785 nm. Une fibre multimode (MM) de 5 m de long (ø200 m, 0,39 NA, câbles patch FC/PC vers FC/PC) collecte le signal Raman et le dirige vers le spectromètre. Pour l'acquisition des spectres Raman, nous utilisons un spectromètre HR320 Horiba. Toutes les mesures ont été effectuées avec une taille de fente de 300 \(\upmu \)m et le réseau utilisé a une densité de lignes de 950 L/mm. Un dispositif à couplage de charge refroidi thermoélectriquement (CCD) est utilisé pour la détection (Synapse, 1024 256 avec chaque taille de pixel de 26 \(\upmu \)m). Les pixels CCD sont regroupés en grappes de 2x20 pixels pour réduire le bruit et ainsi augmenter le SNR. Avec chaque spectre Raman acquis composé de 480 points dans la plage de 700 à 1600 cm\(^{-1}\), la résolution spectrale du spectromètre est d'environ 10 cm\(^{-1}\).

Pour contrôler la position et changer le point d'échantillonnage pour RS, nous utilisons une étape de balayage XYZ d'Applied Scientific Instrumentation (ASI). Les moteurs pas à pas ASI offrent un contrôle précis grâce à l'utilisation de servomoteurs CC en boucle fermée utilisant des encodeurs haute résolution pour le positionnement et la rétroaction. La platine XY a une plage de déplacement de 100 mm \(\times \) 100 mm et une précision de position d'environ 200 nm. Un logiciel Python sur mesure a été développé pour l'automatisation du microscope Raman complet afin de contrôler de manière asynchrone l'étape de balayage et le spectromètre Horiba pour l'acquisition de cartes Raman hyperspectrales des échantillons de bactéries.

Pour l'étalonnage spectral (et l'optimisation) du microscope Raman et l'étalonnage de l'étape de translation, nous utilisons des billes de polystyrène dont la taille varie de 1 à 5 \(\upmu \)m. Les billes de polystyrène sont de taille comparable à celle des bactéries et constituent de multiples pics Raman dans la même région de décalage Raman que les bactéries. À partir des mesures et des cartes de prédiction ST, nous estimons que la résolution spatiale des cartes Raman est \(\approx \) 2 \(\upmu \)m \(\pm 500\) nm) et pour la carte de prédiction ST sont \( \approx \) 3 \(\upmu \)m \(\pm 500\) nm).

Les spectres Raman bruts ont été initialement nettoyés des pointes cosmétiques. Ensuite, la fonction linéaire entre les valeurs de début et de fin de chaque spectre est identifiée et soustraite. En tant qu'étape finale de prétraitement, les spectres ont été normalisés individuellement dans la plage comprise entre zéro et un. Notamment, nous avons également étudié les méthodes de correction de la ligne de base à l'aide de Zhangfit [36], mais nous avons constaté que tout type de suppression de ligne de base non linéaire était préjudiciable aux performances du modèle, en particulier lorsqu'il est utilisé conjointement avec NoiseMix.

Pour améliorer les performances du modèle dans la phase de test, nous appliquons l'augmentation des données dans la phase de formation du modèle. L'algorithme NoiseMix fonctionne en sélectionnant au hasard et en mélangeant ensuite les spectres de bactéries \(S_{bactéries}(\nu )\) et les spectres de fond \(S_{bg}(\nu )\). Un spectre Raman augmenté \(S_{bactérie}^{(aug)}(\nu )\) est alors donné par

où \(\alpha \) est choisi au hasard à partir d'une distribution uniforme dans l'intervalle \([0, \alpha _{max}]\), et \(\alpha _{max} <1\) est une borne supérieure pour la contribution des spectres de fond.

Le modèle ST ML développé ici est une version compacte du codeur de transformateur standard39, mais diffère en ce qu'il utilise le regroupement de séquences pour mapper les sorties séquentielles sur une classe singulière. La structure du modèle ST peut être vue sur la Fig. 1c. Il se compose d'une couche d'intégration positionnelle facultative (ST-pe), suivie d'une couche de suppression. La couche suivante est un bloc qui contient séquentiellement une norme de couche, une attention multitête (MHA), une norme de couche, puis un perceptron multicouche (MLP) avec une non-linéarité GELU. Elle est suivie d'une norme de couche, puis d'une couche de regroupement de séquences. Enfin, la couche de sortie est une couche linéaire entièrement connectée. Notre architecture ST est paramétrée par trois arguments ST(i,j,k), où i est la profondeur du codeur du transformateur, j est le nombre de têtes dans la couche MHA et k est le rapport de perceptron multicouche. Ainsi, dans la version ST(1,2,7), le codeur du transformateur a une profondeur de 1, la couche MHA a 2 têtes et la dimension de la couche cachée du MLP est 7 fois plus grande que la dimension d'entrée MLP. Ces hyperparamètres, ainsi que tous les hyperparamètres utilisés pour la formation, ont été sélectionnés à l'aide d'un estimateur de Parzen arborescent, en utilisant une division de formation et de validation sur la tâche de classification des isolats25.

Comme nous avons inclus des classes de fond non bactériennes dans notre modèle, nous avons choisi d'utiliser deux mesures de performance : la précision et la densité. La précision est définie au sens habituel comme le rapport entre les classifications correctes des bactéries et le nombre total de classifications des bactéries. La densité, quant à elle, est une mesure de la couverture bactérienne et correspond au nombre de classifications de bactéries par rapport au nombre total de classifications.

Les données à l'appui des conclusions de cette étude sont disponibles auprès de l'auteur correspondant sur demande raisonnable.

Organisation Mondiale de la Santé. Plan d'action mondial sur la résistance aux antimicrobiens (2015).

sur la résistance aux antimicrobiens, rapport de l'ICG au secrétaire général des nations unies (2019).

Stekel, D. Le premier rapport de résistance aux antimicrobiens est antérieur à la pénicilline. Nature 562, 1 (2018).

Article Google Scholar

O'Neill, J. Lutter contre les infections résistantes aux médicaments dans le monde : rapport final et recommandations (2016).

Murray, CJ et al. Fardeau mondial de la résistance bactérienne aux antimicrobiens en 2019 : une analyse systématique. Le Lancet (2022).

groupe bancaire, W. Infections résistantes aux médicaments : une menace pour notre avenir économique (2017).

Tenover, FC Mécanismes de résistance antimicrobienne chez les bactéries. Suis. J. Med. 119, S3–S10 (2006).

Article CAS Google Scholar

Holmes, AH et al. Comprendre les mécanismes et les moteurs de la résistance aux antimicrobiens. Le Lancet 387, 176-187 (2016).

Article CAS Google Scholar

Dadgostar, P. Résistance aux antimicrobiens : Implications et coûts. Infecter. Résistance aux médicaments. 12, 3903 (2019).

Article CAS Google Scholar

Nathan, C. Résistance à la résistance aux antimicrobiens. Nat. Rév. Microbiol. 18, 259-260 (2020).

Article CAS Google Scholar

Aslam, B. et al. Antibiorésistance : aperçu d'une crise mondiale. Infecter. Résistance aux médicaments. 11, 1645 (2018).

Article CAS Google Scholar

Khan, ZA, Siddiqui, MF & Park, S. Méthodes actuelles et émergentes de tests de sensibilité aux antibiotiques. Diagnostics 9, 49 (2019).

Article CAS Google Scholar

Reverter, M. et al. L'aquaculture au carrefour du réchauffement climatique et de la résistance aux antimicrobiens. Nat. Commun. 11, 1870 (2020).

Article ADS CAS Google Scholar

Amann, S., Neef, K. & Kohl, S. Résistance aux antimicrobiens (amr). EUR. J. Hosp. Pharm. : Sci. Pratique. 26, 175-177 (2019).

Article Google Scholar

Abushaheen, MA et al. La résistance aux antimicrobiens, ses mécanismes et sa signification clinique. Dis. Lun. 66, 100971 (2020).

Article Google Scholar

Barghouthi, SA Une méthode universelle pour l'identification des bactéries basée sur des amorces PCR générales. Indian J. Microbiol. 51, 430–444 (2011).

Article CAS Google Scholar

Florio, W., Tavanti, A., Barnini, S., Ghelardi, E. & Lupetti, A. Progrès récents et défis actuels dans le diagnostic des infections microbiennes par spectrométrie de masse Maldi-Tof. Devant. Microbiol. 9, 1097 (2018).

Article Google Scholar

Hou, T.-Y., Chiang-Ni, C. & Teng, S.-H. Statut actuel de la spectrométrie de masse Maldi-Tof en microbiologie clinique. J. Food Drug Anal. 27, 404–414 (2019).

Article CAS Google Scholar

Wang, L. et al. Applications de la spectroscopie Raman dans les infections bactériennes : principes, avantages et inconvénients. Devant. Microbiol. 12, 1 (2021).

Google Scholar

Jones, RR, Hooper, DC, Zhang, L., Wolverson, D. & Valev, VK Techniques Raman : fondamentaux et frontières. Nanoscale Res. Lett. 14, 1–34 (2019).

Article Google Scholar

Ralbovsky, NM & Lednev, IK Vers le développement d'une nouvelle méthode universelle de diagnostic médical : la spectroscopie Raman et l'apprentissage automatique. Chim. Soc. Rév.49, 7428–7453 (2020).

Article CAS Google Scholar

Guo, S., Popp, J. & Bocklitz, T. Analyse chimiométrique en spectroscopie raman, de la conception expérimentale à la modélisation basée sur l'apprentissage automatique. Nat. Protocole 16, 5426–5459 (2021).

Article CAS Google Scholar

Lorenz, B., Wichmann, C., Stöckel, S., Rösch, P. & Popp, J. Études spectroscopiques raman sans culture de bactéries. Tendances Microbiol. 25, 413-424 (2017).

Article CAS Google Scholar

Novelli-Rousseau, A. et al. Détermination de la sensibilité aux antibiotiques sans culture à partir de spectres Raman d'une seule bactérie. Sci. Rep. 8, 1–12 (2018).

Article CAS Google Scholar

Ho, C., Jean, N. & Hogan, C. Identification rapide de bactéries pathogènes à l'aide de la spectroscopie Raman et de l'apprentissage en profondeur. Nat. Commun. 10, 4927 (2019).

Annonces d'article Google Scholar

Ashton, L., Lau, K., Winder, CL & Goodacre, R. Spectroscopie Raman : Éclairer l'avenir de l'identification microbienne. Fut. Microbiol. 6, 991–997 (2011).

Article CAS Google Scholar

Eberhardt, K., Stiebing, C., Matthäus, C., Schmitt, M. & Popp, J. Avantages et limites de la spectroscopie Raman pour le diagnostic moléculaire : une mise à jour. Expert Rév. Mol. Diag. 15, 773–787 (2015).

Article CAS Google Scholar

Chang, K.-W. et coll. Test de sensibilité aux antibiotiques avec diffusion raman améliorée en surface dans un système microfluidique. Anal. Chim. 91, 10988–10995 (2019).

Article CAS Google Scholar

Strola, SA et al. Identification de bactéries uniques par spectroscopie Raman. J. Biomed. Opter. 19, 111610 (2014).

Annonces d'article Google Scholar

de Siqueira e Oliveira, FS, da Silva, AM, Pacheco, MTT, Giana, HE & Silveira, L. Caractérisation biochimique d'espèces bactériennes pathogènes à l'aide de la spectroscopie raman et d'un modèle de discrimination basé sur des caractéristiques spectrales sélectionnées. Las. Méd. Sci.36, 289–302 (2021).

Duraipandian, S., Petersen, J. & Lassen, M. Analyse de l'authenticité et de la concentration de l'huile d'olive extra vierge à l'aide de la spectroscopie Raman spontanée et de l'analyse de données multivariées. Appl. Sci. 9, 2433 (2019).

Article CAS Google Scholar

Garcia-Timermans, C. et al. La caractérisation Raman sans étiquette des bactéries nécessite des procédures standardisées. J. Microbiol. Méthodes 151, 69–75 (2018).

Article Google Scholar

Rousseau, AN et al. Test rapide de sensibilité aux antibiotiques par microspectrométrie Raman sur une seule bactérie : une étude de cas de mrsa. ACS Oméga 6, 16273–16279 (2021).

Article CAS Google Scholar

Kloß, S., Rösch, P., Pfister, W., Kiehntopf, M. & Popp, J. Vers une identification spectroscopique Raman sans culture d'agents pathogènes dans le liquide d'ascite. Anal. Chim. 87, 937–943 (2015).

Article Google Scholar

Franco-Duarte, R. et al. Progrès dans les méthodes chimiques et biologiques pour identifier les micro-organismes, du passé au présent. micro-organismes (2019).

Pahlow, S. et al. Isolement et identification de bactéries par spectroscopie Raman. Adv. Déliv. Rév. 89, 105–120 (2015).

Article CAS Google Scholar

Lussier, F., Thibault, V., Charron, B., Wallace, GQ & Masson, J.-F. Méthodes d'apprentissage profond et d'intelligence artificielle pour la diffusion Raman et la diffusion Raman améliorée en surface. TrAC, Tendances Anal. Chim. 124, 115796 (2020).

Article CAS Google Scholar

Lu, W., Chen, X., Wang, L., Li, H. & Fu, YV Combinaison d'une approche d'intelligence artificielle et d'une spectroscopie Raman à pince laser pour l'identification microbienne. Anal. Chim. 92, 6288–6296 (2020).

Article CAS Google Scholar

Parmar, N. et al. Transformateur d'image 4055–4064 (2018).

Shao, R., Shi, Z., Yi, J., Chen, P.-Y. & Hsieh, C.-J. De la robustesse contradictoire des transformateurs visuels. arXiv e-prints arXiv–2103 (2021).

Hassani, A. et al. Sortir du paradigme du Big Data avec des transformateurs compacts. prétirage arXiv arXiv:2104.05704 (2021). https://arxiv.org/pdf/2104.05704.pdf.

Kong, K., Kendall, C., Stone, N. & Notingher, I. Spectroscopie Raman pour le diagnostic médical - des dosages in vitro des biofluides à la détection in vivo du cancer. Adv. Déliv. Rév. 89, 121–134 (2015).

Article CAS Google Scholar

Zhang, ZM, Chen, S. & Liang, YZ Correction de la ligne de base à l'aide des moindres carrés pénalisés adaptatifs itérativement repondérés. Analyste 135, 1138-1146 (2010).

Article ADS CAS Google Scholar

Télécharger les références

Nous reconnaissons avec gratitude les conversations fructueuses avec Poul A. Jessen de BacAlert. RBG était affilié à l'Université du Danemark du Sud au moment de l'étude et est actuellement affilié au Centre de diagnostic, Département de médecine, Hôpital universitaire d'Odense, Svendborg, Danemark. Cette recherche a été financée par l'Agence danoise pour les institutions et les bourses d'études et le Fonds d'innovation du Danemark (IFD) dans le cadre du projet Eurostars Bacsens (cas n° 9046-00032A).

Métrologie fondamentale danoise, Kogle Allé 5, 2970, Hørsholm, Danemark

Benjamin Lundquist Thomsen, Jesper B. Christensen, Olga Rodenko et Mikael Lassen

Institut d'optique et de physique atomique, Université technique de Berlin, Strasse des 17. Juni 135, 10623, Berlin, Allemagne

Iskander Ousnov

Art photonics GmbH, Rudower Ch 46, 12489, Berlin, Allemagne

Iskander Ousnov

Unité de recherche en microbiologie clinique, Université du Danemark du Sud et Hôpital universitaire d'Odense, JB Winsløws Vej 21.2, 5000, Odense, Danemark

Rasmus Birkholm Grønnemose & Thomas Emil Andersen

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

JBC, IU et ML ont conçu et construit le microscope Raman. RBG et TEA ont préparé les bactéries pour les expériences. JBC, OR et ML ont obtenu les principaux résultats expérimentaux Raman. BLT a conçu et développé le logiciel d'analyse d'apprentissage automatique. Le document a été rédigé par BLT, JBC et ML avec des contributions de tous les auteurs. ML a conçu et supervisé la recherche.

Correspondance avec Mikael Lassen.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Thomsen, BL, Christensen, JB, Rodenko, O. et al. Identification précise et rapide des phénotypes de bactéries peu préparées à l'aide de la spectroscopie Raman assistée par l'apprentissage automatique. Sci Rep 12, 16436 (2022). https://doi.org/10.1038/s41598-022-20850-z

Télécharger la citation

Reçu : 26 juin 2022

Accepté : 20 septembre 2022

Publié: 30 septembre 2022

DOI : https://doi.org/10.1038/s41598-022-20850-z

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER