banner

Nouvelles

Oct 15, 2023

Implémentation expérimentale d'un égaliseur de canal optique de réseau neuronal dans un matériel restreint utilisant l'élagage et la quantification

Rapports scientifiques volume 12, Numéro d'article : 8713 (2022) Citer cet article

1355 accès

3 Citations

1 Altmétrique

Détails des métriques

Le déploiement d'égaliseurs de canaux optiques basés sur des réseaux de neurones artificiels sur des dispositifs informatiques de pointe est d'une importance cruciale pour la prochaine génération de systèmes de communication optique. Cependant, il s'agit toujours d'un problème très difficile, principalement en raison de la complexité de calcul des réseaux de neurones artificiels (NN) nécessaires à l'égalisation efficace des canaux optiques non linéaires avec une grande mémoire induite par la dispersion. Pour implémenter l'égaliseur de canal optique basé sur NN dans le matériel, une réduction substantielle de la complexité est nécessaire, tandis que nous devons conserver un niveau de performance acceptable du modèle NN simplifié. Dans ce travail, nous abordons le problème de réduction de la complexité en appliquant des techniques d'élagage et de quantification à un égaliseur de canal optique basé sur NN. Nous utilisons une architecture NN exemplaire, le perceptron multicouche (MLP), pour atténuer les dégradations pour une transmission de 30 GBd à 1000 km sur une fibre monomode standard, et démontrons qu'il est possible de réduire la mémoire de l'égaliseur jusqu'à 87,12 % , et sa complexité jusqu'à 78,34 %, sans dégradation notable des performances. En plus de cela, nous définissons avec précision la complexité de calcul d'un égaliseur basé sur NN compressé au sens du traitement numérique du signal (DSP). De plus, nous examinons l'impact de l'utilisation de matériel avec différentes fonctionnalités CPU et GPU sur la consommation d'énergie et la latence de l'égaliseur compressé. Nous vérifions également expérimentalement la technique développée, en implémentant l'égaliseur NN réduit sur deux unités matérielles de calcul de pointe standard : Raspberry Pi 4 et Nvidia Jetson Nano, qui sont utilisées pour traiter les données générées en simulant la propagation du signal dans le système de fibre optique. .

Les communications optiques constituent l'épine dorsale de l'infrastructure numérique mondiale. De nos jours, les réseaux optiques sont les principaux fournisseurs de trafic de données mondial, non seulement interconnectant des milliards de personnes, mais prenant également en charge le cycle de vie d'un grand nombre d'appareils, de machines et de systèmes de contrôle autonomes différents. L'un des principaux facteurs limitant le débit des systèmes de communication à fibre optique contemporains est la dégradation de la transmission induite par la non-linéarité1,2, résultant à la fois de la réponse non linéaire de la fibre optique et des composants du système. Les solutions existantes et potentielles à ce problème incluent, par exemple, la conjugaison de phase optique à mi-portée, la rétropropagation numérique (DBP) et la fonction de transfert inverse de la série Volterra, pour ne citer que quelques méthodes remarquables2,3,4. Mais, il convient de souligner que dans l'industrie des télécommunications, la concurrence entre les solutions possibles se produit non seulement en termes de performances, mais également en termes d'options de déploiement de matériel, de coûts d'exploitation et de consommation d'énergie.

Au cours des dernières années, les approches basées sur les techniques d'apprentissage automatique et, en particulier, celles utilisant les NN, sont devenues un sujet de recherche de plus en plus populaire, car les NN peuvent résoudre efficacement les dégradations induites par les fibres et les composants5,6,7,8, 9,10,11,12,13,14,15. L'un des moyens simples d'utiliser un NN pour la compensation de la corruption du signal dans les systèmes de transmission optique consiste à le brancher sur le système en tant que post-égaliseur7,10,14, un dispositif spécial de traitement du signal côté récepteur, visant à contrecarrer les effets néfastes. émergeant lors de la transmission des données16. De nombreuses études antérieures ont démontré le potentiel de ce type de solution7,8. Un certain nombre d'architectures NN ont déjà été analysées dans différents types de systèmes optiques (sous-marin, longue distance, métro et accès). Ces architectures incluent les conceptions NN à action directe telles que le MLP7, 10, 14, 15, considéré dans l'étude actuelle, ou des structures NN de type récurrent plus sophistiquées 10, 11, 12, 17. Cependant, le déploiement pratique d'égaliseurs de canaux basés sur NN en temps réel implique que leur complexité de calcul est, au moins, comparable, ou, de préférence, inférieure à celle des solutions de traitement du signal numérique (DSP) conventionnelles existantes18, et reste un sujet de débat. Il s'agit d'un aspect pertinent car les bonnes performances des RN sont typiquement liées à l'utilisation d'un grand nombre de paramètres et d'opérations en virgule flottante10. La complexité de calcul élevée conduit, à son tour, à des besoins élevés en mémoire et en puissance de calcul, augmentant la consommation d'énergie et de ressources19,20. Ainsi, l'utilisation de méthodes basées sur NN, tout en étant, sans aucun doute, prometteuse et attrayante, fait face à un défi majeur dans l'égalisation de canal optique, où la complexité de calcul apparaît comme un important facteur limitant de déploiement en temps réel10,12,20,21. Nous remarquons ici qu'il est bien sûr bien connu que certaines architectures NN peuvent être simplifiées sans affecter significativement leurs performances, grâce, par exemple, à des stratégies telles que l'élagage et la quantification19,20,22,23,24,25. Cependant, leur application dans l'environnement expérimental du matériel à ressources limitées n'a pas encore été entièrement étudiée dans le contexte de l'égalisation cohérente des canaux optiques. Il est également nécessaire de comprendre et d'analyser plus en profondeur le compromis entre la réduction de la complexité et la dégradation des performances du système, ainsi que l'impact de la réduction de la complexité sur la consommation d'énergie du périphérique final.

Dans cet article, nous appliquons les techniques d'élagage et de quantification pour réduire les exigences matérielles d'un égaliseur de canal optique cohérent basé sur NN, tout en maintenant ses performances à un niveau élevé. Nous soulignons également l'importance d'une évaluation précise de la complexité de calcul de l'égaliseur au sens DSP. Outre l'étude de la complexité et du temps d'inférence, une nouveauté et une avancée supplémentaire de notre travail réside dans l'analyse de la consommation d'énergie et l'étude de l'impact que les caractéristiques du matériel et du modèle ont sur ces métriques.

Nous développons et évaluons expérimentalement les performances d'un égaliseur basé sur NN à faible complexité qui peut être déployé sur du matériel à ressources limitées et, en même temps, peut atténuer avec succès les dégradations de transmission non linéaires dans un système de communication optique simulé. Ceci est réalisé en appliquant les techniques d'élagage et de quantification au NN23, et en étudiant le compromis optimal entre la complexité de la solution NN et ses performances. Les résultats obtenus peuvent être divisés en trois catégories principales.

Tout d'abord, nous quantifions comment les techniques de réduction de la complexité affectent les performances du modèle NN et établissons une limite de compression pour une performance optimale par rapport à la complexité. Deuxièmement, nous analysons la complexité de calcul de l'égaliseur basé sur NN élagué et quantifié en termes de DSP. Enfin, nous évaluons expérimentalement l'impact que les caractéristiques du matériel et du modèle NN ont sur le temps de traitement du signal et la consommation d'énergie en déployant ce dernier à la fois sur un Raspberry Pi 4 et un Nvidia Jetson Nano.

Maintenant, nous passons brièvement en revue les résultats précédents dans le domaine des techniques de compression appliquées aux égaliseurs basés sur NN dans les liaisons optiques, pour souligner la nouveauté de notre approche actuelle. L'utilisation de ces techniques pour réduire la complexité des NN dans les systèmes optiques n'est clairement pas un concept nouveau25. Cependant, les méthodes de compression ont récemment suscité une nouvelle vague d'attention en raison de la question du réalisme de la mise en œuvre matérielle des égaliseurs basés sur NN dans les systèmes de transmission optique. Dans un système de transmission à détection directe, un égaliseur NN à élagage parallèle pour des liaisons PAM-4 à 100 Gbit/s a été testé expérimentalement à l'aide de la version améliorée de la méthode d'élagage à un coup26, qui a réduit de 50 % la consommation de ressources sans dégradation significative des performances. Lors de l'examen de la transmission optique cohérente, la complexité de la méthode dite d'atténuation de la non-linéarité DBP apprise a été réduite en élaguant les coefficients dans les filtres à réponse impulsionnelle finie27 (voir des explications plus techniques dans la section "Méthodes" ci-dessous). Dans ce cas, en utilisant une cascade de trois filtres, un niveau de parcimonie d'environ 92 % peut être atteint avec un impact négligeable sur les performances globales. Récemment, certaines techniques avancées pour éviter les multiplications dans de tels égaliseurs utilisant la quantification additive des puissances de deux ont été testées28. Dans ce dernier travail, 99 % des poids ont pu être supprimés à l'aide de techniques d'élagage avancées, et au lieu de multiplications, seules des opérations de décalage de bits étaient nécessaires. Cependant, aucun de ces travaux ne traite de la démonstration expérimentale de l'implémentation matérielle, et notre étude aborde exactement ce dernier problème.

Ainsi, contrairement aux travaux précédents, dans la présente étude, nous implémentons l'égaliseur basé sur NN compressé pour le canal optique cohérent dans deux plates-formes matérielles différentes : un Raspberry Pi 4 et un Nvidia Jetson Nano. Nous évaluons également l'impact des techniques de compression sur la latence du système pour chaque type de matériel et étudions le compromis performance-complexité. Enfin, nous effectuons une analyse de la consommation d'énergie et de l'impact que les caractéristiques du matériel et du modèle NN ont sur celui-ci.

Pour répondre à l'utilisation d'un MLP comme égaliseur basé sur NN, un système de mesure précis du temps d'inférence et de la consommation d'énergie, à la fois sur un Raspberry Pi et un Nvidia Jetson Nano, a été conçu, de sorte que les effets de l'élagage et quantification ont sur ces métriques, peuvent être caractérisés (voir la section "Méthodes" ci-dessous pour une explication détaillée). Dans les références 10, 14, le post-égaliseur MLP non compressé a été pris en compte et il a été démontré qu'il peut compenser avec succès les dégradations induites par la non-linéarité dans un système de communication optique cohérent. Nous analysons les performances de l'égaliseur en termes de facteur Q standard atteint, en utilisant les données simulées pour un signal à double polarisation en cosinus surélevé (RRC) de 0,1, avec une modulation de 30 GBd et 64-QAM, pour la transmission sur les 20 \(\times\) Liaisons de 50 km de fibre monomode standard (SSMF). Nous avons utilisé le même simulateur que celui décrit dans les références 10, 29 pour générer nos ensembles de données d'entraînement et de test, et la même procédure pour entraîner l'égaliseur basé sur NN (voir la sous-section "Configuration numérique et modèle de réseau neuronal" dans "Méthodes" pour plus d'informations). détails). Dans notre configuration, le NN est placé du côté du récepteur (Rx) après le récepteur cohérent intégré (ICR), le convertisseur analogique-numérique (ADC) et le bloc DSP. Ce dernier bloc est constitué d'un filtre adapté et d'un égaliseur linéaire. Concernant le filtre adapté, il s'agit du même filtre RRC utilisé dans l'émetteur. De plus, l'égaliseur linéaire est composé d'un étage de compensation de dispersion chromatique (CDC) électronique complet et d'une étape de normalisation, voir Fig. 1. Le CDC utilise un égaliseur de domaine fréquentiel et un sous-échantillonnage au débit de symboles, suivi d'un normalisateur de phase/amplitude aux transmises. Ce processus de normalisation peut être vu comme sa normalisation par une constante \(K_\text {DSP}\) apprise à l'aide de l'équation suivante :

où les constantes \({\mathcal {K}}, \, {\mathcal {K}}_\text {DSP} \in {\mathbb {C}}\) et \(x_{h\!/\!v }\) est le signal en polarisation h ou v. Aucune autre distorsion, liée aux composants de l'émetteur-récepteur, n'a été prise en compte.

Pour ce système, la meilleure puissance optimale s'est produite à − 1 dBm avec le facteur Q proche de 7,8, comme on peut l'apprécier sur la Fig. 2. Nous avons ensuite voulu étudier les 3 puissances suivantes (par exemple 0 dBm, 1 dBm, et 2 dBm) allant vers le régime non linéaire supérieur, où la tâche du NN serait plus compliquée.

Structure d'un canal de communication qui est égalisé à l'aide d'un réseau de neurones élagué et quantifié déployé sur du matériel à ressources limitées (par exemple, un Raspberry Pi 4 ou un Nvidia Jetson Nano).

Les hyperparamètres qui définissent la structure du NN sont obtenus à l'aide d'un optimiseur bayésien (BO)10,30, où l'optimisation est effectuée en ce qui concerne les performances de qualité de restauration du signal (voir la sous-section "Configuration numérique et modèle de réseau de neurones" dans "Méthodes "). Le MLP optimisé résultant a trois couches cachées (nous n'avons pas optimisé le nombre de couches, mais le nombre de neurones et le type de fonctions d'activation), avec respectivement 500, 10 et 500 neurones. (Ces nombres ont été définis comme les limites minimales et maximales du nombre de poids, dans lesquelles l'algorithme BO recherchait la configuration optimale). La fonction d'activation "\(\tanh\)" a été choisie par l'optimiseur et aucun biais n'est utilisé. Le NN prend le signal sous-échantillonné (1 échantillon par symbole) et entre dans l'égaliseur \(N = 10\) symboles voisins (nombre de prises) pour récupérer le central. Cette taille mémoire a été définie par la procédure BO. Le NN a été soumis à un élagage et à une quantification après avoir été formé et testé. Nous avons analysé les performances de différents modèles NN en fonction de leur niveau de parcimonie ; ce dernier variait de 20 à 90 %, avec un incrément de 10 %. Les poids et les activations sont quantifiés, convertissant leur type de données de virgule flottante simple précision 32 bits (FP32) en entier 8 bits (INT8). La quantification a été effectuée pour permettre une utilisation en temps réel du modèle ainsi que son déploiement sur du matériel à ressources limitées. Le système final est illustré à la Fig. 1. Le processus d'inférence (l'égalisation du signal) a d'abord été effectué à l'aide d'un ordinateur personnel MSI GP76 Leopard, équipé d'un processeur Intel® CoreTM i9-10870H, de 32 Go de RAM et d'un GPU Nvidia RTX2070 . Les résultats obtenus sur cet ordinateur ont servi de benchmark et ont été comparés à ceux obtenus sur deux petits ordinateurs monocartes : un Raspberry Pi 4 et un Nvidia Jetson Nano.

Enfin, les NN ont été développés à l'aide de TensorFlow. Les techniques d'élagage et de quantification ont été mises en œuvre à l'aide de TensorFlow Model Optimization Toolkit—Pruning API et de TensorFlow Lite31.

Comparaison des performances de l'égaliseur basé sur NN par rapport au DSP standard.

Lors de la conception d'un RN dans un but particulier, l'approche traditionnelle consiste à utiliser des modèles denses et sur-paramétrés, dans la mesure où elle peut souvent fournir les performances et les capacités d'apprentissage d'un bon modèle32,33. Cela est dû à l'effet de lissage de la surparamétrisation sur la fonction de perte, qui profite à la convergence des techniques de descente de gradient utilisées pour optimiser le modèle32. Cependant, certaines précautions doivent être prises lors de la formation d'un modèle sur-paramétrisé, car ces modèles ont souvent tendance à sur-ajuster et leur capacité de généralisation peut être dégradée32,34.

Les bonnes performances obtenues grâce au surparamétrage se font au prix de ressources de calcul et de mémoire plus importantes. Cela se traduit également par un temps d'inférence plus long (croissance de la latence) et une consommation d'énergie plus élevée. Notez que ces coûts sont la conséquence de la redondance des paramètres et d'un grand nombre d'opérations en virgule flottante20,23. Par conséquent, les capacités des égaliseurs basés sur NN à haute complexité ne se traduisent pas encore en applications utilisateur final sur du matériel à ressources limitées. Ainsi, réduire l'écart entre les solutions algorithmiques et les implémentations expérimentales dans le monde réel est un sujet de recherche de plus en plus actif. Au cours des dernières années, des efforts notables ont été investis dans le développement de techniques qui peuvent aider à simplifier les NN sans diminuer de manière significative leurs performances. Ces techniques sont regroupées sous le terme de "méthodes de compression NNs", et les approches les plus courantes sont : la réduction de la taille des modèles, la factorisation des opérateurs, la quantification, le partage de paramètres ou l'élagage20,23,24. Lorsque ces techniques sont appliquées, le modèle final devient généralement beaucoup moins complexe et, par conséquent, sa latence, ou le temps qu'il faut pour faire une prédiction, diminue, ce qui se traduit également par une consommation d'énergie plus faible20. Dans ce travail, nous nous concentrons à la fois sur l'élagage et la quantification pour compresser notre égaliseur NN et quantifions un compromis entre la réduction de la complexité et les performances du système, voir la section "Méthodes" pour une description détaillée des deux approches.

Tout d'abord, nous notons que la réduction de complexité de l'égaliseur ne doit pas affecter ses performances de manière drastique, c'est-à-dire que les performances du système doivent toujours être dans une plage acceptable. Sur la figure 3a, le facteur Q obtenu par l'égaliseur NN est représenté par rapport à différentes valeurs de parcimonie, pour trois niveaux de puissance de lancement : 0 dBm, bleu ; 1 dBm, rouge ; et 2 dBm, vert. Les résultats sont affichés à l'aide de lignes pointillées et d'étoiles, qui sont celles obtenues sur PC, Raspberry Pi et Nvidia Jetson Nano, en utilisant le modèle élagué et quantifié. Pour chacune de ces puissances de lancement, deux lignes de base pour le facteur Q sont représentées : l'une correspond au niveau atteint par le modèle non compressé, défini par les lignes droites, tandis que l'autre fournit la référence lorsque nous n'employons aucune égalisation NN et utilisons uniquement une compensation de dispersion chromatique linéaire standard plus une normalisation de phase/amplitude (LE, égalisation linéaire) ; les derniers niveaux pour les trois puissances de lancement différentes sont marqués par des lignes pointillées ayant les couleurs appropriées.

La figure 3b quantifie l'impact de chaque technique de compression sur les performances : dans cette figure, nous avons tracé le facteur Q obtenu par l'égaliseur NN par rapport à différentes valeurs de parcimonie, pour la puissance de lancement de 1 dBm. Les lignes droites bleues et rouges représentent le facteur Q du modèle d'origine et le facteur Q obtenu par celui-ci après avoir été quantifié. Les lignes pointillées avec des astérisques montrent les performances d'un modèle qui a été uniquement élagué (bleu) et les performances dans le cas de l'élagage et de la quantification (rouge). On voit qu'une réduction substantielle de la complexité peut être obtenue sans une dégradation dramatique des performances. Les niveaux de parcimonie auxquels se produit la détérioration rapide des performances sont également clairement visibles sur cette figure.

(a) Facteur Q obtenu pour les modèles élagués et quantifiés par rapport au niveau de parcimonie pour les ensembles de données correspondant à trois puissances de lancement : 0 dBm, 1 dBm et 2 dBm ; Les lignes pleines correspondent au facteur Q atteint par le modèle d'origine. Les lignes pointillées montrent le facteur Q lorsque seule l'égalisation linéaire (LE) est mise en œuvre. (b) Facteur Q obtenu après élagage par rapport à celui obtenu après élagage et quantification, pour différents niveaux de parcimonie et pour un ensemble de données correspondant à la puissance de lancement de 1 dBm. Les lignes pleines bleues et rouges correspondent respectivement au facteur Q obtenu par le modèle d'origine et à celui obtenu par ce modèle après quantification.

Tout d'abord, on peut observer à partir de la Fig. 3a que le processus de quantification et d'élagage ne provoque pas de dégradation significative des performances jusqu'à ce qu'un niveau de parcimonie égal à 60 % soit atteint, avec seulement une réduction de performances de \(4\%\). Cependant, lorsque nous passons à des niveaux de parcimonie autour de 90 %, les performances sont proches de celles obtenues avec une égalisation linéaire (c'est-à-dire que les courbes de facteur Q chutent aux niveaux marqués par des lignes pointillées de la même couleur).

Nous pouvons conclure que lorsque les niveaux de parcimonie sont supérieurs à 60%, la diminution des performances est principalement l'effet du processus de quantification. Une baisse de près de 2,5 % de la valeur du facteur Q a également été observée lors de la quantification d'un modèle déjà élagué. Une fois que les niveaux de parcimonie sont supérieurs à 60 %, la réduction des performances due à la quantification s'accélère. De plus, nous observons qu'un certain degré de parcimonie peut même améliorer les performances du modèle par rapport au modèle non élagué. Ce comportement a déjà été rapporté dans d'autres études et il a été constaté qu'il est spécifiquement pertinent pour les modèles sur-paramétrés. Ainsi, les NN avec des structures moins complexes ne présentent pas une telle augmentation des performances en raison d'un élagage à faible parcimonie, ce qui rend impossible l'obtention d'un si bon rapport performance-complexité32,33,35,36.

La figure 4 illustre la réduction de la taille du modèle ainsi que la complexité de calcul du modèle pour différentes valeurs de parcimonie, après avoir appliqué la quantification. Pour la définition des métriques utilisées pour calculer la complexité de calcul ainsi que la taille des modèles, voir les sous-sections "Métriques de complexité de calcul et métriques de taille mémoire" dans "Méthodes". Dans l'ensemble, nous avons obtenu une réduction de 87,12 % de la taille de la mémoire après avoir élagué 60 % des poids de l'égaliseur NN et quantifié les autres. En conséquence, la taille du modèle est passée de 201,4 à 25,9 kilo-octets. Pour la diminution de la complexité de calcul du modèle, il passe de 75 960 427,38 à 16 447 962 opérations de bits (BoPs) après application de la même stratégie de compression, soit une réduction de \(78,34\%\) (voir la définition explicite des BoPs dans la section "Méthodes" ). Nous tenons à souligner une fois de plus que des niveaux de parcimonie de \(60\%\) peuvent être atteints sans perte de performances substantielle. Par conséquent, approximativement le même haut niveau de performance peut être atteint avec un modèle nettement moins complexe que la structure NN initiale, ce qui est l'une des principales conclusions de notre travail.

Réduction de la complexité et de la taille obtenue via l'élagage et la quantification pour différents niveaux de parcimonie. La ligne noire en pointillés représente la complexité de référence lorsque seule la quantification est appliquée.

Il convient de mentionner l'impact individuel que la quantification et l'élagage ont sur la complexité de calcul du modèle. Lorsque la complexité de calcul est calculée pour un modèle quantifié, mais non élagué, le nombre de BOP est égal à 23 321 563. Par conséquent, si cette valeur est comparée aux 75 960 427 BoP déjà mentionnés pour le NN non élagué et non quantifié, une réduction de complexité de 69,3 % est obtenue grâce à la quantification. Comme on peut le voir sur la Fig. 4, le gain restant provient de la technique d'élagage, et il croît linéairement comme indiqué dans l'Eq. (5).

De nombreuses applications d'apprentissage en profondeur sont critiques pour la latence, et par conséquent, le temps d'inférence doit être dans les limites spécifiées par les objectifs de niveau de service. Les applications de communication optique qui utilisent des techniques d'apprentissage en profondeur en sont un bon exemple. Notez que la latence dépend fortement de l'implémentation du modèle NN et du matériel utilisé (par exemple, FPGA, CPU, GPU). Veuillez vous référer à la section "Méthodes" pour plus de détails sur les mesures de temps d'inférence des appareils.

Lors de la mesure du temps d'inférence pour les différents types de matériel et le modèle quantifié dont 60 % des poids ont été élagués, les résultats sont :

Latence Raspberry Pi : \(\mu = 0.81~s\) et \(\sigma = \pm 0.035\)

Nvidia Jetson Nano Latence : \(\mu=0,53~s\) et \(\sigma=\pm 0,022\)

Latence PC : \(\mu = 0,1~s\) et \(\sigma =0,006\)

Dans le cas du modèle non élagué et non quantifié :

Latence Raspberry Pi : \(\mu = 1.84~s\) et \(\sigma = \pm 0.08\)

Nvidia Jetson Nano Latence : \(\mu = 1,22~s\) et \(\sigma=\pm 0,052 s\)

Latence PC : \(\mu = 0,18~s\) et \(\sigma = \pm 0,008\)

La figure 5 montre la latence du modèle NN considéré avant et après quantification. Nous remarquons que les résultats sont exprimés d'une manière plus appropriée à la tâche à accomplir. Ainsi, la latence est définie comme le temps qu'il faut pour traiter un symbole : nous l'avons moyenné sur 30 k symboles. Avec le modèle quantifié, nous observons une réduction d'environ 56 % de la latence pour les trois valeurs de puissance, par rapport au modèle d'origine. Il faut noter que l'élagage n'est pas pris en compte car il n'affecte pas cette métrique puisque Tensorflow Lite ne prend pas encore en charge l'inférence parcimonieuse, ce qui fait que l'algorithme utilise toujours la même quantité de mémoire cache. De plus, nous avons pu observer que Raspberry Pi a le temps d'inférence le plus long parmi nos appareils. Ceci est conforme au fait que Raspberry est conçu comme un ordinateur monocarte à faible coût et à usage général37. D'autre part, le Nvidia Jetson Nano a été développé avec des capacités GPU, ce qui le rend plus adapté aux applications d'apprentissage en profondeur, ce qui nous permet d'obtenir des latences plus faibles.

Résumé du temps de traitement des symboles (inférence) pour les modèles NN compressés (après élagage et quantification) et les modèles originaux pour trois appareils en cours d'évaluation : un Raspberry Pi 4, un Nvidia Jetson Nano et un PC standard.

Dans le contexte de l'informatique de pointe, non seulement la vitesse est un facteur important, mais également l'efficacité énergétique. Dans ce travail, la métrique utilisée pour évaluer la consommation d'énergie et comparer les différents types de matériel pour la tâche d'égalisation de canal optique cohérente est l'énergie par symbole récupéré. Lorsque vous utilisez un modèle quantifié avec un niveau d'élagage de 60 %, l'énergie moyenne consommée lors de l'inférence pour le Raspberry Pi 4 et le Nvidia Jetson Nano est de 2,98 W (\(\sigma = \pm 0,012\) ) et 3,03 W (\( \sigma = \pm 0,017\)), respectivement. En revanche, si le modèle original est utilisé, on observe une augmentation de la consommation d'énergie d'environ 3 %, ce qui est conforme aux résultats des travaux antérieurs23. Ainsi, lors de l'inférence, le Raspberry Pi 4 consomme 3,06 W (\(\sigma = \pm 0,011\) ) et le Nvidia Jetson Nano 3,13 W (\(\sigma = \pm 0,015\)), respectivement. En multipliant ces valeurs par les temps de traitement NN par symbole récupéré rapportés à la Fig. 5, nous obtenons les résultats présentés à la Fig. 6. Nous remarquons que Raspberry Pi a la consommation d'énergie la plus élevée par symbole récupéré. Ceci est une conséquence de l'absence de GPU, ce qui entraîne des temps d'inférence plus longs. Ainsi, le Nvidia Jetson Nano consomme 33,78% d'énergie en moins que le Raspberry Pi 4. Concernant l'élagage et la quantification, l'utilisation de ces techniques permet une économie d'énergie de 56,98% pour le Raspberry Pi 4 et une économie de 57,76% pour le Nvidia Jetson Nano.

Il convient de noter que bien que TensorFlow Lite ne prenne pas en charge l'inférence parcimonieuse et que, par conséquent, l'élagage n'aide pas à réduire le temps d'inférence, il affecte la taille du modèle. Cela a un effet direct sur la consommation électrique de l'appareil en raison de la diminution de l'utilisation des ressources. En revanche, la quantification a un effet positif sur ces deux paramètres grâce à l'utilisation de formats de moindre précision et à la réduction de la taille du modèle. Par conséquent, il a un effet plus important sur la consommation d'énergie. Cela se reflète dans les résultats exposés dans cette section. De plus, cela concorde avec les résultats rapportés dans des études antérieures23,38.

Voir la section "Méthodes" pour plus de détails sur la mesure de la consommation d'énergie.

Consommation d'énergie pour Raspberry Pi 4 et Nvidia Jetson Nano. La section bleue représente la consommation d'énergie par symbole récupéré lors de l'utilisation du modèle compressé, et son coût énergétique relatif est exprimé en pourcentage par rapport à la somme de l'énergie consommée par les modèles d'origine et compressé. De même, la section rouge décrit la consommation d'énergie par symbole récupéré lors de l'utilisation du modèle d'origine et son coût énergétique relatif.

Dans notre travail, nous avons étudié comment nous pouvons utiliser l'élagage et la quantification pour réduire la complexité de la mise en œuvre matérielle d'un égaliseur de canal basé sur NN dans un système de transmission optique cohérent. Avec cela, nous avons testé expérimentalement la mise en œuvre de l'égaliseur conçu, en utilisant un Raspberry Pi 4 et un Nvidia Jetson Nano. Il a été démontré qu'il est possible de réduire l'utilisation de la mémoire du NN de \(87,12\%\) et la complexité de calcul du NN de \(78,34\%\) sans aucune dégradation sérieuse des performances, grâce aux deux techniques de compression susmentionnées.

De plus, l'effet de l'utilisation de différents types de matériel a été caractérisé expérimentalement en mesurant le temps d'inférence et la consommation d'énergie dans un Raspberry Pi 4 et un Nvidia Jetson Nano. Nous notons cependant que nous n'avons expérimenté qu'avec les périphériques de périphérie et que les données du système de communication ont été obtenues via des simulations ; mais nous ne nous attendons pas à ce que les résultats concernant le compromis entre performances et complexité obtenus grâce à l'élagage et à la quantification pour le véritable système optique diffèrent sérieusement. Il a été démontré que le Nvidia Jetson Nano permet des temps d'inférence 34% plus rapides que le Raspberry Pi, et que, grâce au processus de quantification, une réduction du temps d'inférence de 56% peut être obtenue. Enfin, grâce à l'utilisation de techniques d'élagage et de quantification, nous réalisons 56,98 % d'économies d'énergie pour le Raspberry Pi 4 et 57,76 % pour le Nvidia Jetson Nano ; nous avons également observé que ce dernier appareil consomme 33,78% d'énergie en moins.

Dans l'ensemble, nos résultats démontrent que l'utilisation de l'élagage et de la quantification peut être une stratégie appropriée pour la mise en œuvre d'égaliseurs basés sur NN qui sont efficaces dans les systèmes de transmission optique à haut débit lorsqu'ils sont déployés sur du matériel à ressources limitées. Nous pensons que ces techniques de compression de modèles peuvent être utilisées pour le déploiement d'égaliseurs basés sur NN dans de vrais systèmes de communication optique, et pour le développement de nouveaux outils de traitement de signal optique en ligne. Nous espérons que nos résultats pourront également intéresser les chercheurs développant des systèmes de détection et de laser, où l'application de l'apprentissage automatique pour le traitement et la caractérisation sur le terrain est un domaine de recherche en développement rapide39.

Nous avons simulé numériquement la transmission à double polarisation (DP) d'un signal monocanal à 30 GBd. Le signal est préformé avec un filtre en cosinus surélevé (RRC) avec une atténuation de 0,1 à une fréquence d'échantillonnage de 8 échantillons par symbole. De plus, le format de modulation du signal est 64-QAM. Nous avons considéré le cas d'une transmission sur 20 \(\times\) liens de 50 km de SMF. La propagation du signal optique le long de la fibre a été simulée en résolvant l'équation de Manakov via la méthode de Fourier à pas fractionnés40 avec une résolution de 1 km par pas. Les paramètres considérés de la fibre TWC sont : le paramètre d'atténuation \(\alpha = 0,23 dB/km\), le coefficient de dispersion \(D = 2,8\) ps/(nm \(\times\) km), et le coefficient de non-linéarité \(\gamma = 2,5\) (W \(\times\) km)\(^{-1}\). Les paramètres SSMF sont : \(\alpha = 0,2\) dB/km, \(D = 17\) ps/(nm \(\times\) km) et \(\gamma = 1,2\) (W \( \fois\) km)\(^{-1}\). De plus, après chaque portée, un amplificateur optique avec le facteur de bruit NF = 4,5 dB a été placé pour compenser entièrement les pertes de fibre et le bruit d'émission spontanée amplifié (ASE) ajouté. Au niveau du récepteur, un Rx-DSP standard a été utilisé. Il consistait en la compensation électronique complète de la dispersion chromatique (CDC) à l'aide d'un égaliseur dans le domaine fréquentiel, l'application d'un filtre adapté et le sous-échantillonnage au débit de symboles. Enfin, les symboles reçus ont été normalisés (en phase et en amplitude) à ceux transmis. Dans ce travail, aucune distorsion supplémentaire de l'émetteur-récepteur n'a été prise en compte. Après le Rx-DSP, le taux d'erreur sur les bits (BER) est estimé à l'aide des symboles transmis, des symboles souples reçus et des décisions fermes après égalisation.

Le NN reçoit en entrée un tenseur de forme définie par trois dimensions : (B, M, 4), où B est la taille du mini-batch, M est la taille mémoire déterminée par le nombre de voisins N comme \(M = 2N + 1\), et 4 est le nombre de caractéristiques pour chaque symbole, qui correspondent aux parties réelles et imaginaires de deux composantes de polarisation. Le NN devra récupérer les parties réelles et imaginaires du k-ième symbole de l'une des polarisations. Par conséquent, la forme du lot de sortie NN peut être exprimée sous la forme (B, 2). Cette tâche peut être traitée comme une régression ou une classification. Cet aspect a été pris en compte dans des études antérieures et a déclaré que les résultats obtenus par les algorithmes de régression et de classification sont similaires mais que moins d'époques sont nécessaires dans le cas de la régression. Ainsi, l'estimateur de perte de l'erreur quadratique moyenne (MSE) est utilisé dans cet article, car il s'agit de la fonction de perte standard utilisée dans les tâches de régression41. La fonction de perte est optimisée à l'aide de l'algorithme d'Adam42 avec un taux d'apprentissage par défaut égal à 0,001. Le nombre maximum d'époques pendant le processus d'apprentissage était de 1000, car il était arrêté plus tôt si la valeur de la fonction de perte ne changeait pas sur 150 époques. Après chaque période d'entraînement, nous avons calculé le BER obtenu à l'aide de l'ensemble de données de test. Le nombre optimal de neurones et de fonctions d'activation dans chaque couche du NN, ainsi que la mémoire (entrée) du système ont été déduits à l'aide de l'algorithme d'optimisation bayésienne (BO). Les valeurs testées pour le nombre de neurones étaient \(n \in [10, 500]\) . Pour la fonction d'activation, le BO devait choisir entre : "\(\tanh\)", "ReLu", "sigmoid" et "LeackyReLu". Les valeurs testées pour la mémoire (entrée) du système étaient \(N \in [5, 50]\) La métrique du BO était le BER, en trouvant les hyperparamètres qui ont permis de réduire au maximum le BER avec une validation jeu de données de \(2^{17}\) points de données. La solution finale était l'utilisation de "\(\tanh\)" comme fonction d'activation et de 500, 10 et 500 neurones pour les première, deuxième et troisième couches, respectivement. Les ensembles de données d'entraînement et de test étaient composés de symboles générés indépendamment de longueur \(2^{18}\) chacun. Pour éviter toute périodicité et surestimation possibles des données43,44, une séquence de bits pseudo-aléatoires (PRBS) d'ordre 32 a été utilisée pour générer ces ensembles de données avec des graines aléatoires différentes pour chacun d'eux. La périodicité des données est donc \(2^{12}\) fois supérieure à la taille de notre ensemble de données d'entraînement. Pour la simulation, le générateur de torsion de Mersenne45 a été utilisé avec différentes graines aléatoires. De plus, les données d'apprentissage ont été mélangées avant d'être utilisées comme entrée du NN.

Enfin, nous voudrions remarquer un point important car il s'agit de la nécessité du réapprentissage périodique de l'égaliseur sur une transmission réaliste. Dans ce cas, cela peut être un sujet de préoccupation. Ce problème a déjà été abordé dans des études précédentes29, où il a été démontré que l'utilisation de l'apprentissage par transfert peut réduire considérablement le temps de formation et les besoins en données de formation lorsque des modifications de la configuration de transmission se produisent.

Avec l'élagage, les éléments NN redondants peuvent être supprimés pour éparpiller le réseau sans limiter de manière significative sa capacité à effectuer une tâche requise24,32,46. Ainsi, des réseaux avec une taille et une complexité de calcul réduites sont obtenus, ce qui entraîne des exigences matérielles inférieures ainsi que des temps de prédiction plus rapides23,24. De plus, l'élagage agit comme une technique de régularisation, améliorant la qualité du modèle en aidant à réduire le surajustement32. De plus, le recyclage d'un NN déjà élagué peut aider à échapper aux minima de la fonction de perte locale, ce qui peut conduire à une meilleure précision de prédiction24. Ainsi, des modèles moins complexes peuvent souvent être réalisés sans effet notable sur les performances du NN32.

En fonction de ce qui va être élagué, les techniques de sparsification peuvent être classées en deux types : la sparsification modèle et la sparsification éphémère32. Dans le premier cas, la parcimonie est appliquée en permanence au modèle, tandis que dans le second cas, la parcimonie n'a lieu que pendant le processus de calcul. Dans notre travail, nous utiliserons la parcimonie du modèle, en raison des effets qu'elle a sur les exigences matérielles de calcul et de mémoire du NN final. De plus, la parcimonie du modèle peut consister à supprimer non seulement des poids, mais également des blocs de construction plus grands, tels que des neurones, des filtres convolutifs, etc.32. Ici, nous appliquons l'élagage aux seuls poids du réseau, par souci de simplicité et dans la mesure où il correspond à la structure NN (le MLP) considérée.

Après avoir défini ce qu'il faut tailler, il est nécessaire de définir quand la taille a lieu. Sur cette base, il existe deux principaux types d'élagage : statique et dynamique24. Dans le cas statique, les éléments sont retirés du NN après la formation, et dans ce travail, pour démontrer l'effet, nous utilisons la variante d'élagage statique en raison de sa simplicité.

La taille statique est généralement réalisée en trois étapes. Tout d'abord, nous décidons de ce qui doit être taillé. Une approche simple pour définir les objets d'élagage peut consister à évaluer les performances du NN avec et sans éléments particuliers (élagués). Cependant, cela pose des problèmes d'évolutivité : nous devons évaluer les performances lors de l'élagage des paramètres de chaque NN particulier, et il peut y en avoir des millions.

Alternativement, il est possible de sélectionner aléatoirement les éléments à supprimer, ce qui peut être fait plus rapidement32,47,48. Suivant cette dernière approche, nous avons préalablement décidé d'élaguer les pondérations. Une fois qu'il a été décidé quels éléments doivent être élagués, il est nécessaire d'établir les critères de suppression des éléments du NN, en veillant à ce que des niveaux élevés de parcimonie soient atteints sans perte significative de performances. Lors de l'élagage des poids du NN, il est possible de les supprimer en fonction de différents aspects : compte tenu de leur ampleur (c'est-à-dire que les poids ayant des valeurs proches de zéro doivent être élagués, le pourcentage d'élagage étant défini par le niveau de parcimonie que nous visons à atteindre), ou leur similarité (si deux poids ont une valeur similaire, un seul d'entre eux est conservé) ; nous mentionnons que les autres procédures de sélection existent également32,48. Ici, nous choisissons la stratégie d'élagage des poids relativement simple en fonction de leur ampleur. Dans la Fig. 7, nous montrons l'impact lorsque nous avons élagué notre égaliseur NN de 40 %. Lorsque l'on compare les distributions de poids des modèles d'origine et élagués, il est clair que le niveau de parcimonie définit le nombre de poids qui doivent être élagués. Ainsi, le processus d'élagage commence par supprimer le plus petit poids et se poursuit jusqu'à ce que le niveau de parcimonie souhaité soit atteint. Enfin, une phase de recyclage ou de mise au point doit être effectuée, afin de réduire la dégradation des performances du NN modifié24.

Lors de la réalisation d'un élagage à l'aide de l'API Tensorflow Model Optimization, il est nécessaire de définir une planification d'élagage pour contrôler ce processus en notifiant à chaque étape le niveau auquel la couche doit être élaguée49. Dans ce travail, le schéma connu sous le nom de Polynomial Decay est utilisé. La principale caractéristique de ce type d'ordonnancement est qu'une fonction de parcimonie polynomiale est construite. Dans ce cas, la puissance de la fonction est égale à 3 et l'élagage a lieu tous les 50 pas. Cela signifie qu'au cours des dernières étapes, des taux plus élevés de sparsification sont utilisés (par exemple, plus de poids sont supprimés), ce qui accélère le processus d'élagage. En revanche, si la puissance de la fonction était négative, l'élagage serait ralenti. Le modèle commence avec une parcimonie de 0 % et le processus se déroule pendant 300 époques. Cela représente environ 35 % du nombre d'itérations nécessaires pour entraîner le modèle d'origine. C'est l'objectif des travaux futurs d'optimiser les hyperparamètres du processus d'élagage, d'améliorer son efficacité et de réduire le coût lié à un nombre élevé d'itérations.

Une distribution typique des pondérations de l'égaliseur MLP basé sur NN sans élagage et avec élagage lorsque le niveau de parcimonie est défini sur 40 %.

Outre la réduction du nombre d'opérations impliquées dans le traitement du signal NN, la précision de ces opérations arithmétiques est un autre facteur crucial pour déterminer la complexité du modèle et, par conséquent, la latence d'inférence, ainsi que les besoins en mémoire et en énergie de l'égaliseur23,50,51 ,52. Le processus d'approximation d'une variable continue avec un ensemble spécifié de valeurs discrètes est appelé quantification. Le nombre de valeurs discrètes déterminera le nombre de bits nécessaires pour représenter les données. Ainsi, lors de l'application de cette technique dans le contexte de l'apprentissage en profondeur, l'objectif est de diminuer la précision numérique utilisée pour encoder les poids et les activations des modèles, en évitant une diminution notable des performances du NN20,52.

L'utilisation de formats de faible précision nous permet d'accélérer les opérations gourmandes en mathématiques, telles que la convolution et la multiplication matricielle52. D'autre part, le temps d'inférence (traitement du signal) dépend non seulement du format de représentation des chiffres impliqués dans les opérations mathématiques, mais est également affecté par le transport des données de la mémoire vers les éléments informatiques23,38. De plus, de la chaleur est générée au cours de ce dernier processus et, par conséquent, l'utilisation d'une représentation de moindre précision peut entraîner des économies d'énergie23. Enfin, un autre avantage de l'utilisation de formats de faible précision est qu'un nombre réduit de bits est nécessaire pour stocker les données, ce qui réduit l'empreinte mémoire et les exigences de taille23,52.

FP32 a été traditionnellement utilisé comme format numérique pour coder les poids et les activations (sortie des neurones) dans un NN, afin de tirer parti d'une plage dynamique plus large. Cependant, comme cela a déjà été mentionné, cela se traduit par des temps d'inférence plus élevés, ce qui est un facteur important lorsqu'un traitement du signal en temps réel est envisagé20. Une variété d'alternatives au format numérique FP32 pour la représentation des éléments de NN ont été proposées récemment, pour réduire le temps d'inférence, ainsi que pour diminuer les exigences matérielles. Par exemple, il devient de plus en plus courant de former les RN aux formats FP16, car il est pris en charge par la plupart des accélérateurs d'apprentissage en profondeur20. D'autre part, les opérations de tenseur à forte intensité mathématique exécutées sur les types INT8 peuvent voir une accélération jusqu'à 16 \ (\ fois \) par rapport aux mêmes opérations dans FP32. De plus, les opérations limitées en mémoire pourraient voir une accélération jusqu'à 4\(\times\) par rapport à la version FP3222,23,24,52. Par conséquent, en plus de l'élagage, nous réduirons la précision des poids et des activations pour diminuer davantage la complexité de calcul de l'égaliseur, en utilisant la technique connue sous le nom de quantification entière52.

La quantification entière fait correspondre une valeur à virgule flottante \(x\in [\alpha ,\,\beta ]\) à un entier binaire \(x_{q}\in [\alpha _{q},\,\beta _{ q} ]\). Cette application peut être définie mathématiquement à l'aide de la formule suivante : \(x_{q} = \mathrm {round} \left( \frac{1}{s}x + z\right)\), où s (une virgule flottante positive nombre) est connu comme l'échelle, et z est le point zéro (un entier). Le facteur d'échelle divise essentiellement une plage de valeurs réelles, dans ce cas celles comprises dans la plage de découpage \([\alpha ,\,\beta ]\), en un certain nombre de partitions. Ainsi, il peut être exprimé comme \(s = \frac{\beta - \alpha }{2^{b}-1}\) où b est la largeur de bit de quantification. D'autre part, le point zéro peut être défini comme \(z = \frac{\alpha (1 - 2^{b} )}{\beta - \alpha }\). Il sera donc de 0 dans le cas d'une quantification symétrique. De plus, le mappage précédent peut être refactorisé afin de prendre en compte que si x est en dehors de l'intervalle \([\alpha ,\,\beta ]\), alors \(x_{q}\) est en dehors de \( [\alpha _{q}, \, \beta _{q}]\). Ainsi, il est nécessaire de couper les valeurs lorsque cela se produit ; en conséquence, la formule de mappage devient : \(x_{q} = \mathrm {clip}(\mathrm {round} \left[ \frac{1}{s}x + z \right] , \alpha _{q }, \beta _{q})\), où la fonction \(\mathrm {clip}\) prend les valeurs24,53 :

La quantification entière peut prendre différentes formes, selon l'espacement entre les niveaux de quantification et la symétrie de la plage d'écrêtage (déterminée par la valeur du point zéro z)53. Par souci de simplicité, dans ce travail, nous avons utilisé la quantification entière symétrique et uniforme.

Le processus de quantification peut se produire après l'entraînement ou pendant celui-ci. Le premier cas est connu sous le nom de quantification post-formation (PTQ) et le second est la formation consciente de la quantification22,23,24. Dans PTQ, un modèle formé a son poids et ses activations quantifiés. Après cela, un petit ensemble d'étalonnage non étiqueté est utilisé pour déterminer les plages dynamiques des activations23,52,53,54. Aucun recyclage n'est nécessaire, ce qui rend cette méthode très populaire en raison de sa simplicité et de ses faibles besoins en données53,54. Néanmoins, lorsqu'un modèle entraîné est directement quantifié, cela peut perturber les paramètres entraînés, éloignant le modèle du point de convergence atteint lors de l'entraînement avec une précision en virgule flottante. En d'autres termes, nous remarquons que PTQ peut avoir des problèmes liés à la précision53.

Dans ce travail, la quantification est effectuée après la phase d'apprentissage, c'est-à-dire que nous utilisons le PTQ. Le processus d'étalonnage requis pour estimer la plage, c'est-à-dire (min, max) des activations dans le modèle, est effectué en exécutant quelques inférences avec une petite partie de l'ensemble de données de test. Dans notre cas, il s'agissait de 100 échantillons. Lors de l'utilisation de l'API Tensorflow Lite, la calibration est effectuée automatiquement, et il n'est pas possible de choisir le nombre d'inférences.

Enfin, il est important de discuter de la manière dont nous pouvons évaluer correctement la complexité de calcul de tels modèles. À cet égard, nous évaluons quantitativement la réduction de la complexité de calcul obtenue en appliquant l'élagage et la quantification, en calculant le nombre de bits utilisés lors d'une étape d'inférence. Les opérations les plus courantes dans un NN sont les opérations de multiplication et d'accumulation (MAC). Ce sont des opérations de la forme \(a = a + w \times x\), où trois termes interviennent : premièrement, x correspond au signal d'entrée du neurone ; deuxièmement, w fait référence au poids; et, enfin, la variable accumulée a55. Traditionnellement, l'arithmétique de la complexité du réseau a été mesurée en utilisant le nombre d'opérations MAC. Cependant, en termes de traitement DSP, le nombre de BoP est une mesure plus appropriée pour décrire la complexité de calcul du modèle, car pour les réseaux de faible précision composés d'opérations entières, il n'est pas possible de mesurer la complexité de calcul à l'aide de FLOPS22, 56. Ainsi, dans ce travail, nous utilisons les BoPs pour quantifier la complexité de l'égaliseur. Il est important de noter que dans le contexte de la compensation non linéaire de canal optique, la complexité des égaliseurs de canal basés sur NN a été traditionnellement mesurée en prenant en compte uniquement le nombre de multiplications12,44,57. Ainsi, la contribution de l'accumulateur a été négligée. Cependant, dans ce projet, nous visons à avoir une métrique de complexité plus générale et donc à l'inclure dans nos calculs.

La mesure BOPs a été proposée pour la première fois en 56, et définie pour une couche convolutive qui avait été quantifiée comme :

Dans l'éq. (2), \(b_{w}\) et \(b_{a}\) sont respectivement le poids et la largeur de bit d'activation ; n est le nombre de canaux d'entrée, m est le nombre de canaux de sortie et k définit la taille des filtres (par exemple \(k\fois k\) filtres)58. En tenant compte du fait qu'une opération MAC prend la forme : \(a = a + w \times x\), il est possible de distinguer deux contributions dans l'équation ci-dessus : une correspondant au \(nk^{2}\times b_ {0}\) nombre d'ajouts, où \(b_{0} = b_{a} +b_{w} + \log _{2}(nk^{2})\) (par exemple, largeur de l'accumulateur dans les opérations MAC ), et l'autre correspond au nombre de multiplications, par exemple \(nk^{2}(b_{a}b_{w})\)56.

L'équation (2) a encore été adaptée pour le cas d'une couche dense qui a été à la fois élaguée et quantifiée59. Ainsi, il s'applique à notre cas, car le MLP est constitué d'une série de couches denses disposées les unes après les autres :

Dans l'éq. (3), n et m correspondent respectivement au nombre d'entrées et de sorties ; \(b_{w}\) et \(b_{a}\) sont les largeurs de bits des poids et des activations. Le terme supplémentaire, \(f_{p_{i}}\), est la fraction des poids de couche élagués, ce qui nous permet de prendre en compte la réduction des opérations de multiplication due à l'élagage. C'est la raison pour laquelle il ne concerne que le terme \(b_{a}b_{w}\)59.

Ainsi, dans notre cas du MLP à 3 couches cachées, le nombre total de BOP est :

où \(i\in [1,2,3]\), \(\mathrm {BoPs_{input}}\) et \(\mathrm {BoPs_{output}}\) correspondent aux contributions de l'entrée et de la sortie couches. L'équation (4) peut s'écrire de manière moins compacte comme suit :

où \(n_{i}\), \(n_{1}\), \(n_{2}\), \(n_{3}\) et \(n_{o}\) sont le nombre de des neurones dans les couches d'entrée, première, deuxième, troisième et sortie, respectivement ; \(b_{w}\), \(b_{a}\), \(b_{o}\) et \(b_{i}\) sont la largeur en bits des poids, des activations, de la sortie et de l'entrée, respectivement ; \(f_{p}\) est la fraction des poids qui ont été élagués dans une couche, qui, dans notre cas, est la même pour chaque couche.

Dans ce travail, la taille du modèle est définie comme le nombre d'octets qu'il occupe en mémoire. De plus, on remarque la corrélation directe entre la valeur de cette métrique et le format utilisé pour représenter le modèle. Ainsi, contrairement aux formats traditionnels utilisés dans Tensorflow (par exemple, format de données binaires .h5 ou HDF5 et .pb ou protobuf), un modèle TensorFlow Lite est représenté dans un format portable efficace spécial identifié par l'extension de fichier .tflite. Cela offre deux avantages principaux : une taille de modèle réduite et des temps d'inférence plus faibles. Par conséquent, le déploiement du modèle NN sur un matériel à ressources limitées devient faisable. Par conséquent, il n'aurait aucun sens de comparer les modèles enregistrés au format Tensorflow traditionnel avec ceux qui ont été élagués et quantifiés ainsi que convertis en Tensorflow Lite. Nous étions conscients de cette situation lors de la réalisation de la procédure et, ainsi, pour éviter de surestimer les avantages de l'élagage et de la quantification, le modèle non élagué et non quantifié a été converti au format .tflite. Pour mieux comprendre les implications de cette étape, la taille du modèle d'origine au format .h5 subirait une réduction de taille de 96,22 % après avoir été convertie au format .tflite, quantifiée et élaguée (60 % de parcimonie). En revanche, si le modèle d'origine a déjà été converti en .tflite, la réduction de taille est de 87,12 %. Bien sûr, sur cette base, toujours utiliser le format .tflite au lieu des autres formats conventionnels semble être la meilleure stratégie. La principale raison de ne pas le faire est qu'un graphique au format .tflite ne peut plus être formé, car il ne prend en charge qu'un mode d'inférence en ligne. Néanmoins, un modèle qui est, par exemple, au format .h5, peut être entraîné hors ligne. Par conséquent, le .tflite est uniquement destiné à être utilisé dans le cadre de l'edge computing.

Dans de nombreuses applications d'apprentissage en profondeur, une faible consommation d'énergie et un temps d'inférence réduit sont particulièrement souhaitables. De plus, l'utilisation d'unités de traitement graphique (GPU) pour atteindre des performances élevées pose des problèmes liés aux coûts qui sont loin d'être finalement résolus37,60. Par conséquent, un petit matériel portable et peu coûteux est nécessaire pour apporter la solution à ce problème. En conséquence, les ordinateurs monocartes sont devenus populaires, et Raspberry Pi 4 et Nvidia Jetson Nano sont parmi les plus utilisés37. Par conséquent, nous analysons ici le fonctionnement de notre égaliseur basé sur NN en utilisant ces deux types de matériel populaires susmentionnés.

Le Raspberry Pi est un petit ordinateur monocarte. Il est équipé d'un GPU Broadcom Video Core VI (32 bits), d'un processeur Quad-core ARM CortexA72 64 bits 1,5 GHz, de 2 ports USB 2.0 et de 2 ports USB 3.0 ; pour le stockage des données, il utilise une carte MicroSD. De plus, les connexions sont assurées via un Gigabit Ethernet/WiFi 802.11ac. Il utilise un système d'exploitation connu sous le nom de Raspbian et n'a pas de capacité GPU ni d'accélérateur matériel spécialisé37,61.

Nvidia Jetson Nano est un petit ordinateur monocarte basé sur GPU qui permet le fonctionnement en parallèle de plusieurs NN. Il a une taille réduite (100 mm \(\times\) 80 mm \(\times\) 29 mm) et est équipé d'un processeur graphique Maxwell 128 cœurs, processeur Quad-core ARM A57 64 bits 1,4 GHz. Comme dans le cas du Raspberry Pi, une carte MicroSD est utilisée pour stocker les données. Enfin, les connexions sont établies via Gigabit Ethernet et le système d'exploitation utilisé est Linux4Tegra, basé sur Ubuntu 18.0437,60.

Dans ce travail, en plus de la latence et de la précision attribuées à chaque traitement de modèle, nous abordons également la question de la consommation électrique des égaliseurs NN implémentés dans le Nvidia Jetson Nano et le Raspberry Pi 4.

Il est possible de mesurer la consommation électrique du Nvidia Jetson Nano et du Raspberry Pi de différentes manières. Concernant Nvidia Jetson Nano, il y a trois capteurs intégrés situés à l'entrée d'alimentation, au GPU et au CPU. Ainsi, la précision des mesures est limitée par ces capteurs. Pour lire les enregistrements de ces capteurs, il est possible de le faire automatiquement à l'aide de l'outil tegrastats, ou manuellement en lisant des fichiers .sys, un pseudo-système de fichiers sous Linux. En utilisant les deux approches, les informations des mesures de puissance, de tension et de courant peuvent être facilement collectées62. En revanche, Raspberry Pi 4 n'a pas de système pour fournir facilement des chiffres de consommation d'énergie. Certaines méthodes basées sur des logiciels ont été développées, ainsi que certaines estimations empiriques63. Cependant, il a été démontré que la plupart des méthodes logicielles susmentionnées ne donnent qu'une approximation qui peut ne pas être utilisée si des résultats très précis sont requis63. En revanche, la deuxième stratégie empirique pour mesurer la consommation électrique sur Raspberry Pi est spécifique à ce type de matériel et ne peut pas être utilisée dans Nvidia Jetson Nano.

Pour comparer la consommation électrique de l'égaliseur sur ces deux types de matériel, il est plus précis et souhaitable d'utiliser la même méthode dans les deux, pour éviter tout biais instrumental. Dans cet article, nous avons développé une méthode indépendante de la plate-forme grâce à l'utilisation d'un multimètre numérique USB. Le système de mesure de la consommation d'énergie proposé résout le problème de ces dispositifs n'ayant pas de résistances shunt intégrées ; une telle approche nous permet de mesurer facilement la puissance avec une sonde d'énergie externe. Un schéma des montages de mesure est donné à la Fig. 8.

(a) La configuration de mesure de puissance pour Nivida Jetson Nano, et (b) - la même chose pour Raspberry Pi.

Dans le cas du Raspberry Pi, l'alimentation est fournie via un port USB de type C via un adaptateur secteur 5,1 V – 2,5 A. Pour Nvidia Jetson Nano, l'alimentation peut être fournie via un connecteur micro-USB à l'aide d'un adaptateur secteur 5,1 V – 2,5 A ou d'un bloc d'alimentation à prise cylindrique 5 V – 4 A (20 W). Il est possible de passer d'une configuration à l'autre en positionnant un cavalier et en passant du mode 5 W au mode 10 W. Pour utiliser la même source d'alimentation que dans Raspberry Pi, la configuration Micro-USB est utilisée.

L'énergie étant fournie via une connexion USB, il est possible de mesurer la puissance à l'aide d'un multimètre numérique USB. Le modèle utilisé dans ce travail est le A3-B/A3 fabriqué par Innovateking-EU. Il enregistre la tension, le courant, l'impédance et la consommation électrique. Les plages de tension et de courant d'entrée sont respectivement de 4,5 V à 24 V et de 0 A à 3 A. De plus, nous pouvons mesurer l'énergie dans une plage allant de 0 à 99 999 mWh. La résolution de mesure de tension et de courant est de 0,01 V et 0,001 A, avec des précisions de mesure de ± 0,2 % et ± 0,8 %, respectivement.

Le multimètre numérique USB A3-B/A3 est livré avec le logiciel nommé UM24C PC Software V1.3, qui permet d'envoyer les données mesurées à un ordinateur en temps réel, comme le montrent les Fig. 8a,b . Pendant le processus de mesure, aucun périphérique n'est connecté au Raspberry Pi ou au Nvidia Jetson Nano, à l'exception du port Ethernet. Ceci est utilisé pour la communication via SSH, Fig. 8. De plus, 25 mesures ont été prises pour chaque appareil. Dans chacun d'eux, 100 inférences ont été exécutées, et la consommation d'énergie a été moyennée sur celles-ci, sans tenir compte de la puissance consommée pendant la phase d'initialisation.

Pour évaluer le temps d'inférence pour chaque modèle, aucun périphérique n'est connecté ni au Raspberry Pi ni au Nvidia Jetson Nano, à l'exception du port Ethernet, qui sert à établir la communication via le protocole Secure Shell. De plus, tout temps d'initialisation (par exemple, le chargement de la bibliothèque, la génération de données et le chargement du poids du modèle) est ignoré car il s'agit d'un coût unique qui se produit lors de la configuration de l'appareil. De plus, 25 mesures ont été prises pour chaque appareil. Dans chacun d'eux, 100 inférences ont été exécutées (dans chaque inférence 30 k symboles sont récupérés) et le temps d'inférence a été moyenné, sans tenir compte de la phase d'initialisation.

Les données sous-jacentes aux résultats présentés dans cet article ne sont pas accessibles au public pour le moment, mais peuvent être obtenues auprès des auteurs sur demande.

Winzer, PJ, Neilson, DT & Chraplyvy, AR Transmission et mise en réseau par fibre optique : Les 20 dernières et les 20 prochaines années. Opter. Express 26, 24190–24239. https://doi.org/10.1364/OE.26.024190 (2018).

Article ADS CAS PubMed Google Scholar

Cartledge, JC, Guiomar, FP, Kschischang, FR, Liga, G. & Yankov, MP Traitement numérique du signal pour les non-linéarités des fibres. Opter. Express 25, 1916–1936. https://doi.org/10.1364/OE.25.001916 (2017).

Article ADS PubMed Google Scholar

Rafique, D. Compensation de non-linéarité des fibres : applications commerciales et analyse de la complexité. J. Lightw. Technol. 34, 544–553. https://doi.org/10.1109/JLT.2015.2461512 (2016).

Annonces d'article Google Scholar

Dar, R. & Winzer, PJ Atténuation des interférences non linéaires : méthodes et gain potentiel. J. Lightw. Technol. 35, 903–930. https://doi.org/10.1109/JLT.2016.2646752 (2017).

Article CAS Google Scholar

Musumeci, F. et al. Un aperçu de l'application des techniques d'apprentissage automatique dans les réseaux optiques. IEEE commun. Surv. Tuteur. 21, 1383–1408. https://doi.org/10.1109/COMST.2018.2880039 (2019).

Article Google Scholar

Nevin, JW et al. Apprentissage automatique pour les systèmes de communication par fibre optique : introduction et aperçu. APL Photon.https://doi.org/10.1063/5.0070838 (2021).

Article Google Scholar

Jarajreh, MA et al. Égaliseur non linéaire de réseau de neurones artificiels pour ofdm optique cohérent. IEEE Photon. Technol. Lett. 27, 387–390. https://doi.org/10.1109/LPT.2014.2375960 (2015).

Annonces d'article Google Scholar

Häger, C. & Pfister, HD Atténuation des interférences non linéaires via des réseaux de neurones profonds. En 2018 Conférence et exposition sur les communications par fibre optique (OFC), 1–3 (IEEE) (2018).

Zhang, S. et al. Démonstration expérimentale sur le terrain et en laboratoire de la compensation de dégradation non linéaire à l'aide de réseaux de neurones. Nat. Commun. 10, 3033. https://doi.org/10.1038/s41467-019-10911-9 (2019).

Article ADS CAS PubMed PubMed Central Google Scholar

Freire, PJ et al. Étude des performances par rapport à la complexité des égaliseurs de réseaux de neurones dans les systèmes optiques cohérents. J. Lightw. Technol. 39, 6085–6096. https://doi.org/10.1109/JLT.2021.3096286 (2021).

Annonces d'article Google Scholar

Deligiannidis, S., Bogris, A., Mesaritakis, C. & Kopsinis, Y. Compensation des non-linéarités des fibres dans les systèmes cohérents numériques exploitant les réseaux de neurones à mémoire à court terme. J. Lightw. Technol. 38, 5991–5999. https://doi.org/10.1109/JLT.2020.3007919 (2020).

Annonces d'article Google Scholar

Deligiannidis, S., Mesaritakis, C. & Bogris, A. Analyse des performances et de la complexité des modèles de réseaux de neurones récurrents bidirectionnels par rapport aux égaliseurs non linéaires volterra dans les systèmes cohérents numériques. J. Lightw. Technol. 39, 5791–5798. https://doi.org/10.1109/JLT.2021.3092415 (2021).

Annonces d'article Google Scholar

Freire, PJ et al. Étude expérimentale des performances des égaliseurs de réseaux de neurones profonds dans les liaisons optiques. En 2021 Conférence et exposition sur les communications par fibre optique (OFC), 1–3 (2021).

Sidelnikov, O., Redyuk, A. & Sygletos, S. Performance d'égalisation et analyse de la complexité des réseaux de neurones profonds dynamiques dans les systèmes de transmission longue distance. Opter. Express 26, 32765–32776. https://doi.org/10.1364/OE.26.032765 (2018).

Article ADS PubMed Google Scholar

Sidelnikov, OS, Redyuk, AA, Sygletos, S. & Fedoruk, MP Méthodes de compensation des effets non linéaires dans les systèmes de transfert de données multicanaux basés sur des réseaux de neurones dynamiques. Électron quantique. 49, 1154. https://doi.org/10.1070/QEL17158 (2019).

Annonces d'article Google Scholar

Barry, JR, Lee, EA et Messerschmitt, DG Communication numérique 3e éd. (Springer, ***, 2004).

Réserver Google Scholar

Ming, H. et al. Réseau de mémoire à long terme à très faible complexité pour l'atténuation de la non-linéarité des fibres dans les systèmes de communication optique cohérents. arXiv:2108.10212 (préimpression arXiv) (2021).

Kaneda, N. et al. Implémentation Fpga d'égaliseurs basés sur un réseau de neurones profonds pour le pon à grande vitesse. Dans la conférence sur la communication par fibre optique (OFC) 2020, T4D.2. https://doi.org/10.1364/OFC.2020.T4D.2 (Optical Society of America, 2020) (2020).

Blalock, D., Ortiz, JJG, Frankle, J. & Guttag, J. Quel est l'état de l'élagage du réseau neuronal ? (2020). arXiv:2003.03033.

Han, S., Mao, H. & Dally, WJ Compression profonde : compression des réseaux de neurones profonds avec élagage, quantification entraînée et codage huffman (2016). arXiv:1510.00149.

Srinivas, S., Subramanya, A. & Babu, RV Entraînement des réseaux de neurones clairsemés. Conférence IEEE 2017 sur les ateliers de vision par ordinateur et de reconnaissance de formes (CVPRW) 455–462 (2017).

Hawks, B. et al. Ps et qs : élagage sensible à la quantification pour une inférence de réseau neuronal efficace à faible latence. Devant. Artif. Intell.https://doi.org/10.3389/frai.2021.676564 (2021).

Article PubMed PubMed Central Google Scholar

Sze, V., Chen, Y.-H., Yang, T.-J. & Emer, JS Traitement efficace des réseaux de neurones profonds : tutoriel et enquête. Proc. IEEE 105, 2295–2329. https://doi.org/10.1109/JPROC.2017.2761740 (2017).

Article Google Scholar

Liang, T., Glossner, J., Wang, L., Shi, S. et Zhang, X. Élagage et quantification pour l'accélération des réseaux de neurones profonds : une enquête. Neuroinformatique 2101, 09671 (2021).

Google Scholar

Fujisawa, S. et al. Techniques d'élagage de poids vers la mise en œuvre photonique de la compensation de dégradation non linéaire à l'aide de réseaux de neurones. J. Lightw. Technol.https://doi.org/10.1109/JLT.2021.3117609 (2021).

Article Google Scholar

Li, M., Zhang, W., Chen, Q. & He, Z. Déploiement matériel à haut débit d'une égalisation non linéaire basée sur un réseau neuronal élagué pour une interconnexion optique à courte portée de 100 Gbit/s. Opter. Lett. 46, 4980–4983 (2021).

Annonces d'article Google Scholar

Oliari, V. et al. Revisiter la compensation efficace de la non-linéarité en plusieurs étapes avec l'apprentissage automatique : une démonstration expérimentale. J. Lightw. Technol. 38, 3114–3124 (2020).

Article ADS CAS Google Scholar

Koike-Akino, T., Wang, Y., Kojima, K., Parsons, K. & Yoshida, T. Égalisation dnn clairsemée à multiplicateur zéro pour les systèmes qam à fibre optique avec mise en forme d'amplitude probabiliste. En 2021 Conférence européenne sur les communications optiques (ECOC), 1–4 (IEEE) (2021).

Freire, PJ et al. Apprentissage par transfert pour les égaliseurs basés sur des réseaux de neurones dans des systèmes optiques cohérents. J. Lightw. Technol. 39, 6733–6745. https://doi.org/10.1109/JLT.2021.3108006 (2021).

Annonces d'article Google Scholar

Pelikan, M., Goldberg, DE, Cantú-Paz, E. et al. Boa : L'algorithme d'optimisation bayésien. Dans Actes de la conférence sur le calcul génétique et évolutif GECCO-99, vol. 1, 525-532 (Citeseer) (1999).

Abadi, M. et al. TensorFlow : Apprentissage automatique à grande échelle sur des systèmes hétérogènes (2015). Logiciel disponible sur tensorflow.org.

Hoefler, T., Alistarh, D., Ben-Nun, T., Dryden, N. & Peste, A. Apprentissage par transfert pour les égaliseurs basés sur des réseaux de neurones dans des systèmes optiques cohérents. J.Mach. Apprendre. Rés. 2102, 00554 (2021).

Google Scholar

Allen-Zhu, Z., Li, Y. & Song, Z. Une théorie de la convergence pour l'apprentissage en profondeur via la sur-paramétrisation. Dans Conférence internationale sur l'apprentissage automatique, 242-252 (PMLR) (2019).

Neill, JO Un aperçu de la compression des réseaux neuronaux. arXiv:2006.03669 (2020).

Neyshabur, B., Li, Z., Bhojanapalli, S., LeCun, Y. & Srebro, N. Vers une compréhension du rôle de la surparamétrisation dans la généralisation des réseaux de neurones. arXiv : 1805.12076 (préimpression arXiv) (2018).

Zhu, M. & Gupta, S. Élaguer ou ne pas élaguer : Explorer l'efficacité de l'élagage pour la compression du modèle. arXiv : 1710.01878 (préimpression arXiv) (2017).

Hadidi, R. et al. Caractériser le déploiement des réseaux de neurones profonds sur les appareils périphériques commerciaux. En 2019 IEEE International Symposium on Workload Characterization (IISWC), 35–48 (IEEE) (2019).

Yang, T.-J., Chen, Y.-H., Emer, J. & Sze, V. Une méthode pour estimer la consommation d'énergie des réseaux de neurones profonds. En 2017, 51e conférence Asilomar sur les signaux, les systèmes et les ordinateurs, 1916–1920 (IEEE) (2017).

Narhi, M. et al. Analyse par apprentissage automatique des événements extrêmes dans l'instabilité de la modulation de la fibre optique. Nat. Commun. 9, 4923. https://doi.org/10.1038/s41467-018-07355-y (2018).

Article ADS CAS PubMed PubMed Central Google Scholar

Agrawal, G. Chapitre 2—propagation des impulsions dans les fibres. Dans Nonlinear Fiber Optics (cinquième édition), Optics and Photonics (ed. Agrawal, G.) 27–56 (Academic Press, Bost***on, 2013). https://doi.org/10.1016/B978-0-12-397023-7.00002-4.

Chapitre Google Scholar

Freire, PJ, Prilepsky, JE, Osadchuk, Y., Turitsyn, SK & Aref, V. Réseaux de neurones basés sur la post-égalisation dans les systèmes optiques cohérents : régression par rapport à la classification. arXiv:2109.13843 (préimpression arXiv) (2021).

Kingma, DP & Ba, J. Adam : Une méthode d'optimisation stochastique. arXiv:1412.6980 (préimpression arXiv) (2014).

Eriksson, TA, Bülow, H. & Leven, A. Application des réseaux de neurones dans les systèmes de communication optique : pièges possibles. IEEE Photon. Technol. Lett. 29, 2091-2094 (2017).

Annonces d'article Google Scholar

Freire, PJ et al. Égaliseurs basés sur des réseaux de neurones pour une transmission optique cohérente : mises en garde et pièges. arXiv:2109.14942 (préimpression arXiv) (2021).

Matsumoto, M. & Nishimura, T. Mersenne twister : Un générateur de nombres pseudo-aléatoires uniformes équidistribués à 623 dimensions. ACM Trans. Modèle. Calcul. Simul. 8, 3–30 (1998).

Article Google Scholar

Dong, X. & Zhou, L. Comprendre les réseaux profonds sur-paramétrés par géométrisation. arXiv:1902.03793 (2019).

Bondarenko, A., Borisov, A. & Alekseeva, L. Neurones vs élagage des poids dans les réseaux de neurones artificiels. Dans ENVIRONNEMENT. LES TECHNOLOGIES. RESSOURCES. Actes de la Conférence scientifique et pratique internationale, vol. 3, 22–28 (2015).

Hu, H., Peng, R., Tai, Y. & Tang, C. Ajustement du réseau : une approche d'élagage des neurones basée sur les données vers des architectures profondes efficaces. arXiv:1607.03250CoRR (2016).

Bartoldson, B., Morcos, A., Barbu, A. & Erlebacher, G. Le compromis généralisation-stabilité dans l'élagage du réseau neuronal. Adv. Neural. Inf. Processus. Syst. 33, 20852–20864 (2020).

Google Scholar

Choukroun, Y., Kravchik, E., Yang, F. & Kisilev, P. Quantification à faible bit des réseaux de neurones pour une inférence efficace. arXiv:1902.06822 (2019).

Yang, J. et al. Réseaux de quantification. arXiv:1911.09464 (2019).

Wu, H., Judd, P., Zhang, X., Isaev, M. & Micikevicius, P. Quantification d'entiers pour l'inférence d'apprentissage en profondeur : principes et évaluation empirique. arXiv:2004.09602 (préimpression arXiv) (2020).

Gholami, A. et al. Une enquête sur les méthodes de quantification pour une inférence de réseau neuronal efficace. arXiv:2103.13630 (préimpression arXiv) (2021).

Hubara, I., Nahshan, Y., Hanani, Y., Banner, R. et Soudry, D. Quantification post-formation précise avec de petits ensembles d'étalonnage. Dans Conférence internationale sur l'apprentissage automatique, 4466–4475 (PMLR) (2021).

de Lima, TF et al. Apprentissage automatique avec la photonique neuromorphique. J. Lightw. Technol. 37, 1515-1534 (2019).

Annonces d'article Google Scholar

Baskin, C. et al. Uniq : injection de bruit uniforme pour la quantification non uniforme des réseaux de neurones. ACM Trans. Calcul. Syst.https://doi.org/10.1145/3444943 (2021).

Article Google Scholar

Freire, PJ et al. Conception de réseaux neuronaux à valeur complexe pour l'atténuation des distorsions de signal dans les liaisons optiques. J. Lightw. Technol. 39, 1696–1705. https://doi.org/10.1109/JLT.2020.3042414 (2021).

Annonces d'article Google Scholar

Albawi, S., Mohammed, TA & Al-Zawi, S. Compréhension d'un réseau neuronal convolutif. En 2017 Conférence internationale sur l'ingénierie et la technologie (ICET), 1–6 (Ieee) (2017).

Tran, N. et al. Ps et qs : élagage sensible à la quantification pour une inférence de réseau neuronal efficace à faible latence. Devant. Artif. Renseignement. 4, 94 (2021).

Article Google Scholar

Valladares, S., Toscano, M., Tufiño, R., Morillo, P. & Vallejo-Huanga, D. Évaluation des performances du nvidia jetson nano via une application d'apprentissage automatique en temps réel. Dans Conférence internationale sur l'intégration des systèmes humains intelligents, 343–349 (Springer) (2021).

Tang, R., Wang, W., Tu, Z. & Lin, J. Une analyse expérimentale de la consommation d'énergie des réseaux de neurones convolutionnels pour la détection de mots clés. En 2018 Conférence internationale IEEE sur l'acoustique, la parole et le traitement du signal (ICASSP), 5479–5483 (IEEE) (2018).

Holly, S., Wendt, A. & Lechner, M. Profilage de la consommation d'énergie des réseaux de neurones profonds sur nvidia jetson nano. En 2020, 11e ateliers internationaux sur l'informatique verte et durable (IGSC), 1–6 (IEEE) (2020).

Kaup, F., Gottschling, P. & Hausheer, D. Powerpi : Mesure et modélisation de la consommation électrique du Raspberry Pi. Dans la 39e conférence annuelle de l'IEEE sur les réseaux informatiques locaux, 236–243 (IEEE) (2014).

Télécharger les références

SKT et MKK sont partiellement soutenus par le programme EPSRC Grant TRANSNET, EP/R035342/1. PJF et DAR reconnaissent le soutien des projets EU Horizon 2020 Marie Skodowska-Curie Action n° 813144 (REAL-NET) et 860360 (POST-DIGITAL), respectivement. JEP et SKT reconnaissent le soutien du projet Leverhulme Trust RPG-2018-063.

Aston Institute of Photonic Technologies, Aston University, Birmingham, B4 7ET, Royaume-Uni

Diego Arguello Ron, Peter J. Freire, Jaroslaw E. Prilepsky, Morteza Kamalian-Kopae et Sergei K. Turitsyn

Infinera, St. Martin's Str. 76 , 81541 , Munich , Allemagne

Peter J. Freire et Anthony Napoli

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

DAR, PJF et JEP ont conçu l'étude. DAR et PJF ont proposé le modèle de réseau neuronal. DAR a réalisé les simulations numériques, conçu le montage expérimental et obtenu les résultats expérimentaux. PJF a généré les données et effectué l'optimisation de l'architecture. DAR et PJF ont conçu les figures et les tableaux. DAR, PJF et JEP ont rédigé le manuscrit, avec l'aide de MKK et SKT. Tous les auteurs ont révisé le manuscrit. Les travaux de DAR ont été supervisés par MKK et SKT Les travaux de PJF ont été supervisés par JEP, AN et SKT

Correspondance à Diego Arguello Ron ou Sergei K. Turitsyn.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Ron, DA, Freire, PJ, Prilepsky, JE et al. Implémentation expérimentale d'un égaliseur de canal optique de réseau neuronal dans un matériel restreint utilisant l'élagage et la quantification. Sci Rep 12, 8713 (2022). https://doi.org/10.1038/s41598-022-12563-0

Télécharger la citation

Reçu : 06 janvier 2022

Accepté : 03 mai 2022

Publié: 24 mai 2022

DOI : https://doi.org/10.1038/s41598-022-12563-0

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER