Apprendre le langage protéique du protéome
Communications Biology volume 6, Article number: 73 (2023) Citer cet article
5883 Accès
10 Altmétrique
Détails des métriques
Les interactions protéine-protéine (IPP) régissent les voies et processus cellulaires, en influençant de manière significative l'expression fonctionnelle des protéines. Par conséquent, l'identification précise des sites de liaison d'interaction protéine-protéine est devenue une étape clé dans l'analyse fonctionnelle des protéines. Cependant, comme la plupart des méthodes de calcul sont conçues sur la base de caractéristiques biologiques, il n'existe pas de modèles de langage protéique disponibles pour coder directement les séquences d'acides aminés dans des représentations vectorielles distribuées afin de modéliser leurs caractéristiques pour les événements de liaison protéine-protéine. De plus, le nombre de sites d'interaction protéique détectés expérimentalement est beaucoup plus petit que celui des interactions protéine-protéine ou des sites protéiques dans les complexes protéiques, ce qui entraîne des ensembles de données déséquilibrés qui laissent place à l'amélioration de leurs performances. Pour résoudre ces problèmes, nous développons une méthode d'identification de site d'interaction protéine-protéine (PPI) basée sur un modèle d'apprentissage profond d'ensemble (EDLM) (EDLMPPI). Les résultats de l'évaluation montrent que l'EDLMPPI surpasse les techniques de pointe, y compris plusieurs modèles de prédiction de site PPI sur trois ensembles de données de référence largement utilisés, notamment Dset_448, Dset_72 et Dset_164, qui ont démontré que l'EDLMPPI est supérieur à ces modèles de prédiction de site PPI de près de 10 % en termes de précision moyenne. De plus, les analyses biologiques et interprétables fournissent de nouvelles informations sur les mécanismes d'identification et de caractérisation des sites de liaison des protéines à partir de différentes perspectives. Le serveur Web EDLMPPI est disponible à l'adresse http://www.edlmppi.top:5002/.
Les interactions protéine-protéine (IPP) jouent un rôle essentiel dans tous les processus cellulaires majeurs qui aident à élucider la fonction des protéines, mais aussi à interpréter la majeure partie de la biologie des cellules. En particulier, les protéines clés de ces interactions protéiques peuvent servir de base au développement de médicaments thérapeutiques ciblés dans les maladies associées, informant également sur la base moléculaire sous-jacente des maladies1. Bien qu'il existe de nombreuses bases de données telles que BioLip2 et PDB3 disponibles pour interroger les sites d'interaction protéine-protéine, elles semblent écrasantes en raison du nombre croissant de protéines désormais connues de l'homme4. De même, les expériences biologiques pour la détection des sites de liaison, telles que l'analyse à deux hybrides et les systèmes d'affinité, sont très longues et coûteuses5. Pour combler cette lacune, de nombreuses méthodes de calcul ont été développées pour traiter les interactions protéiques et les sites associés. Ces dernières années, de nombreux modèles d'identification de sites d'interaction de protéines basés sur l'apprentissage profond ont été proposés en incorporant les puissantes capacités d'extraction de caractéristiques de l'apprentissage profond, ce qui a entraîné un saut qualitatif dans les performances de prédiction par rapport à l'apprentissage automatique traditionnel. Par exemple, Zeng et al.6 ont utilisé TextCNN comme extracteur de caractéristiques pour apprendre des caractéristiques à l'aide de noyaux convolutionnels de différentes tailles, ce qui peut améliorer les performances de prédiction. Xie et al.7 ont adopté un CNN simple pour apprendre les caractéristiques locales entre les résidus. Yang et al.8 ont présenté un réseau neuronal profond avec partage de poids local pour prédire les sites d'interaction des acides aminés. Sun et al.9 ont développé une architecture d'apprentissage en profondeur basée sur des réseaux de neurones résiduels pour prédire les acides aminés en interaction dans les protéines transmembranaires. Zhang et al.10 ont utilisé un LSTM simplifié pour prédire le PPI, dans le but d'apprendre les informations contextuelles des caractéristiques en utilisant la capacité de LSTM à saisir le contexte global. Li et al.11 ont intégré des informations contextuelles locales et des dépendances à longue portée en incorporant CNN et RNN, ce qui améliore les performances du modèle. Malheureusement, la plupart de ces méthodes de calcul sont très instables et mal généralisées, en particulier pour ces ensembles de données de référence très déséquilibrés, ce qui implique une certaine marge d'amélioration.
D'autre part, une pléthore de méthodes de codage de séquences protéiques a été proposée pour modéliser des séquences protéiques dans une matrice de caractéristiques. Le codage à chaud des sites d'interaction protéique est une méthode très efficace qui a été utilisée dans de nombreuses approches informatiques10,12. Cependant, ils ne peuvent pas exprimer avec précision les différences fonctionnelles entre les acides aminés. La matrice de notation spécifique à la position (PSSM) est fréquemment utilisée pour les tâches de prédiction au niveau des séquences et des résidus afin de caractériser la relation entre les séquences et les fonctions4,6,10,11,13, ce qui prend relativement du temps en raison du fait que le PSSM nécessite l'alignement des séquences de grandes bases de données. Récemment, le développement de modèles d'incorporation de mots dans le traitement du langage naturel a fourni la possibilité d'aborder le codage des protéines. Certains modèles d'intégration de mots tels que Word2Vec14, Doc2Vec15, fastText16 et GloVe17 ont été largement adoptés dans le domaine de la bioinformatique ; par exemple, Zeng et al.6 ont codé des acides aminés à l'aide d'un modèle d'incorporation de mots statiques basé sur ProtVec18, ce qui améliore la précision de la prédiction des IPP. L'iCircRBP-DHN proposé par Yang et al.19 améliore la précision d'identification des sites d'interaction circRNA-RBP par Doc2Vec15. Min et al.20 ont effectué une prédiction de l'accessibilité de la chromatine en utilisant GloVe17 comme méthode d'intégration pour les séquences de gènes. Hamid21 a utilisé Word2Vec22 pour représenter des séquences protéiques permettant de différencier les bactériocines. Malheureusement, ces incorporations de vecteurs de mots statiques ne capturent pas bien l'association entre les séquences et les structures et négligent les connexions potentielles entre les contextes de séquence. Pour remédier à ces limitations, les incorporations dynamiques de mots, telles que représentées par le modèle BERT (Bidirectional Encoder Representations from Transformers) ont démontré de très bonnes performances en analyse sémantique, capables d'apprendre le contexte de séquence de séquences protéiques en pré-formant des corpus non étiquetés à grande échelle dans un manière bidirectionnelle23,24,25.
Dans notre étude, nous proposons une méthode d'identification du site d'interaction protéine-protéine basée sur le modèle d'apprentissage en profondeur d'ensemble (EDLMPPI), comme illustré à la Fig. 1. Nous suggérons d'adopter ProtT5 basé sur l'architecture du transformateur comme extracteur de caractéristiques d'acides aminés, association contextuelle globale de chaque acide aminé, puis nous incorporons onze descripteurs de caractéristiques supplémentaires pour enrichir davantage la représentation des caractéristiques. Dans EDLMPPI, l'architecture d'apprentissage en profondeur est composée de BiLSTM26 et d'un réseau de capsules27, où BiLSTM peut apprendre les caractéristiques dans les sens avant et arrière des séquences de protéines de manière complète, et le réseau de capsules peut découvrir davantage les corrélations entre les caractéristiques. Pour faire face à l'impact des ensembles de données déséquilibrés, nous formons plusieurs modèles d'apprentissage en profondeur pour former un ensemble d'apprentissage en profondeur, puis effectuons des prédictions. Pour étudier l'efficacité de notre proposition d'EDLMPPI, nous avons mené des expériences sur le mécanisme de réseau et les parties d'extraction de caractéristiques. Toutes les expériences étaient basées sur les ensembles d'entraînement et de test décrits dans la section "Méthodes". L'ensemble de validation a été choisi au hasard comme 20 % de l'ensemble d'apprentissage, et nous avons également utilisé un échantillonnage aléatoire stratifié pour diviser l'ensemble de validation afin d'assurer la cohérence de la distribution des ensembles d'apprentissage et de validation. Pour valider l'efficacité de l'EDLMPPI, nous le comparons à dix modèles d'apprentissage automatique et modèles d'apprentissage en profondeur différents sur les ensembles de données de référence. En outre, nous comparons également EDLMPPI avec d'autres modèles de prédiction de site PPI et avons démontré qu'EDLMPPI est en tête par une large marge, ce qui valide l'efficacité de l'extraction de fonctionnalités et de l'architecture réseau d'EDLMPPI. Pour explorer la signification biologique de l'EDLMPPI, nous extrayons les domaines structuraux des séquences protéiques. Par rapport à d'autres méthodes, les sites d'interaction prédits par EDLMPPI ont montré une corrélation plus élevée avec les sites natifs dans le domaine structurel. De plus, nous avons mené une analyse interprétable pour démontrer le processus interne de représentation des caractéristiques d'EDLMPPI. Nous avons créé un serveur Web pour la prédiction EDLMPPI à l'adresse http://www.edlmppi.top:5002/.
D'une part, cette conception peut capturer la corrélation entre les caractéristiques dans les deux sens et prend pleinement en compte les informations contextuelles. D'autre part, la capsule peut conserver autant que possible les informations clés tout en réduisant la dimensionnalité des fonctionnalités, en évitant les fuites d'informations et en améliorant l'efficacité de l'algorithme.
Dans notre étude, nous avons adopté une stratégie multicanal pour former des caractéristiques combinées avec MBF (Multi-source Biological Features, y compris les informations évolutives, les propriétés physiques et les propriétés physicochimiques des résidus protéiques) et ProtT5 comme entrées du modèle, respectivement. Ensuite, les deux ensembles de vecteurs ont été concaténés et normalisés avant la couche de classification softmax. Dans MBF, le mécanisme de fenêtre glissante a été utilisé pour coder les informations contextuelles locales pour chaque résidu, ce qui peut efficacement empêcher le surajustement et améliorer la généralisation du modèle. De plus, pour une taille de fenêtre de n (n est un nombre impair), l'acide aminé le plus au milieu est l'acide aminé cible à prédire, et le pas glissant est de 1. Par conséquent, nous avons d'abord mené une expérience pour trouver la fenêtre optimale size dans MBF en évaluant les performances du modèle MBF avec différentes tailles de fenêtre de l'ensemble {5, 11, 15, 21, 25, 33}. Les résultats expérimentaux de différentes tailles de fenêtre sont résumés à la Fig. 2a avec Dset_448 comme exemple. Il est clair que le modèle a atteint les meilleures performances mesurées par plusieurs mesures clés, notamment AP, AUROC et MCC pour une taille de fenêtre de 25. Cependant, les performances globales de l'algorithme ont diminué avec une taille de fenêtre de 31, ce qui indique que des fenêtres plus grandes ne sont pas toujours meilleurs. Par conséquent, dans notre étude, nous choisissons une taille de fenêtre de 25 comme taille finale.
un Radar des indicateurs d'évaluation correspondant aux différentes tailles de fenêtres. b Affichage de la comparaison des performances de ProtT5, MBF et des fonctionnalités combinées sur le classificateur, où les "valeurs moyennes des métriques d'évaluation" font référence à la moyenne des huit métriques d'évaluation (y compris TPR, TNR, Pre, ACC, F1, MCC, AUROC, et AP) pour les différents descripteurs de caractéristiques sur ces trois ensembles de données. c Démonstration de la comparaison des performances entre l'architecture EDLMPPI et 10 modèles d'apprentissage automatique traditionnels et modèles d'apprentissage en profondeur : l'EDLMPPI est particulièrement performant dans les métriques clés. d Comparaison des performances entre différentes méthodes de résolution des ensembles de données sur les déséquilibres, où les « valeurs moyennes des mesures d'évaluation » font référence à la moyenne des huit mesures d'évaluation (y compris TPR, TNR, Pre, ACC, F1, MCC, AUROC et AP) pour les différentes algorithmes sur ces trois jeux de données.
De plus, pour étudier plus avant la supériorité de notre descripteur de fonctionnalités proposé, nous avons comparé les fonctionnalités combinées dans EDLMPPI avec un seul descripteur de fonctionnalités comprenant respectivement MBF et ProtT5. Les résultats expérimentaux sont présentés dans le tableau 1 et la figure 2b. On peut observer que la combinaison des caractéristiques de MBF et de ProtT5 a largement surpassé les descripteurs de caractéristiques individuels sur les trois ensembles de données. En effet, pour la métrique d'évaluation AP, fréquemment utilisée pour évaluer des données déséquilibrées, les caractéristiques combinées ont dépassé MBF sur les trois ensembles de données, respectivement, et ont surpassé ProtT5 de 1,8 %, 3 % et 2,9 %, respectivement, révélant que les caractéristiques combinées ont enrichi le l'expression des protéines et amélioré les performances du modèle. De plus, en comparant Prot5 et MBF, il peut également être révélé que les valeurs AP de Prot5 fonctionnent mieux que sur ces trois ensembles de données et surpassent MBF de 10,7 %, 11,2 % et 8,6 %, respectivement pour AUROC, dévoilant l'efficacité du mot dynamique. intégration dans la prédiction du site de liaison protéine-protéine. La raison peut être que ProtT5 a mieux capturé la différence entre les acides aminés (sites de liaison et sites non liants) à partir de nos données d'entraînement étiquetées, tandis que MBF avait du mal à distinguer la spécificité des acides aminés en fonction des informations évolutives et d'autres fonctions biologiques.
Ces dernières années, les modèles de langage basés sur l'architecture Transformer ont été largement utilisés dans les problèmes de prédiction de protéines. Le transformateur basé sur l'auto-attention peut calculer directement l'association deux par deux entre les résidus et capturer l'interdépendance entre les acides aminés à différentes positions. En plus de ProtT5, plusieurs modèles alternatifs de pré-formation de protéines, dont ESM-1b28 et ProGen229, ont été proposés pour caractériser les séquences protéiques. ESM-1b utilise une architecture basée sur RoBERTa avec la base de données Uniref50 2018_03 comme corpus d'entraînement non supervisé tout en utilisant la normalisation de la couche de pré-activation pour optimiser les hyperparamètres dans le traducteur. ProGen2 a été mis à l'échelle à 6,4 milliards de paramètres et formé sur différents ensembles de données de séquences avec plus d'un milliard de protéines provenant de bases de données de répertoires génomiques, métagénomiques et immunitaires. Pour une comparaison équitable, nous avons remplacé la représentation intégrée apprise par ProtT5 par la représentation intégrée apprise par ESM-1b et ProGen2. Les résultats expérimentaux sont résumés dans le tableau 2. Comme illustré dans ce tableau, nous observons que ProtT5 est supérieur à ESM-1b et ProGen2 dans AP et AUROC, démontrant que le ProtT5 est plus adapté pour caractériser les séquences d'acides aminés pour la liaison protéine-protéine. événements.
Comme le nombre de résidus dans les sites de liaison ne représente qu'un dixième du nombre total, ces données déséquilibrées poussent la formation du modèle à se concentrer sur la classe majeure et ignorent la classe mineure, conduisant à un surajustement du modèle30,31,32. Pour résoudre ce problème, nous avons proposé d'utiliser l'apprentissage en profondeur d'ensemble pour lutter contre la distribution asymétrique des catégories d'ensembles de données déséquilibrés. Pour étudier les performances du modèle d'ensemble, nous l'avons comparé à trois autres algorithmes de traitement de données déséquilibrés différents, y compris le modèle sensible aux coûts33, le suréchantillonnage aléatoire34 et le sous-échantillonnage aléatoire34 sous ces trois ensembles de données. Dans le détail, le modèle sensible aux coûts33 se concentre sur les échantillons de catégories en optimisant le coût total le plus bas des erreurs de classification. Le suréchantillonnage34 génère de nouveaux échantillons pour les classes sous-représentées par échantillonnage aléatoire, tandis que le sous-échantillonnage34 supprime de manière aléatoire les échantillons redondants de l'échantillon de la classe principale.
Les résultats expérimentaux sont résumés dans le tableau 3 et la figure 2d. En général, le modèle d'ensemble a donné les meilleurs résultats, obtenant des scores MCC, AUROC et AP plus élevés. En termes de scores AP sur les trois ensembles de données, l'algorithme d'apprentissage d'ensemble a comparativement surpassé les algorithmes concurrents avec 46,0 %, 33,0 % et 41,3 %, respectivement, indiquant une amélioration des performances de généralisation avec la méthode d'ensachage asymétrique. De plus, la précision moyenne de la méthode de suréchantillonnage sur les trois ensembles de données était de 43,9 %, 31,5 % et 40,4 %, respectivement, ce qui était inférieur à la méthode d'apprentissage d'ensemble puisque la méthode de suréchantillonnage détruit les dépendances entre les caractéristiques et limite la capacité du modèle à trouver des corrélations entre les caractéristiques. Il convient de noter que la méthode de sous-échantillonnage peut être considérée comme un sous-modèle du modèle d'apprentissage en profondeur d'ensemble, qui accuse un retard de 1,1 % à 3,9 % sur les scores AUROC et AP sur les trois ensembles de données par rapport à la méthode d'apprentissage d'ensemble.
En résumé, nous pouvons conclure que la méthode d'apprentissage en profondeur d'ensemble basée sur le bagging asymétrique assure l'efficacité de l'exécution de l'algorithme et améliore ses performances d'identification, en réduisant comparativement l'impact des ensembles de données déséquilibrés.
Pour étudier l'efficacité de l'EDLMPPI, nous l'avons comparé à cinq méthodes d'apprentissage automatique, dont trois méthodes d'apprentissage d'ensemble (XGBoost35, LightGBM36 et CatBoost37) et deux autres méthodes d'apprentissage automatique, SGDClassifier (Stochastic Gradient Descent) et MLPClassifier (Multi-Layer Perception ). La figure 2c et le tableau 4 illustrent les résultats expérimentaux des différents algorithmes sur les trois ensembles de données. D'après les résultats, nous voyons que notre modèle proposé avait de meilleures performances que les cinq autres algorithmes d'apprentissage automatique sur les trois ensembles de données. En particulier, sur Dset_448, l'EDLMPPI a surpassé les méthodes d'apprentissage automatique de 2,1 à 3,4 % dans l'AUROC moyen et de 3,0 à 6,2 % pour l'AP moyen sur les trois ensembles de données, indiquant la grande amélioration de la capacité prédictive de l'EDLMPPI. De plus, étant donné que le même descripteur de caractéristiques est adopté par l'EDLMPPI et ces algorithmes d'apprentissage automatique, nous observons à partir des résultats que la performance globale de la méthode d'apprentissage en profondeur était plus forte que celle de l'apprentissage automatique traditionnel, indiquant que la méthode d'apprentissage en profondeur peut explorer le potentiel meilleure connexion entre la séquence et la structure des protéines, améliorant ainsi la prédiction des performances des sites de liaison des protéines, ce qui prouve encore l'efficacité de l'EDLMPPI.
Pour valider l'efficacité et la sophistication de l'architecture révisée d'EDLMPPI, nous l'avons comparée à cinq autres modèles d'apprentissage en profondeur, notamment TextCNN38, Single-Capsule27, BiLSTM39, BiGRU40 et Multi-Head Attention41 en utilisant les mêmes descripteurs de fonctionnalités. Les résultats expérimentaux des différents modèles d'apprentissage en profondeur sont illustrés à la Fig. 2c et au tableau 4, où nous constatons que l'EDLMPPI a obtenu des résultats comparativement meilleurs que les autres modèles d'apprentissage en profondeur, mesurés par la métrique d'évaluation AP, surpassant le deuxième Multi-Head- Attention de 1,2 %, 2,2 % et 1,2 % sur les trois ensembles de données, respectivement. De plus, la vue intuitive des performances de TextCNN était plus faible que plusieurs autres modèles d'apprentissage en profondeur, ce qui est conforme à notre attente selon laquelle la structure CNN n'extrait que les fonctionnalités locales, ce qui compromet l'intégrité de l'intégration contextuelle de Prot5. De plus, LSTM et GRU fonctionnent de manière comparable sur Dset_448 et Dset_72, mais LSTM fonctionne mieux que GRU sur Dset 164, ce qui explique le choix de LSTM pour apprendre les dépendances à long terme dans le modèle final EDLMPPI.
Pour tester davantage les progrès apportés par EDLMPPI, nous l'avons comparé à dix méthodes de prédiction PPI actuelles, notamment SPPIDER42, SPRINT43, PSIVER44, SPRINGS45, LORIS46, CRFPPI47, SSWRF48, DLPred49, SCRIBER13 et DELPHI11. Nous avons obtenu les scores de prédiction pour chaque séquence de protéines dans l'ensemble de données de test via le serveur Web ou les codes sources disponibles de ces algorithmes. Nous avons adopté TPR, TNR, Pre, ACC, F1, MCC, AUROC et AP comme critères d'évaluation et MCC, AUROC et AP comme déterminants importants pour évaluer les mérites des modèles fréquemment utilisés pour évaluer les données déséquilibrées13. Les résultats de prédiction sont résumés dans le tableau 5 et la figure 3a.
a Démontrer les résultats des comparaisons entre l'EDLMPPI et dix autres méthodes compétitives, les "valeurs moyennes des mesures d'évaluation" se référant à la moyenne des huit mesures d'évaluation (y compris TPR, TNR, Pre, ACC, F1, MCC, AUROC et AP) pour les différentes méthodes sur ces trois jeux de données. b Une comparaison des IPP prédits par EDLMPPI, DELPHI et SCRIBER par rapport aux IPP natifs. En calculant la proportion d'IPP dans chaque domaine, l'EDLMPPI et les IPP natifs ont la corrélation la plus élevée.
Nous voyons que l'EDLMPPI est meilleure que les autres méthodes de prédiction des IPP pour la plupart des mesures d'évaluation, avec des AUROC de 82,0 %, 78,8 % et 75,5 % sur les trois ensembles de données, respectivement, nettement plus élevés que la méthode DELPHI avec 73,7 %, 71,1 % et 68,5 %, respectivement. De plus, pour la précision moyenne (AP), l'EDLMPPI a battu DELPHI de 12,3 %, 9,3 % et 8,1 % sur les trois ensembles de données, respectivement, ce qui apporte une amélioration considérable. La raison semble être que l'EDLMPPI peut résoudre le problème de dépendance à long terme des acides aminés basé sur le transformateur du mécanisme d'auto-attention, qui explore pleinement les caractéristiques contextuelles globales et les informations sémantiques, indiquant que notre architecture d'apprentissage en profondeur proposée apporte une contribution importante à classement précis. En outre, nous avons incorporé des caractéristiques biologiques traditionnelles, telles que les informations évolutives et plusieurs propriétés physicochimiques, pour combler les éventuelles lacunes de ProtT5, améliorant ainsi encore les performances d'identification. Notamment, EDLMPPI a montré un avantage plus élevé sur l'ensemble de données Dset_448, comparant des séquences complètes, suggérant que notre méthode d'extraction de caractéristiques pourrait être meilleure et plus précise dans l'expression fonctionnelle de séquences protéiques complètes. Dans l'ensemble, l'EDLMPPI a été considérablement en avance sur les méthodes existantes et peut être utilisé comme un outil complémentaire pour l'annotation des sites d'interaction protéine-protéine.
Les domaines protéiques sont étroitement liés à l'achèvement des fonctions physiologiques des protéines et servent de base structurelle à leurs fonctions cellulaires50. Pour mieux comprendre la relation potentielle entre les domaines structurels des protéines et les sites d'interaction protéine-protéine, nous avons effectué une expérience pour vérifier si l'EDLMPPI prédit avec précision les IPP dans le domaine protéique. Nous avons annoté 448 séquences de protéines dans l'ensemble de données Dset_448 par Pfam51 pour supprimer tous les domaines structurels qui se chevauchent et avons finalement obtenu 501 domaines structurels. La figure 3b montre la correspondance entre les domaines structurels de chaque taille et le nombre d'IPP qu'ils contiennent, tandis que nous comparons les résultats de prédiction d'EDLMPPI, DELPHI et SCRIBER13. De plus, nous avons ajouté un groupe témoin pour améliorer la rationalité de l'expérience : un fragment de la même taille que le domaine protéique a été sélectionné au hasard dans la séquence. D'après les résultats, les résultats de prédiction de l'EDLMPPI étaient plus optimistes que les deux autres méthodes, le nombre d'IPP prédits par l'EDLMPPI augmentant avec la croissance du domaine structurel. Selon une étude précédente 52 , les superfamilles de domaines déviants en longueur interagissent fortement, ont une fonction plus mixte et sont régulées par plusieurs protéines, ce qui confirme la plausibilité de l'EDLMPPI dans la prédiction de la fonction des protéines. De plus, nous avons compté la proportion d'IPP prédits estimés par EDLMPPI, DELPHI et SCRIBER pour chaque domaine structurel et calculé le coefficient de corrélation de Pearson avec le vrai vecteur de proportion. L'EDLMPPI a présenté la corrélation la plus élevée avec les annotations natives avec un score de 0,70, tandis que DELPHI, SCRIBER et le groupe témoin ont obtenu respectivement 0,63, 0,57 et 0,21.
Pour indiquer en outre que l'EDLMPPI peut prédire avec précision les performances des sites de liaison dans les domaines protéiques, nous avons sélectionné trois protéines enzymatiques à activité catalytique élevée, P19821 - DPO1_THEAQ, P9WHH9 - DLDH_MYCTU et P17109 - MEND_ECOLI pour démontrer la différence de performance prédite par différentes méthodes. Étant donné que SCRIBER et DELPHI ont fourni de meilleures performances dans la prédiction des IPP que les autres modèles de prédiction de site IPP, nous avons utilisé les résultats de prédiction de SCRIBER et DELPHI dans ces trois espèces de séquences à titre de comparaison, et les résultats sont affichés dans le tableau 6. Avec un domaine structurel de protéine taille de 337 dans P19821 - DPO1_THEAQ, le nombre réel d'IPP détectés expérimentalement est de 31, et la prédiction d'EDLMPPI était de 36, plus proche du nombre réel par rapport à SCRIBER et DELPHI. Cette performance est plus évidente dans P9WHH9 - DLDH_MYCTU et P17109 - MEND_ECOLI, où le nombre d'IPP prédits par l'EDLMPPI ne diffère de la valeur réelle que de 1 à 2, indiquant l'efficacité de l'EDLMPPI pour prédire les sites de liaison des domaines structuraux des protéines et également pour valider notre conclusion précédente selon laquelle l'EDLMPPI peut fournir plus de sites de liaison dans les domaines structuraux des protéines.
Pour étudier l'efficacité de l'architecture EDLMPPI, nous avons extrait les sorties de la couche intermédiaire du modèle à différentes étapes et les avons cartographiées sur un espace bidimensionnel pour le regroupement, comme le montre la figure 4a. Nous voyons que l'incorporation d'origine a été distribuée au hasard, alors qu'après la couche BiLSTM, un effet de regroupement plus évident peut être observé. La couche de capsule a en outre préservé les principales caractéristiques de classification, et les sites de liaison et de non-liaison sont apparus sous forme de grappes séparées. Enfin, après la fonction softmax, une identification précise a été obtenue.
a Le graphe de flux t-SNE montre l'effet de regroupement de la sortie des différentes couches intermédiaires de l'architecture EDLMPPI. b Les 20 caractéristiques qui ont le plus grand impact sur l'identification des IPP, révélant comment elles agissent pour prédire les sites non contraignants et les sites de liaison, respectivement. c Les diagrammes schématiques montrent l'interaction entre la caractéristique 1024 et d'autres caractéristiques, et l'interaction entre la caractéristique 569 et d'autres caractéristiques, respectivement. d Un diagramme empilé montrant l'effet de chaque caractéristique sur chaque échantillon.
De plus, nous avons exploré les contributions de différentes caractéristiques à la reconnaissance du site de liaison protéine-protéine et à la relation d'interaction. La figure 4b montre les 20 caractéristiques qui ont le plus grand impact sur l'identification des IPP et révèle comment elles agissent pour prédire les sites de non-liaison et les sites de liaison, respectivement. La couleur rouge représente les valeurs de fonctionnalité supérieures tandis que le bleu représente les valeurs de fonctionnalité inférieures. En prenant les caractéristiques 1027 et 33 comme exemples, la caractéristique supérieure 1027 a tendance à classer les échantillons en tant que sites de liaison tandis que la caractéristique supérieure 33 est plus susceptible de classer les échantillons en tant que sites sans liaison. Par rapport à l'impact d'une seule caractéristique sur le modèle, l'interaction des caractéristiques était plus importante. La figure 4c montre comment la fonctionnalité 1027 et la fonctionnalité 569 interagissent avec les autres fonctionnalités. Nous notons que la caractéristique 1027 n'a eu aucune interaction significative avec les autres caractéristiques, ce qui est cohérent avec notre jugement selon lequel la caractéristique 1027 représente l'accessibilité aux solvants et est codée comme un vecteur de longueur 1, sans trop dépendre des autres caractéristiques. D'autre part, une forte corrélation a été montrée entre les caractéristiques 569 et 72, et l'effet de la caractéristique 72 sur la classification a été affaibli à des valeurs inférieures de la caractéristique 569. Cela vient du fait que ProtT5 contient une dépendance globale au contexte et l'expression des caractéristiques est basé sur une action conjointe avec d'autres fonctionnalités, ce qui valide davantage l'efficacité de ProtT5. La figure 4d est un diagramme empilé montrant l'effet de chaque caractéristique sur chaque échantillon, ce qui nous permet d'observer quelles caractéristiques affectent l'identification d'un échantillon.
Pour mieux comprendre le fonctionnement de l'EDLMPPI, nous avons étudié le processus interne d'intégration de ProtT5 pour la fiabilité. Tout d'abord, nous avons sélectionné une séquence protéique complète et l'avons codée à l'aide de ProtT5. Pour chaque vecteur d'incorporation d'acides aminés, nous avons appliqué le coefficient de corrélation de Pearson pour décrire la corrélation entre les résidus. Les résultats sont affichés sur la figure 5a, où nous voyons que chaque acide aminé a toujours eu une forte corrélation avec l'acide aminé le plus proche, mais à mesure que la distance s'éloigne, ProtT5 pourrait toujours capturer une association entre les acides aminés, ce qui implique que ProtT5 équilibré les influences locales et la dépendance à long terme. Pour approfondir le processus, nous avons appliqué Bertviz53 pour visualiser chaque tête d'attention et chaque couche dans ProtT5, et les résultats sont présentés sur les Fig. 5b, c, où les différentes couleurs représentent les différentes têtes d'attention et la saturation des lignes représente l'attention. scores. La figure 5b (a) montre la première couche d'attention dans toutes les têtes d'attention, qui ressemble à peu près à une connexion complète, ce qui implique que pour chaque résidu, toutes les têtes d'attention ont essayé de trouver l'association avec la cible des autres résidus. Le agit comme un séparateur de séquence qui attire l'attention de tous les résidus, ce qui indique que pour ProtT5, l'identité globale d'une séquence est déterminée par tous les acides aminés ensemble. De plus, la figure 5b (d) montre clairement le flux d'acides aminés cibles dans les différentes têtes d'attention, confirmant notre affirmation précédente selon laquelle une plus grande attention est observée avec une plus grande proximité. De plus, la figure 5c visualise l'évolution de chaque tête d'attention dans les différentes couches, au fur et à mesure que les couches s'approfondissent, le schéma d'attention est passé de la concentration sur l'association entre différents acides aminés à la transmission de l'expression des séquences d'acides aminés. En résumé, ProtT5 peut explorer le lien entre la structure au niveau de la protéine et sa fonction du local au global, fournissant une interprétation raisonnable selon laquelle l'EDLMPPI prédit efficacement les sites de liaison d'interaction protéine-protéine.
une carte thermique de corrélation de chaque résidu sous incorporation de ProtT5. b Vue Attention avec différentes couches et différentes têtes d'attention. c Vue du flux d'attention entre différentes couches, chaque couleur représentant une couche différente.
Pour faciliter l'utilisation par les chercheurs, améliorer notre modèle et accélérer les progrès dans la prédiction du site de liaison des protéines, nous avons développé un serveur Web de prédiction en ligne EDLMPPI entièrement fonctionnel pour les PPI, qui est disponible à l'adresse http://www.edlmppi.top:5002/. Compte tenu des ressources de calcul limitées et de la grande capacité de calcul de ProtT5, nous guidons patiemment les utilisateurs sur la façon de configurer l'environnement ProtT5 dans leur environnement local, de télécharger le modèle et d'extraire les fonctionnalités dans divers scénarios. De plus, le serveur de prédiction en ligne encourage également les utilisateurs à télécharger les fonctionnalités ProtT5 extraites directement sur le serveur EDLMPPI, afin que nous puissions renvoyer les résultats de prédiction par e-mail avec une interprétation des résultats. De plus, nous avons synchronisé les données et le code open source sur GitHub, accessible à l'adresse https://github.com/houzl3416/EDLMPPI.git.
La figure supplémentaire 1 résume les principaux modules et la figure supplémentaire 1a illustre l'interface principale, qui comprend trois façons d'obtenir ProtT5 : l'extraire sur votre appareil, l'extraire sur Colab ou télécharger le fichier que nous fournissons. La figure supplémentaire 1b montre le module de prédiction : une fois les fonctionnalités ProtT5 téléchargées, le serveur peut envoyer automatiquement les résultats de prédiction à l'e-mail de l'utilisateur. Enfin, il y a le module téléchargeable décrit dans la figure supplémentaire 1c, où les utilisateurs peuvent cliquer directement sur les liens pour télécharger rapidement des ensembles de données et des modèles.
Dans cette étude, nous proposons une méthode de prédiction du site d'interaction protéine-protéine basée sur des modèles d'apprentissage profond d'ensemble, appelée EDLMPPI, EDLMPPI adapte le modèle dynamique d'incorporation de mots basé sur l'architecture de transformateur à l'étude des sites d'interaction protéine-protéine et utilise ProtT5 pour capturer le informations contextuelles et de position entre les résidus, tout en intégrant onze caractéristiques biologiques multi-sources pour enrichir davantage la représentation des caractéristiques. Pendant ce temps, nous avons développé un modèle d'apprentissage en profondeur intégré multicanal qui capture à la fois la dépendance au contexte local et la dépendance au contexte global des séquences de protéines et résout efficacement le problème de déséquilibre des données.
Pour démontrer l'efficacité de l'EDLMPPI, nous l'avons comparé à dix modèles traditionnels d'apprentissage automatique et d'apprentissage en profondeur sur trois ensembles de données de référence largement utilisés. De plus, nous avons comparé EDLMPPI avec d'autres modèles de prédiction de sites Web PPI et les performances prédictives d'EDLMPPI améliorent la prédiction par rapport à ces modèles. En outre, dans la prédiction des IPP dans les domaines structurels des protéines, l'EDLMPPI montre des résultats plus cohérents sur le plan biologique, ce qui indique que l'EDLMPPI a la capacité de certaines analyses biologiques et peut être utilisé pour guider les biologistes dans la réalisation d'expériences spécifiques sur les protéines. Parallèlement, l'analyse d'interprétabilité démontre pleinement la vision interne du modèle EDLMPPI, ce qui renforce encore la rationalité du modèle.
De plus, la sortie du serveur Web de prédiction en ligne EDLMPPI fournit des conseils détaillés sur la formation et la prédiction des modèles, garantissant que les résultats de nos expériences sont reproductibles et opérationnels. Le code et les données sont également open source sur https://github.com/houzl3416/EDLMPPI.git.
En résumé, l'EDLMPPI est un outil de prédiction du site d'interaction protéine-protéine très compétitif avec les avantages d'une efficacité et d'une précision élevées, s'avérant une nouvelle alternative pour l'identification du site d'interaction protéique. Il fournit de nouvelles idées et perspectives sur la tâche de prédiction du site d'interaction protéine-protéine et peut également servir d'assistant important pour les biologistes pour mettre en œuvre efficacement la prédiction PPI et les travaux d'analyse en aval. La sortie du serveur Web facilite également grandement le travail d'autres chercheurs pour améliorer notre modèle et obtenir des résultats de prédiction plus efficaces. À l'avenir, nous intégrerons d'autres modèles dynamiques d'intégration de mots dans notre modèle proposé et les adapterons à d'autres problèmes d'identification de protéines pertinents.
Pour les ensembles de données, nous avons collecté trois ensembles de données de référence largement utilisés, Dset_18654, Dset_7254 et Dset_16455. Dset_186 a été construit à partir de la base de données PDB3 et contient 186 séquences protéiques avec une résolution de <3,0 Å et une homologie de séquence <25 %. Cet ensemble de données a été affiné en plusieurs étapes, y compris l'élimination des chaînes avec des accessions UniprotKB/Swiss-Prot identiques, l'élimination des protéines transmembranaires, l'élimination des structures dimères, l'élimination des protéines avec une accessibilité de surface et une polarité interfaciale enfouies dans une certaine plage, et la suppression des similitudes. Dset_72 et Dset_164 ont été construits de la même manière que Dset_186 et consistent respectivement en 72 et 186 séquences de protéines.
De plus, Dset_1291 est un ensemble de données de la base de données BioLip, où un site de liaison est défini si la distance entre un atome d'un résidu et un atome d'un partenaire protéique donné est de 0,5 Å plus la somme des rayons de van der Waals des deux atomes13. Zhang et al.13 ont éliminé les protéines fragmentées puis ont transféré l'annotation des résidus liés à la même séquence UniProt. Par conséquent, la similarité entre les séquences a été réduite à moins de 25 % dans le cadre de la méthode Blast-Clust. Enfin, Dset_843 (843 séquences de Dset_1291) a été utilisé pour former notre modèle, tandis que les 448 séquences restantes (Dset_448) ont été utilisées comme ensemble de test indépendant.
À l'aide de ces ensembles de données, nous avons construit les ensembles d'apprentissage et de test. Comme Dset_843 et Dset_448 sont entièrement constitués de séquences protéiques de pleine longueur, tandis que Dset_71, Dset_186 et Dset_164 sont composés de séquences fragmentées ; Pour améliorer la généralisabilité du modèle, nous avons sélectionné Dset_843 et Dset_186 représentant deux types d'ensembles de données différents comme ensembles de données d'apprentissage, respectivement. Ensuite, Dset_448, Dset_72 et Dset_164 ont été utilisés comme ensembles de test indépendants pour tester les performances des différents modèles de prédiction de site PPI. De plus, pour réduire la similarité entre les ensembles d'apprentissage et de test, nous avons effectué une suppression de la redondance de cohérence entre eux à l'aide de la procédure PSI-BlAST56 pour garantir que la similarité était inférieure à 25 %. Le tableau supplémentaire 1 résume le nombre de résidus protéiques et la proportion de sites de liaison dans chaque ensemble de données, où il est facile de voir que la distribution des ensembles de données est relativement déséquilibrée, les échantillons positifs ne représentant que 10 à 18 % de la taille totale de l'échantillon. , ce qui pose un défi pour la généralisabilité du modèle.
Pour explorer pleinement les caractéristiques structurelles des sites d'interaction protéine-protéine, plusieurs caractéristiques, y compris des informations contextuelles globales dynamiques et des caractéristiques biologiques multi-sources, sont extraites des séquences de protéines comme suit.
En raison du coût élevé des expériences biologiques traditionnelles et de la faible capacité de certaines techniques basées sur l'apprentissage en profondeur, nous introduisons le ProtT524 basé sur l'intégration dynamique de mots pour représenter les informations d'expression des caractéristiques des protéines afin d'obtenir les informations contextuelles globales entre les différentes séquences. et les acides aminés, qui s'est déjà avéré être une méthode efficace expérimentalement. Plus précisément, ProtT5 est utilisé pour générer des incorporations contextuelles globales. En effet, ProtT5 apprend un codage positionnel pour chaque tête d'attention dans l'architecture du transformateur et le partage à tous les niveaux. Dans ProtT5, le corpus d'entraînement est Uniref50, qui contient 45 millions de séquences protéiques composées de 15 milliards d'acides aminés. Un ensemble d'entraînement aussi vaste garantit que ProtT5 capturera les connexions structurelles et fonctionnelles entre différents types ou races de protéines.
ProtT5 cartographie d'abord chaque acide aminé dans un vecteur de longueur fixe au moyen d'une couche d'enrobage, en outre, l'enrobage de position dans ProtT5 est utilisé pour coder les informations de position relatives de chaque acide aminé dans la séquence protéique correspondante, et l'enrobage de segment a été introduit distinguer les différentes séquences protéiques. La somme de l'intégration de jetons, de l'intégration de segmentation et de l'intégration de position fournit non seulement une cartographie non contextuelle des acides aminés dans l'espace sous-jacent, mais étend également les dépendances d'acides aminés dans chaque séquence protéique et les associations contextuelles entre différentes séquences protéiques, ce qui peut être défini comme suit :
où Wtok, Wseg et Wpos sont les matrices de paramètres correspondantes à former. Après cela, l'incorporation dynamique de mots, apprise du mécanisme d'auto-attention multi-têtes dans l'architecture du transformateur, est utilisée pour corréler les acides aminés pertinents dans la séquence protéique, qui peut être calculée à l'aide de la formule suivante :
où Q(Query), K(Key), V(Value) sont obtenus par m transformations linéaires, qui sont utilisées pour stocker tous les plongements de mots. Zi représente l'attention de chaque tête d'attention, qui est calculée par la transformation linéaire d'un ensemble de Q, K, V.
En effet, la pile d'attention de ProtT5 est constituée de 24 couches, chaque couche contient 32 têtes d'attention, et la taille de la couche cachée est de 1024. Ce mode empilé est ce qui permet à chaque couche d'opérer sur la sortie de la couche précédente. Grâce à une telle combinaison répétée d'incorporation de mots, ProtT5 peut former une représentation très riche lorsqu'il atteint la couche la plus profonde du modèle23. Par conséquent, dans notre étude, nous extrayons l'intégration de la dernière couche de la pile d'attention dans notre représentation des caractéristiques.
De plus, pour améliorer les performances de prédiction, nous avons accédé aux informations évolutives, aux propriétés physiques et aux propriétés physicochimiques des résidus protéiques pour enrichir l'expression des caractéristiques.
(1) Matrice de notation spécifique à la position (PSSM): PSSM fournit un moyen flexible de représenter la spécificité des interactions de résidus, qui décrit la conservation évolutive des positions de résidus. Il peut être décrit comme suit :
où pa et pb représentent la probabilité d'observer les acides aminés a et b, respectivement, et M(a, b) est le score de probabilité d'une mutation. Nous avons choisi Uniref90 comme base de données de comparaison, fixé le nombre d'itérations à trois et défini la valeur seuil à 0,001 par PSI-BLAST.
(2) Caractéristiques physiques : les caractéristiques physiques sont l'indice de graphique, le taux de polarisation, le volume de van der Waals normalisé, l'hydrophobicité, le point isoélectrique, la probabilité en spirale et la probabilité de feuille. Les mêmes calculs sont effectués en utilisant les valeurs rapportées dans la réf. 57 pour obtenir un vecteur à 7 dimensions pour chaque acide aminé.
(3) Propriétés physicochimiques : Pour exprimer avec précision les différences et les connexions entre les différents résidus, nous introduisons les propriétés physicochimiques des acides aminés. Les caractéristiques physico-chimiques d'un résidu sont décrites par trois valeurs : le nombre d'atomes, le nombre de charges électrostatiques et le nombre de liaisons hydrogène potentielles. Ces valeurs ne sont liées qu'au type d'acide aminé et ne contiennent aucune information structurelle du résidu d'acide aminé.
Pour capturer plus efficacement les informations cruciales dans les schémas de caractéristiques hybrides, nous avons développé le réseau de capsules de mémoire profonde d'ensemble (EDMCN) afin de maximiser les performances d'apprentissage des caractéristiques de l'identification du site d'interaction protéine-protéine, comme illustré à la Fig. 1. Les réseaux de capsules de mémoire profonde se développent le parallélisme des réseaux de mémoire traditionnels en les reliant à différentes tailles de sortie pour capturer la corrélation entre les acides aminés à différentes échelles de profondeur. En outre, la structure de la capsule peut explorer davantage les connexions intrinsèques entre les caractéristiques et conserver les informations de localisation entre les échantillons. De plus, pour favoriser la généralisation et la stabilité du modèle, nous avons introduit un algorithme de bagging asymétrique pour résoudre le déséquilibre élevé entre les échantillons.
Les réseaux de mémoire traditionnels tels que LSTM39, GRU40, etc. ont obtenu de bons résultats dans l'organisation du contexte des caractéristiques pour la prédiction. Cependant, ces modèles sont sensibles aux paramètres, ce qui affecte grandement la stabilité de la prédiction. Pour résoudre ce problème, nous avons développé un réseau de mémoire profonde pour améliorer les performances de généralisation du modèle. L'idée centrale des réseaux de mémoire profonde est de connecter plusieurs réseaux de mémoire avec différentes échelles de sortie pour capturer la corrélation entre les résidus de manière multi-échelle. Formellement, il contrôle principalement le flux d'informations sur les protéines à travers trois portes (porte d'entrée (i), porte d'oubli (f) et porte de sortie (o)), y compris quand mémoriser, mettre à jour et utiliser les informations. La porte d'oubli fonctionne en acceptant une mémoire à long terme Mt−1 et en décidant quelles parties conserver ou rejeter. A un pas de temps t, la porte d'oubli calcule d'abord le facteur d'oubli ft à partir de l'état caché précédent ht−1 et de l'information d'entrée courante mt :
où σ est la fonction sigmoïde logistique. La porte d'entrée contrôle principalement les courants d'entrée mt qui peuvent traverser la cellule mémoire, d'abord en générant un signal de commande pour contrôler le débit rt d'entrée :
Ensuite, la porte d'entrée génère des cellules de mémoire candidates \(\widetilde{{M}_{t}}\) et calcule les informations de mémoire qui passent finalement par la porte d'entrée en fonction du rt précédemment résolu :
Enfin, la porte de sortie filtre mt en générant le signal de commande gt pour obtenir la sortie Ot :
Le réseau de mémoire profonde capture efficacement les dépendances contextuelles globales entre les entités, cependant, il a tendance à affaiblir les fortes corrélations entre les entités locales et à perdre des informations topologiques sur les types d'entités. Pour résoudre ce problème, nous introduisons le réseau de capsules27. Intuitivement, le réseau de capsules contient une partie de réseau convolutif ainsi que des neurones appelés capsules, qui décident de sa perception des caractéristiques, reflétées non seulement dans l'importance des caractéristiques mais également dans les différents états des caractéristiques, y compris leurs informations de localisation. De cette façon, le réseau de capsules peut capturer efficacement les associations potentielles entre les fonctionnalités pour nos méthodes de description de fonctionnalités hautement dépendantes du contexte.
La structure des neurones de la capsule dans un réseau de capsules est illustrée à la Fig. 1. Dans un réseau de capsules, les neurones de la capsule sont connectés de la même manière qu'une connexion complète, pour la couche actuelle de capsules c1, c2, …, ci, le la relation de position entre les caractéristiques locales et globales est apprise par la transformation de pose (translation, rotation, déflation) :
où Wij est la matrice de poids. Ensuite, nous multiplions chaque vecteur transformé par un coefficient de couplage oij et le passons à la couche de capsules suivante, et additionnons tous les signaux neuronaux reçus par la j-ième capsule de la couche suivante :
et le oij peut être calculé comme suit :
où bij est la probabilité a priori logarithmique de savoir si deux capsules sont connectées. Semblable au sigmoïde, une fonction d'activation non linéaire appelée squash27 est utilisée pour mapper les vecteurs sur [0, 1], et la sortie de capsule vj de cette couche peut être calculée comme suit :
Pour améliorer encore la stabilité et les performances de généralisation de notre modèle proposé, une méthode d'apprentissage d'ensemble basée sur l'algorithme de bagging asymétrique58 est appliquée pour traiter la distribution asymétrique des catégories dans des ensembles de données déséquilibrés. Le bagging est l'une des méthodes d'apprentissage d'ensemble dominantes59, qui peut intégrer les résultats de prédiction de plusieurs classificateurs différents, puis utiliser le principe de vote pour déterminer la classe des échantillons dans la phase de décision, visant à réduire la variance et à promouvoir les performances de généralisation du modèle. . En effet, le principe de réduction de la variance par bagging est représenté par l'équation suivante :
où X représente un échantillon indépendant, Var(X) est la variance et E(X) représente la moyenne de l'échantillon X. Ensuite, on peut voir qu'en supposant qu'il existe n modèles indépendants avec une distribution identique et la variance de chaque modèle est σ2, la variance du modèle d'ensemble peut être déduite des équations. (16) et (17) comme σ2/n. L'ensachage est échantillonné avec un échantillonnage remis afin qu'il y ait des échantillons en double entre les ensembles de données, violant ainsi l'hypothèse d'indépendance dans l'équation. (18). Dans ce cas, la variance du modèle d'ensemble basée sur le coefficient de corrélation rho entre les modèles individuels peut être exprimée comme suit :
En vertu de cela, à mesure que le nombre de classificateurs augmente ou que la corrélation entre les modèles uniques diminue, la variance du modèle d'ensemble diminue davantage. Motivés par les observations ci-dessus, nous avons proposé d'utiliser l'algorithme d'ensachage asymétrique pour atteindre cet objectif. Pour l'ensemble de données S, à chaque itération, nous conservons tous les échantillons de sites de liaison aux protéines comme Sp et séparons un sous-ensemble \({S}_{n}^{{\prime} }\) avec la même échelle que Sp de les échantillons Sn de sites non liants. Cette étape est répétée pour l'échantillonnage sans remplacement jusqu'à ce que le processus de formation couvre tous les échantillons, et éventuellement, plusieurs classificateurs peuvent être obtenus. Après cela, nous additionnons les valeurs softmax obtenues par ces multiples classificateurs pour chaque échantillon afin de prendre la décision d'identification finale. Sur cette base, l'ensachage asymétrique peut assurer de manière adéquate une distribution de classe équilibrée des données d'entrée pour chaque modèle et maintenir la corrélation entre les modèles individuels aussi faible que possible. Il convient de mentionner que bien que les modèles d'ensemble puissent augmenter la complexité de calcul, la faisabilité du parallélisme dans l'ensachage asymétrique peut réduire efficacement le temps d'exécution avec des ressources de calcul suffisantes.
Pour démontrer l'efficacité de notre proposition d'EDLMPPI, nous la comparons à plusieurs méthodes d'apprentissage automatique traditionnelles et à des méthodes d'apprentissage en profondeur. Dans la section suivante, nous présentons le détail du paramétrage de ces algorithmes.
Pour EDLMPPI, nous utilisons la fonction tanh comme fonction d'activation et adoptons l'initialiseur Glorot avec une distribution uniforme pour initialiser les poids de la partie BiLSTM. Ensuite, pour le nombre de neurones dans la couche cachée, nous fixons un ensemble de valeurs candidates [32, 64, 128, 256]. Pour le réseau de capsules, les principaux hyperparamètres sont le nombre de capsules neurales et la dimensionnalité de chaque vecteur neuronal, pour lesquels nous fixons un groupe de valeurs candidates [32, 64, 128, 256] and [3, 5, 7, 10] , respectivement. Pour obtenir les meilleurs hyperparamètres, nous optimisons les trois ensembles de valeurs candidates ci-dessus par la méthode de recherche de grille sous Tensorflow 2.5.0 et Keras 2.4.3. Les époques sont fixées à 100 et le mécanisme d'arrêt précoce est appliqué pour éviter le surajustement de l'algorithme proposé.
Pour effectuer une comparaison équitable avec les autres algorithmes d'apprentissage en profondeur, notamment TextCNN38, Single-Capsule27, BiLSTM39, BiGRU40 et MultiHead Attention41, pour effectuer une comparaison équitable, les méthodes d'optimisation des hyperparamètres ont utilisé les mêmes principes que l'EDLMPPI ; nous avons également adopté les mêmes règles de la méthode d'optimisation des hyperparamètres que pour l'EDLMPPI, en utilisant une procédure de recherche de grille pour sélectionner des hyperparamètres raisonnables. Pour TextCNN, les paramètres de test pour différentes combinaisons de noyaux convolutifs de différentes tailles étaient {{1, 3, 5, 7}, {7, 9, 11, 13}, {4, 5, 6, 7}, {7, 8, 9, 10}}, où le nombre de filtres pour chaque combinaison est choisi parmi 16, 32, 64, 128, respectivement. Le nombre de cellules de couche cachée de BiLSTM et BiGRU est choisi parmi {32, 64, 128}. Dans le réseau de capsules, les valeurs candidates pour le nombre de capsules neurales et la dimensionnalité de chaque vecteur neuronal sont {32, 64, 128, 256} et {3, 5, 7, 10}, respectivement. Enfin, le réseau d'attention multi-tête sélectionne le nombre de têtes d'attention parmi {4, 8, 16, 32}.
Les méthodes d'apprentissage automatique contiennent trois méthodes d'apprentissage d'ensemble (XGBoost35, LightGBM36 et CatBoost37), SGDClassifier (Stochastic Gradient Descent) et MLPClassifier (Multi-Layer Perceptron), qui se trouvent sous le package de dépendances scikit-learn60 dans l'environnement Python. XGBoost adopte une stratégie de construction d'arbre de décision par niveau, LightGBM utilise une stratégie de construction par feuille et CatBoost applique une structure d'arbre symétrique avec des arbres de décision binaires complets. Le SGDClassifier est un modèle d'apprentissage de descente de gradient stochastique avec une méthode linéaire régularisée. Le gradient de perte est estimé pour chaque échantillon à la fois, et le modèle est mis à jour dans le processus en utilisant un programme de diminution de l'intensité. MLP est un réseau de neurones artificiels structuré en avant, qui peut résoudre rapidement des problèmes complexes. La procédure de recherche de grille est également effectuée pour trouver les hyperparamètres optimaux pour ces cinq classificateurs. Les paramètres candidats et les combinaisons de paramètres optimales sont résumés dans le tableau supplémentaire 2.
Pour évaluer les performances des différentes méthodes de calcul, nous avons utilisé la sensibilité (TPR), la spécificité (TNR), la précision (Pre), l'exactitude (ACC), le score F1 (F1), le coefficient de corrélation de Matthews (MCC), l'aire sous le courbe caractéristique de fonctionnement du récepteur (AUROC) et précision moyenne (AP) comme critères de mesure, qui peuvent être formulés comme suit :
où les vrais positifs (TP) et les faux positifs (FP) représentent le nombre de sites de liaison correctement prédits et de sites de liaison mal prédits, respectivement. Les vrais négatifs (TN) et les faux négatifs (FN) représentent le nombre de sites non contraignants correctement prédits et de sites non contraignants incorrectement prédits, respectivement. TPR décrit la proportion de sites de liaison correctement prédits dans tous les échantillons positifs, TNR indique la proportion de sites de non-liaison correctement prédits dans le total des échantillons négatifs, et Pre représente la probabilité de prédiction correcte dans tous les échantillons avec des sites de liaison prédits.
Dans les données déséquilibrées, puisque l'ACC ne peut pas capturer avec précision les points forts du modèle, nous avons adopté l'ACC comme métrique supplémentaire pour l'évaluation. De plus, deux autres mesures, AUROC et AP sont calculées en fonction de la probabilité prédite de chaque acide aminé pour mesurer les données déséquilibrées. AUROC n'est pas influencé par le déséquilibre de l'échantillon et peut mesurer avec précision les performances du modèle dans des données déséquilibrées61. AP est une moyenne pondérée de la précision de chaque seuil dans l'ensemble de données, avec le changement de rappel comme poids, qui peut être défini comme suit :
où Rn et Pn sont le rappel et la précision au n-ième seuil.
Les analyses statistiques des données ont été réalisées à l'aide du progiciel Python. Nous avons utilisé l'algorithme d'ensachage asymétrique pour nous concentrer sur le déséquilibre des données afin de réduire son impact sur les résultats expérimentaux. La reproductibilité des expériences a été assurée en effectuant un minimum de trois répétitions indépendantes pour chaque condition. Des répliques ont été réalisées par différents chercheurs, et les données ont été combinées et analysées à l'aide de tests statistiques appropriés. Dans l'ensemble, nos expériences ont été conçues pour être hautement reproductibles. Tous les matériaux et procédures ont été clairement décrits dans la section des méthodes, et les données ont été soigneusement collectées et analysées à l'aide de méthodes statistiques standard. Nous croyons que ces mesures ont augmenté la fiabilité et la reproductibilité de nos résultats.
De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.
Nous avons collecté quatre ensembles de données de référence largement utilisés, Dset_186, Dset_72, Dset_164 et Dset_1291. Dset_186, Dset_72 et Dset_164 ont été construits à partir de la base de données PDB et contiennent 422 séquences de protéines avec une résolution de <3,0 Å et une homologie de séquence <25 %. Dset_1291 est un ensemble de données de la base de données BioLip, où un site de liaison est défini si la distance entre un atome d'un résidu et un atome d'un partenaire protéique donné est de 0,5 Å plus la somme des rayons de van der Waals des deux atomes. Tous les ensembles de données sont disponibles en téléchargement sur http://www.edlmppi.top:5002/ ou https://github.com/houzl3416/EDLMPPI.git. En outre, les données sources numériques des graphiques et diagrammes peuvent être téléchargées sur https://doi.org/10.6084/m9.figshare.21778913.v1.
Tout le code est disponible sur https://github.com/houzl3416/EDLMPPI.git.
Titeca, K., Lemmens, I., Tavernier, J. & Eyckerman, S. Découverte des interactions protéine-protéine cellulaire : stratégies et opportunités technologiques. Spectre de masse. Rév. 38, 79–111 (2019).
Article CAS Google Scholar
Yang, J., Roy, A. & Zhang, Y. BioLiP : une base de données organisée semi-manuellement pour les interactions ligand-protéine biologiquement pertinentes. Nucleic Acids Res. 41, D1096–D1103 (2012).
Article Google Scholar
Berman, HM et al. La banque de données sur les protéines. Nucleic Acids Res. 28, 235-242 (2000).
Article CAS Google Scholar
Zhang, J. & Kurgan, L. Examen et évaluation comparative des prédicteurs basés sur la séquence des résidus de liaison aux protéines. Bref. Bioinforma. 19, 821–837 (2018).
Article Google Scholar
Drewes, G. & Bouwmeester, T. Approches globales des interactions protéine-protéine. Courant. Avis. Cell Biol. 15, 199-205 (2003).
Article CAS Google Scholar
Zeng, M. et al. Prédiction du site d'interaction protéine-protéine en combinant des caractéristiques locales et globales avec des réseaux de neurones profonds. Bioinformatique 36, 1114–1120 (2020).
CAS Google Scholar
Xie, Z., Deng, X. & Shu, K. Prédiction des sites d'interaction protéine-protéine à l'aide d'un réseau neuronal convolutif et d'ensembles de données améliorés. Int. J. Mol. Sci. 21, 467 (2020).
Article CAS Google Scholar
Yang, L., Han, Y., Zhang, H., Li, W. et Dai, Y. Prédiction des interactions protéine-protéine avec le mécanisme local de partage du poids dans l'apprentissage en profondeur. BioMed Res. Int. 2020, 1–11 (2020).
CAS Google Scholar
Sun, J. & Frishman, D. Amélioration de la prédiction basée sur la séquence des sites d'interaction dans les protéines transmembranaires α-hélicoïdales par apprentissage en profondeur. Calcul. Structure. Biotechnol. J. 19, 1512-1530 (2021).
Article CAS Google Scholar
Zhang, B., Li, J., Quan, L., Chen, Y. & Lü, Q. Prédiction basée sur la séquence des sites d'interaction protéine-protéine par un réseau de mémoire à court terme simplifié. Neuroinformatique 357, 86–100 (2019).
Article Google Scholar
Li, Y., Golding, GB et Ilie, L. Delphi : modèle d'ensemble profond précis pour la prédiction des sites d'interaction des protéines. Bioinformatique 37, 896–904 (2021).
Article CAS Google Scholar
Zeng, M. et al. Prédiction du site d'interaction protéine-protéine en combinant des caractéristiques locales et globales avec des réseaux de neurones profonds. Bioinformatique 36, 1114–1120 (2020).
CAS Google Scholar
Zhang, J. & Kurgan, L. Scriber : prédiction précise et spécifique au type de partenaire des résidus de liaison aux protéines à partir de séquences de protéines. Bioinformatique 35, i343–i353 (2019).
Article CAS Google Scholar
Mikolov, T., Chen, K., Corrado, G. & Dean, J. Estimation efficace des représentations de mots dans l'espace vectoriel. Préimpression sur https://arxiv.org/abs/1301.3781 (2013).
Le, Q. & Mikolov, T. Représentations distribuées de phrases et de documents. dans Conférence internationale sur l'apprentissage automatique 1188-1196 (PMLR, 2014).
Joulin, A., Grave, E., Bojanowski, P. & Mikolov, T. Sac d'astuces pour une classification de texte efficace. Préimpression sur https://archives.org/abs/1607.01759 (2016).
Pennington, J., Socher, R. & Manning, CD Gant : vecteurs globaux pour la représentation des mots. dans Actes de la Conférence 2014 sur les méthodes empiriques dans le traitement du langage naturel (EMNLP) 1532-1543 (2014).
Asgari, E. & Mofrad, MR Représentation distribuée continue de séquences biologiques pour la protéomique et la génomique profondes. PLoS ONE 10, e0141287 (2015).
Article Google Scholar
Yang, Y., Hou, Z., Ma, Z., Li, X. & Wong, K.-C. iCircRBP-DHN : identification des sites d'interaction circARN-RBP à l'aide d'un réseau hiérarchique profond. Bref. Bioinforma. 22, bbaa274 (2021).
Article Google Scholar
Min, X., Zeng, W., Chen, N., Chen, T. et Jiang, R. Prédiction de l'accessibilité de la chromatine via des réseaux de mémoire convolutionnels à long court terme avec incorporation de k-mer. Bioinformatique 33, i92–i101 (2017).
Article CAS Google Scholar
Hamid, M.-N. & Friedberg, I. Identification des peptides antimicrobiens à l'aide de l'incorporation de mots avec des réseaux de neurones récurrents profonds. Bioinformatique 35, 2009-2016 (2019).
Article CAS Google Scholar
Mikolov, T., Sutskever, I., Kai, C., Corrado, G. & Dean, J. Représentations distribuées de mots et de phrases et leur compositionnalité. dans Advances in Neural Information Processing Systems (2013).
Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert : Pré-entraînement des transformateurs bidirectionnels profonds pour la compréhension du langage. Préimpression sur https://arxiv.org/abs/1810.04805 (2018).
Elnaggar, A. et al. Prottrans : pour déchiffrer le langage du code de la vie grâce à l'apprentissage en profondeur auto-supervisé et au calcul haute performance. dans IEEE Transactions on Pattern Analysis and Machine Intelligence (2021).
Heinzinger, M. et al. Modélisation d'aspects du langage de la vie par le biais de séquences protéiques d'apprentissage par transfert. BMC Bioinforma. 20, 1–17 (2019).
Article Google Scholar
Schuster, M. & Paliwal, KK Réseaux de neurones récurrents bidirectionnels. IEEE Trans. Processus de signalisation. 45, 2673-2681 (1997).
Article Google Scholar
Sabour, S., Frosst, N. & Hinton, GE Routage dynamique entre les capsules. dans Advances in Neural Information Processing Systems 30 (2017).
Rives, A. et al. La structure et la fonction biologiques émergent de la mise à l'échelle de l'apprentissage non supervisé à 250 millions de séquences de protéines. Proc. Natl Acad. Sci. États-Unis 118, e2016239118 (2021).
Article CAS Google Scholar
Nijkamp, E., Ruffolo, J., Weinstein, EN, Naik, N. & Madani, A. Progen2 : exploration des limites des modèles de langage protéique. Préimpression sur https://arxiv.org/abs/2206.13517 (2022).
Wang, B. et al. Stratégie de traitement des données sur les déséquilibres pour la prédiction des sites d'interaction des protéines. IEEE/ACM Trans. Calcul. Biol. Bioinforma. 18, 985–994 (2019).
Article Google Scholar
Yu, C.-Y., Chou, L.-C. & Chang, DT-H. Prédire les interactions protéine-protéine dans des données déséquilibrées en utilisant la structure primaire des protéines. BMC Bioinforma. 11, 1–10 (2010).
Article CAS Google Scholar
Hu, L., Wang, X., Huang, Y.-A., Hu, P. & You, Z.-H. Une enquête sur les modèles informatiques pour prédire les interactions protéine-protéine. Bref. Bioinforma. 22, bbab036 (2021).
Article Google Scholar
Zhang, Z.-L., Luo, X.-G., García, S. & Herrera, F. Réseaux de neurones à rétropropagation sensibles aux coûts avec des techniques de binarisation pour résoudre les problèmes multi-classes et les classificateurs non compétents. Appl. Calcul doux. 56, 357–367 (2017).
Article Google Scholar
Lemaître, G., Nogueira, F. & Aridas, CK Imbalanced-learn : une boîte à outils python pour lutter contre la malédiction des ensembles de données déséquilibrés dans l'apprentissage automatique. J.Mach. Apprendre. Rés. 18, 1–5 (2017).
Google Scholar
Chen, T. & Guestrin, C. Xgboost : Un système évolutif de boost d'arbres. dans Actes de la 22e Conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données 785–794 (2016).
Ke, G. et al. Lightgbm : un arbre de décision très efficace pour augmenter le gradient. Adv. Information neuronale. Processus. Syst. 30, 3146–3154 (2017).
Google Scholar
Dorogush, AV, Ershov, V. & Gulin, A. Catboost : renforcement du gradient avec prise en charge des fonctionnalités catégorielles. Préimpression sur https://arxiv.org/abs/1810.11363 (2018).
Zhang, Y. & Wallace, B. Une analyse de sensibilité (et un guide des praticiens) des réseaux de neurones convolutifs pour la classification des phrases. Préimpression sur https://arxiv.org/abs/1510.03820 (2015).
Hochreiter, S. & Schmidhuber, J. Longue mémoire à court terme. Calcul neuronal. 9, 1735–1780 (1997).
Article CAS Google Scholar
Dey, R. & Salem, FM Gate-variantes de réseaux de neurones à unité récurrente fermée (GRU). en 2017 IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS) 1597–1600 (IEEE, 2017).
Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. dans Advances in Neural Information Processing Systems 5998–6008 (2017).
Porollo, A. & Meller, J. Empreintes digitales basées sur la prédiction des interactions protéine-protéine. Protéines : Struct., Funct., Bioinforma. 66, 630–645 (2007).
Article CAS Google Scholar
Taherzadeh, G., Yang, Y., Zhang, T., Liew, AW-C. & Zhou, Y. Prédiction basée sur la séquence des sites de liaison protéine-peptide à l'aide d'une machine à vecteur de support. J. Computat. Chim. 37, 1223-1229 (2016).
Article CAS Google Scholar
Murakami, Y. & Mizuguchi, K. Application du classificateur naïf de Bayes avec estimation de la densité du noyau à la prédiction des sites d'interaction protéine-protéine. Bioinformatique 26, 1841–1848 (2010).
Article CAS Google Scholar
Singh, G., Dhole, K., Pai, PP & Mondal, S. Springs : Prédiction des sites d'interaction protéine-protéine à l'aide de réseaux de neurones artificiels. Technologie. Rep., PeerJ PrePrints (2014).
Dhole, K., Singh, G., Pai, PP et Mondal, S. Prédiction basée sur la séquence des sites d'interaction protéine-protéine avec classificateur L1-logreg. J. Théor. Biol. 348, 47–54 (2014).
Article CAS Google Scholar
Wei, Z.-S., Yang, J.-Y., Shen, H.-B. & Yu, D.-J. Un algorithme de forêts aléatoires en cascade pour prédire les sites d'interaction protéine-protéine. IEEE Trans. Nanobiosci. 14, 746–760 (2015).
Article Google Scholar
Wei, Z.-S., Han, K., Yang, J.-Y., Shen, H.-B. & Yu, D.-J. Prédiction des sites d'interaction protéine-protéine en assemblant SVM et forêts aléatoires pondérées par l'échantillon. Neuroinformatique 193, 201–212 (2016).
Article Google Scholar
Zhang, B., Li, J., Quan, L., Chen, Y. & Lü, Q. Prédiction basée sur la séquence des sites d'interaction protéine-protéine par un réseau de mémoire à court terme simplifié. Neuroinformatique 357, 86–100 (2019).
Article Google Scholar
Wang, Y., Zhang, H., Zhong, H. & Xue, Z. Méthodes d'identification de domaine protéique et ressources en ligne. Calcul. Structure. Biotechnol. J. 19, 1145 (2021).
Article Google Scholar
Mistry, J. et al. Pfam : La base de données des familles de protéines en 2021. Nucleic Acids Res. 49, D412–D419 (2021).
Article CAS Google Scholar
Sandhya, S. et al. Variations de longueur parmi les superfamilles de domaines protéiques et conséquences sur la structure et la fonction. PLoS ONE 4, e4981 (2009).
Article Google Scholar
Vig, J. Une visualisation multi-échelle de l'attention dans le modèle de transformateur. Préimpression sur https://arxiv.org/abs/1906.05714 (2019).
Murakami, Y. & Mizuguchi, K. Application du classificateur naïf de Bayes avec estimation de la densité du noyau à la prédiction des sites d'interaction protéine-protéine. Bioinformatique 26, 1841–1848 (2010).
Article CAS Google Scholar
Dhole, K., Singh, G., Pai, PP et Mondal, S. Prédiction basée sur la séquence des sites d'interaction protéine-protéine avec classificateur L1-logreg. J. Théor. Biol. 348, 47–54 (2014).
Article CAS Google Scholar
Altschul, SF et al. Gapped BLAST et PSI-BLAST : une nouvelle génération de programmes de recherche de bases de données de protéines. Nucleic Acids Res. 25, 3389–3402 (1997).
Article CAS Google Scholar
Zhang, B., Li, J., Quan, L., Chen, Y. et Qiang, L. Prédiction basée sur la séquence des sites d'interaction protéine-protéine par un réseau de mémoire à long terme simplifié. Neuroinformatique 357, 86–100 (2019).
Article Google Scholar
Tao, D., Tang, X., Li, X. & Wu, X. Ensachage asymétrique et sous-espace aléatoire pour la rétroaction de pertinence basée sur les machines vectorielles de support dans la récupération d'images. IEEE Trans. Modèle Anal. Mach. Renseignement. 28, 1088-1099 (2006).
Article Google Scholar
Breiman, L. Bagging prédicteurs. Mach. Apprendre. 24, 123-140 (1996).
Article Google Scholar
Pedregosa, F. et al. Scikit-learn : apprentissage automatique en python. J.Mach. Apprendre. Rés. 12, 2825–2830 (2011).
Google Scholar
Spackman, Théorie de détection de signal KA : outils précieux pour l'évaluation de l'apprentissage inductif (Morgan Kaufmann Publishers Inc., 1989).
Télécharger les références
Le travail décrit dans cet article a été substantiellement soutenu par la Fondation nationale des sciences naturelles de Chine sous les subventions n° 62076109 et n° 61972174, et financé par la Fondation des sciences naturelles de la province de Jilin sous la subvention n° 20190103006JH. Le travail décrit dans cet article a été largement soutenu par une subvention du Research Grants Council of the Hong Kong Special Administrative Region [CityU 11200218], une subvention du Health and Medical Research Fund, du Food and Health Bureau, du gouvernement de Hong Kong Région administrative spéciale de Kong [07181426], et le financement du Hong Kong Institute for Data Science (HKIDS) de la City University of Hong Kong. Le travail décrit dans cet article a été partiellement financé par deux subventions de la City University of Hong Kong (CityU 11202219, CityU 11203520). Cette recherche a été substantiellement parrainée par le projet de recherche (Grant No. 32000464) soutenu par la Fondation nationale des sciences naturelles de Chine et a été substantiellement soutenue par l'Institut de recherche de Shenzhen, Université de la ville de Hong Kong.
Ces auteurs ont contribué à parts égales : Zilong Hou, Yuning Yang.
École d'intelligence artificielle, Université de Jilin, Jilin, Chine
Zilong Hou & Xiang Tao Li
Sciences et technologies de l'information, Northeast Normal University, Jilin, Chine
Yuning Yang et Zhiqiang Ma
Département d'informatique, City University of Hong Kong, Hong Kong SAR, Chine
Ka-chun Wong
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
Vous pouvez également rechercher cet auteur dans PubMed Google Scholar
ZLH, YNY, YSW et XTL ont conçu la recherche. ZLH et YNY ont développé des codes informatiques. KCW et ZQM ont réalisé les simulations. ZLH, YNY, YSW et XTL ont analysé les données. ZLH, YNY et XTL ont rédigé l'article.
Correspondance avec Xiangtao Li.
Les auteurs ne déclarent aucun intérêt concurrent.
Communications Biology remercie les relecteurs anonymes pour leur contribution à la relecture par les pairs de ce travail. Rédacteurs en chef de la manipulation principale : Yuedong Yang et Gene Chong.
Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.
Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.
Réimpressions et autorisations
Hou, Z., Yang, Y., Ma, Z. et al. Apprendre le langage protéique des sites de liaison protéine-protéine à l'échelle du protéome via un apprentissage en profondeur d'ensemble explicable. Commun Biol 6, 73 (2023). https://doi.org/10.1038/s42003-023-04462-5
Télécharger la citation
Reçu : 20 juin 2022
Accepté : 11 janvier 2023
Publié: 19 janvier 2023
DOI : https://doi.org/10.1038/s42003-023-04462-5
Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :
Désolé, aucun lien partageable n'est actuellement disponible pour cet article.
Fourni par l'initiative de partage de contenu Springer Nature SharedIt
En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.