banner
Centre d'Information
Articuler et maîtriser son expertise.

SVSBI : séquence

Dec 08, 2023

Communications Biology volume 6, Article number: 536 (2023) Citer cet article

549 accès

6 Altmétrique

Détails des métriques

Le criblage virtuel (VS) est une technique essentielle pour comprendre les interactions biomoléculaires, en particulier dans la conception et la découverte de médicaments. Cependant, la précision des modèles VS actuels repose fortement sur des structures tridimensionnelles (3D) obtenues par amarrage moléculaire, qui sont souvent peu fiables en raison de leur faible précision. Pour résoudre ce problème, nous introduisons un criblage virtuel basé sur des séquences (SVS) comme une autre génération de modèles VS qui utilisent des algorithmes avancés de traitement du langage naturel (NLP) et des stratégies optimisées d'intégration profonde de K pour coder les interactions biomoléculaires sans s'appuyer sur la structure 3D. amarrage. Nous démontrons que SVS surpasse les performances de pointe pour quatre ensembles de données de régression impliquant la liaison protéine-ligand, protéine-protéine, protéine-acide nucléique et l'inhibition du ligand des interactions protéine-protéine et cinq ensembles de données de classification pour les interactions protéine-protéine dans cinq espèces biologiques. SVS a le potentiel de transformer les pratiques actuelles en matière de découverte de médicaments et d'ingénierie des protéines.

Les biomolécules sont les éléments constitutifs de la vie et peuvent être classées en différentes catégories, notamment les glucides, les lipides, les acides nucléiques et les protéines en fonction de leur taille, de leur structure, de leurs propriétés physicochimiques et/ou de leurs fonctions biologiques. De plus, la réalisation de fonctions biomoléculaires s'accompagne souvent d'interactions physiques/chimiques directes avec d'autres molécules biologiques, de petits ligands, des ions et/ou des cofacteurs1. Ces interactions dépendent fortement des structures tridimensionnelles (3D) et de la dynamique des molécules, ainsi que des changements conformationnels biomoléculaires, en raison de leur flexibilité et de leur allostérie. La compréhension des interactions biomoléculaires est le Saint Graal de la science biologique.

La dernière décennie a vu les progrès rapides de la biologie computationnelle alimentés par la réalisation de l'intelligence artificielle (IA) et l'augmentation de la puissance des ordinateurs. Grâce à des techniques avancées de collecte, de traitement, d'analyse et de représentation des données, la biologie computationnelle moderne peut étudier les processus biologiques à des échelles extraordinaires et dans de multiples dimensions. Il a obtenu un grand succès pour diverses tâches biologiques2,3,4. La capacité à comprendre les interactions biomoléculaires via des approches d'IA avancées a une importance considérable pour un large éventail de domaines de recherche, y compris la découverte de médicaments3, la prévention des virus5, l'évolution dirigée4, etc. Cependant, la prédiction précise et fiable des interactions biomoléculaires reste un défi majeur défi.

En raison de la corrélation intrinsèquement élevée entre les informations de structure et les fonctions moléculaires, les approches basées sur la structure ont atteint une précision et une fiabilité élevées dans la modélisation et l'apprentissage des interactions biomoléculaires6,7,8,9,10,11. En conséquence, l'analyse et la prédiction actuelles des interactions biomoléculaires reposent fortement sur les structures 3D de haute qualité des complexes biomoléculaires interactifs. Malheureusement, la détermination expérimentale des structures 3D est à la fois longue et coûteuse, ce qui conduit à la rareté des structures expérimentales, en particulier les structures des complexes biomoléculaires interactifs. Pour surmonter cette difficulté, l'amarrage moléculaire basé sur des algorithmes de recherche et de notation est conçu pour générer des structures 3D des complexes interactifs, tels que des complexes anticorps-antigène et des complexes protéine-ligand. L'amarrage moléculaire est largement intégré dans le criblage virtuel (VS) des interactions biomoléculaires, offrant un moyen alternatif de construire les structures 3D de complexes biomoléculaires interactifs et constitue une étape cruciale dans la découverte de médicaments assistée par ordinateur (CADD). Cependant, l'amarrage moléculaire actuel est sujet à des erreurs, rendant des structures 3D inexactes et conduisant à un criblage virtuel peu fiable12. Malgré la percée dans la prédiction du repliement des protéines (non interactives simples) par Alphafold22, la prédiction de la structure des complexes biomoléculaires interactifs reste un défi de taille. Il est urgent de développer des stratégies innovantes pour le criblage virtuel des interactions biomoléculaires.

Alternativement, les approches basées sur les séquences peuvent fournir des intégrations profondes efficaces, robustes et facilement accessibles d'interactions biomoléculaires sans invoquer l'ancrage de la structure 3D. Les approches séquencées sont beaucoup plus largement applicables que celles basées sur la structure, car la banque de gènes compte plus de 240 000 000 de séquences, contre seulement 200 000 structures de protéines 3D dans la banque de données sur les protéines (PDB), ce qui confère aux approches basées sur les séquences une applicabilité plus large. Il existe trois principaux types d'approches basées sur les séquences : (1) les méthodes basées sur la composition telles que la composition en acides aminés (AAC)13, la composition en acides nucléiques (NAC)14 et la pseudo AAC (PseAAC)15 ; (2) les méthodes basées sur l'autocorrélation telles que l'auto-covariance16 ; et (3) des méthodes basées sur l'évolution telles que la matrice de fréquence spécifique à la position (PSFM) et les matrices de score spécifiques à la position (PSSM)15. Pendant ce temps, l'utilisation de modèles NLP pour analyser les informations cachées dans les séquences moléculaires, y compris les modèles protéiques, a été couronnée de succès au cours des dernières décennies17,18,19.

Les méthodes basées sur la composition construisent des incorporations basées sur la distribution de résidus uniques ou de sous-chaînes. Les méthodes basées sur l'autocorrélation sont basées sur la mesure statistique des propriétés physicochimiques de chaque résidu, telles que l'hydrophobicité, l'hydrophilie, la masse de la chaîne latérale, la polarité, la surface accessible au solvant, etc. Les méthodes basées sur l'évolution extraient les informations évolutives de grandes bases de données en évaluant l'occurrence de chaque résidu ou le score de ce résidu étant muté en un autre type. Ces méthodes surpassent généralement les méthodes basées sur la composition et basées sur l'autocorrélation en raison de leur utilisation efficace d'un grand nombre de séquences moléculaires sélectionnées par des milliards d'années d'évolution naturelle. Les méthodes basées sur le traitement du langage naturel (NLP) ont été largement utilisées pour intégrer des molécules. Parmi eux, les encodeurs automatiques (AE), la mémoire longue à court terme (LSTM) et le transformateur sont les plus populaires. Un modèle LSTM, UniRep, permet une ingénierie rationnelle des protéines basée sur les séquences20. Un auto-encodeur interne a été entraîné avec 104 millions de séquences21. La modélisation à l'échelle évolutive (ESM) est un transformateur à grande échelle formé sur 250 millions de séquences de protéines, qui a atteint des performances de pointe dans de nombreuses tâches, y compris les prédictions de structure22. Pour l'ADN dans le génome, le modèle de représentation d'encodeur bidirectionnel pré-formé DNABERT a réussi dans les tâches d'ADN non codantes, telles que la prédiction des promoteurs, des épissures et des sites de liaison des facteurs de transcription23. De plus, un petit transformateur moléculaire interne a été formé avec plus de 700 millions de données de séquence24. Cependant, aucune de ces méthodes n'a été conçue pour les interactions biomoléculaires.

Dans ce travail, nous avons proposé un criblage visuel basé sur la séquence (SVS) d'interactions biomoléculaires qui peut prédire une grande variété d'interactions biologiques avec une précision au niveau de la structure sans invoquer des structures 3D. Le module de traitement du langage biologique dans SVS se compose de plusieurs modèles NLP, extrait simultanément des informations évolutives et contextuelles de différentes biomolécules pour reconstruire des représentations de séquences pour des molécules interactives, telles que des protéines, des acides nucléiques et/ou de petites molécules. SVS a une forte généralisabilité à divers types de tâches pour les propriétés et les interactions biomoléculaires. En particulier, SVS fournit la stratégie optimale d'intégration de K pour étudier les interactions entre plusieurs (bio)molécules avec un coût de calcul négligeable. Les modèles intramoléculaires et les mécanismes intermoléculaires peuvent être capturés efficacement par notre SVS sans effectuer l'amarrage basé sur la structure 3D coûteux et chronophage. Nous avons montré les performances de pointe de SVS sur neuf tâches de prédiction, y compris quatre fonctions de notation d'affinité de liaison (c'est-à-dire protéine-ligand, protéine-protéine, protéine-acide nucléique et ligand inhibition des interactions protéine-protéine) et cinq ensembles de données de classification interactions protéine-protéine (IPP). Des validations étendues indiquent que SVS est une méthode générale, précise, robuste et efficace pour le criblage virtuel des interactions biomoléculaires.

Notre SVS est un framework basé sur des séquences offrant des prédictions d'apprentissage en profondeur des interactions biomoléculaires (Fig. 1). Premièrement, le module d'interaction biomoléculaire identifie les types de partenaires biomoléculaires interactifs et traite le problème dans le flux correspondant. Ensuite, les séquences associées sont collectées et conservées dans le module de séquence biomoléculaire. De plus, le module de traitement du langage biomoléculaire génère les incorporations NLP de molécules interactives individuelles à partir de leurs données de séquence. De plus, le module K-embedding conçoit en outre des intégrations K interactives à partir d'intégrations PNL individuelles pour déduire leurs informations interactives. Enfin, le module d'algorithme d'apprentissage automatique en aval offre les prédictions de régression et de classification de pointe de diverses interactions biomoléculaires.

a SVS est conçu pour une grande variété d'interactions biomoléculaires impliquant des protéines, de l'ADN, de l'ARN, des ligands et leurs combinaisons arbitraires. b Les séquences moléculaires sont extraites de protéines, d'acides nucléiques et de petits ligands moléculaires impliqués dans des complexes d'interaction biomoléculaires. c Le module de traitement du langage biomoléculaire présente les incorporations NLP de complexes biomoléculaires à partir d'informations de séquence. d Le module K-embedding génère la représentation optimale des interactions biomoléculaires à partir des incorporations d'ordre inférieur. Chaque carré du panneau représente un type de stratégies de 3-intégration. Différents modèles représentent différents 1-incorporations (c'est-à-dire, une intégration NLP) ou une incorporation d'ordre inférieur ; différentes couleurs représentent différentes fonctions d'intégration, qui indiquent comment le K-embedding est construit. e Les algorithmes d'apprentissage automatique supervisé apprennent du modèle optimal d'incorporation de K des interactions biomoléculaires. En principe, il n'y a aucune restriction sur le choix des algorithmes. Plus précisément, dans ce travail, nous utilisons GBDT et ANN. f Les algorithmes d'apprentissage automatique sont appliqués à diverses tâches de classification et de régression, y compris les classifications des protéines membranaires, les identifications de peptides thérapeutiques, les identifications des interactions protéine-protéine, la prédiction de l'affinité de liaison des interactions protéine-protéine, protéine-ligand, protéine-acides nucléiques et l'inhibition des protéines –interaction protéique.

Dans le module de traitement du langage biologique, des intégrations NLP sont générées pour les protéines, les acides nucléiques et les petites molécules à l'aide de leurs données de séquence (Fig. 1b). Nous utilisons différents types de modèles de PNL, notamment le modèle de protéine LSTM (UniRep)20, le transformateur de protéine (ESM)22, le transformateur d'ADN (DNABERT)23, le petit transformateur moléculaire24 et le petit autoencodeur moléculaire21. Nous nous concentrons particulièrement sur les modèles Transformer en raison de leurs performances de pointe avec la prise en compte des dépendances de séquence via un mécanisme d'attention25,26,27. Les informations enrichies, telles que les informations évolutives, la structure 3D et les propriétés biochimiques22,24 peuvent être déduites par les transformateurs.

Le module d'intégration de K (stratégies d'intégration de K) prend plusieurs intégrations de composants moléculaires interactifs en entrée et les intègre dans un modèle d'intégration de K profond optimal pour déchiffrer les propriétés biomoléculaires et les interactions intermoléculaires (Fig. 1d). Les modèles de criblage virtuels traditionnels basés sur la structure 3D nécessitent une procédure d'amarrage moléculaire pour générer les structures moléculaires 3D des complexes interactifs, ce qui est inefficace et peu fiable28. La précision et l'efficacité d'une méthode d'amarrage basée sur la structure sont déterminées conjointement par plusieurs sous-processus, notamment la détermination de la structure moléculaire1, la recherche d'espace d'amarrage rigide et flexible1 et la construction de la fonction de notation29. Les études actuelles ont réussi dans chacun de ces sous-processus. Cependant, des erreurs mineures dans ces sous-processus peuvent s'accumuler et entraîner un arrimage basé sur la structure peu fiable. Alternativement, dans notre cadre SVS, les stratégies d'intégration de K peuvent convertir les informations de distribution des intégrations moléculaires interactives en intégration de K optimale et extraire les caractéristiques essentielles des interactions biomoléculaires, ce qui améliore la modélisabilité des algorithmes d'apprentissage automatique dans l'apprentissage d'informations interactives moléculaires non linéaires cachées. .

Le module d'apprentissage automatique prend les stratégies d'intégration de K du module d'intégration de K pour les prédictions de propriétés moléculaires. Les algorithmes d'apprentissage automatique en aval comprennent un réseau de neurones artificiels (ANN) et un arbre de décision d'amplification de gradient (GBDT) pour les tâches prédictives. Les hyperparamètres des deux modèles sont systématiquement optimisés via l'optimisation bayésienne ou la recherche de grille pour s'adapter à différentes tailles d'ensembles de données et d'intégrations K profondes, et à différentes tâches (algorithmes d'apprentissage automatique et optimisation bayésienne pour le réglage des hyperparamètres ANN). Pour chaque tâche, la stratégie optimale d'intégration de K est choisie avec les hyperparamètres d'optimisation ci-dessus qui obtiennent le meilleur score prédictif en précision pour la classification ou dans le coefficient de corrélation de Pearson pour la régression.

Quantitativement, l'affinité de liaison, définie comme la force des interactions moléculaires, se reflète dans les termes physicochimiques de la constante de dissociation (Kd), des constantes d'inhibiteur (Ki), de la concentration inhibitrice demi-maximale (IC50) ou de l'énergie libre de Gibbs correspondante30. Les prédictions précises des affinités de liaison moléculaire ne sont pas seulement une étape importante dans la modélisation des systèmes biologiques, mais également un problème fondamental pour plusieurs utilisations pratiques, notamment la découverte de médicaments8,10,31, l'ingénierie moléculaire et l'analyse de la mutagenèse4.

La notation des complexes de liaison protéine-ligand est le but ultime du criblage virtuel dans la découverte de médicaments. En règle générale, des millions de candidats-médicaments sont criblés pour une cible médicamenteuse donnée. La précision et l'efficacité du criblage virtuel sont essentielles pour la découverte de médicaments8,32. Actuellement, l'amarrage basé sur la structure 3D inexact et le criblage virtuel peu fiable associé sont les principaux obstacles à la conception et à la découverte rationnelles de médicaments.

Dans cette étude, nous avons appliqué SVS pour prédire l'affinité de liaison protéine-ligand sur l'ensemble de données PDBbind 201633, un ensemble de données de référence populaire utilisé par des centaines d'équipes de recherche pour valider leurs fonctions de notation de liaison protéine-ligand7,8,9,33,33,34 ,35,36,37,38. Il contient les données de formation de 3772 complexes protéine-ligand de l'ensemble raffiné PDBbind 2016 et les données de test de 285 complexes de l'ensemble de base. La disponibilité de structures complexes 3D dans la base de données PDBbind favorise les fonctions de notation basées sur la structure, telles que les modèles d'apprentissage automatique basés sur la topologie algébrique, tels que TopBP10, PerSpect-ML31 et AA-score32.

La meilleure performance des méthodes basées sur l'empreinte digitale 2D, obtenue par l'empreinte digitale à connectivité étendue protéine-ligand (PLEC)35, était Rp = 0,817. En fait, les informations sur la structure 3D ont été utilisées dans le PLEC, soulignant l'importance des structures 3D dans les fonctions de notation de liaison protéine-ligand existantes. Nous sélectionnons cet ensemble de données pour examiner si le SVS proposé, sans recourir à des informations structurelles, peut atteindre le même niveau de précision que les fonctions de notation basées sur la structure.

Comme le montre la figure 2b, notre modèle SVS donne la prédiction précise de l'affinité de liaison avec Rp = 0, 832 et RMSE 1, 696 kcal mol-1 (figure 2b). Pour les méthodes basées sur la structure, Rp> 0,7 peut généralement être atteint si des structures expérimentales de complexes protéine-ligand sont utilisées, tandis qu'un Rp inférieur <0,65 est obtenu lorsque l'amarrage moléculaire, tel que ASP @ GOLD et Autodock, est utilisé pour générer les structures de complexes protéine-ligand33. La méthode TopBP basée sur la structure, utilisant la topologie algébrique pour simplifier la complexité de la structure des complexes protéine-ligand 3D, a obtenu les meilleures performances avec un Rp/RMSE de 0,861/1,65 kcal mol-110 dans la littérature. En excluant les méthodes avancées basées sur la structure basées sur les mathématiques, SVS surpasse les autres méthodes basées sur la structure, par exemple, AK-score7 (Rp : 0,827), NNScore + RDKit38 (Rp : 0,826) (Fig. 2b). Cette réalisation est d'une importance énorme car la qualité et la fiabilité du criblage virtuel actuel peuvent être considérablement améliorées au niveau des approches basées sur la structure cristalline des rayons X sans dépendre des structures expérimentales 3D. Notre résultat a une implication de grande envergure - un criblage virtuel fiable peut être effectué sur n'importe quelle cible médicamenteuse sans s'appuyer sur les structures 3D des complexes médicament-protéine.

a Une comparaison des affinités de liaison prédites à l'échelle et des résultats expérimentaux pour les prédictions d'affinité de liaison des ensembles de données protéine-ligand (PL), protéine-acide nucléique (PN), protéine-protéine (PP) et inhibition des PPI (iPPI). Chaque ensemble de données est adapté à une région spécifique avec une plage égale pour une visualisation claire. b Comparaison du coefficient de corrélation de Pearson (Rp) de notre modèle SVS et de celui d'autres approches basées sur la structure pour la prédiction de l'affinité de liaison protéine-ligand de l'ensemble de base PDBbind-201633. Les résultats dans les couleurs rouge, bleue et verte sont obtenus en n'utilisant aucune structure (c'est-à-dire séquence), des structures expérimentales et des structures générées par l'amarrage des complexes protéine-ligand, respectivement. Notre SVS surpasse les modèles de pointe, tels que AK-score7, NNScore+RDKit38 et bien d'autres9,33,34,35,36,37. c Comparaison de différents modèles de PNL pour les coefficients de corrélation de Pearson Rp de la prédiction de la liaison protéine-ligand. d Les distributions d'importance relative des différents modèles de PNL, comme indiqué en c. Chaque ligne se compose de 512 + 1280/1900 lignes verticales colorées, et chacune représente l'importance d'une caractéristique générée par les modèles NLP. La ligne pointillée noire est la ligne de démarcation pour les caractéristiques appartenant à différents types de molécules. Le pourcentage à gauche ou à droite de la ligne pointillée noire est la proportion de la somme de l'importance des caractéristiques pour le même type de molécules.

Les performances de différentes combinaisons d'intégrations de protéines et de ligands sont explorées plus en détail (Fig. 2c). Nous avons utilisé le modèle ESM Transformer22 et UniRep LSTM20 pour l'incorporation de protéines, ainsi qu'un modèle Transformer24 et un modèle autoencoder21 pour l'incorporation de ligands. Notre analyse indique que le petit transformateur moléculaire surpasse l'auto-encodeur. De plus, Transformer atteint de meilleures performances que le modèle LSTM pour l'incorporation de protéines. Une analyse plus approfondie des caractéristiques est fournie à partir de l'analyse de l'importance des caractéristiques de GBDT (Fig. 2d). Les deux petits encastrements moléculaires ont la dimension de 512. Pour les encastrements de protéines, la dimension du transformateur est de 1280 et LSTM est de 1900. Premièrement, les petites caractéristiques moléculaires ont des caractéristiques plus importantes. L'importance moyenne des petites caractéristiques moléculaires est de 0,082 (41,9/512), 0,074, 0,082 et 0,088 pour quatre cas de haut en bas (Fig. 2d). En revanche, l'importance moyenne des caractéristiques protéiques est de 0,045, 0,049, 0,031 et 0,028 pour quatre cas. De plus, le petit transformateur moléculaire offre des fonctionnalités plus importantes que l'auto-encodeur. Pour les incorporations de protéines, le transformateur a des caractéristiques plus importantes que le LSTM. Par conséquent, la combinaison du transformateur de ligand et du transformateur ESM de protéine permet d'obtenir la meilleure prédiction, comme le montre la figure 2c.

L'affinité de liaison protéine-protéine fait référence à la force de l'interaction attractive entre deux protéines, comme un complexe anticorps-antigène, lorsqu'elles se lient l'une à l'autre. C'est une mesure importante pour évaluer la stabilité et la spécificité des interactions protéine-protéine (IPP), qui sont vitales pour de nombreux processus biologiques.

Comprendre l'affinité de liaison protéine-protéine est important pour de nombreuses applications, notamment la découverte de médicaments, la conception d'anticorps, l'ingénierie des protéines et la biologie moléculaire. Par exemple, sachant comment l'affinité de liaison anticorps-antigène est affectée par la forme de l'anticorps, la charge et l'hydratation de l'anticorps, et la présence de sites ou de résidus de liaison spécifiques sur l'anticorps, on peut concevoir des anticorps avec des propriétés de liaison spécifiques pour neutraliser virus39,40.

L'affinité de liaison protéine-protéine peut être quantifiée par les énergies libres de Gibbs. La résonance plasmonique de surface (SPR), la calorimétrie de titrage isotherme (ITC), le dosage immuno-enzymatique (ELISA) et le Western blot sont utilisés pour déterminer les affinités de liaison protéine-protéine. Dans notre travail, nous construisons un modèle SVS pour prédire les affinités de liaison protéine-protéine à partir de séquences protéiques. Nous collectons et conservons un ensemble de 1795 complexes PPI (Datasets) dans la base de données PDBbind41. Cet ensemble de données est utilisé pour montrer la nature polyvalente de SVS. Les séquences de ces complexes PPI sont extraites et incorporées à l'aide du transformateur. Les PPI sont représentés par la pile de leurs plongements Transformer dans notre étude. Notre modèle SVS a atteint le Rp de 0,743 et le RMSE de 1,219 kcal mol-1 via une validation croisée de 10 fois, et la comparaison de la valeur prédite par rapport à la vérité terrain est illustrée à la Fig. 2a. Notre résultat indique que SVS est une approche robuste pour prédire l'affinité de liaison des IPP.

Une autre classe d'interactions biomoléculaires est la liaison protéine-acide nucléique qui joue un rôle important dans la structure et la fonction des cellules, notamment la catalyse des réactions chimiques, le transport des molécules, la transduction du signal, la transcription et la traduction. Il est également impliqué dans la régulation de l'expression des gènes et dans le maintien de la structure et de la fonction des chromosomes. La dérégulation de la liaison protéine-acide nucléique peut entraîner diverses maladies et troubles, tels que le cancer, des troubles génétiques et des maladies auto-immunes. La compréhension des facteurs, tels que la liaison hydrogène, le dipôle, l'électrostatique, l'interaction de Van der Waals, l'hydrophobicité, etc. qui influencent les affinités de liaison protéine-acide nucléique peut être utilisée pour concevoir de nouvelles molécules thérapeutiques.

Dans ce travail, nous appliquons SVS pour analyser et prédire l'affinité de liaison protéine-acide nucléique. En raison du manque d'ensembles de données de référence existants, nous extrayons un ensemble de données de la base de données PDBbind41. Au total, 186 complexes protéine-acide nucléique ont été collectés (ensembles de données). Cet ensemble de données est choisi pour démontrer que le SVS fonctionne bien pour prédire les interactions biomoléculaires impliquant des acides nucléiques. Pour ce problème, notre SVS utilise un transformateur (ESM) pour intégrer des séquences de protéines et un autre transformateur (DNABERT) pour intégrer des séquences d'acides nucléiques. Notre modèle montre de bonnes performances avec un Rp/RMSE moyen de 0,669/1,45 kcal mol−1 dans une validation croisée de 10 fois. Nos résultats sont représentés sur la figure 2a. Compte tenu du fait que l'ensemble de données est très petit, notre prédiction SVS est très bonne.

Après avoir démontré la SVS pour les prédictions de liaison protéine-ligand, protéine-protéine, protéine-acide nucléique, nous considérons en outre un problème impliquant plusieurs composants moléculaires. L'inhibition par petites molécules de la prédiction de l'interaction protéine-protéine (iPPI) implique au moins trois molécules.

Les interactions protéine-protéine sont essentielles pour les organismes vivants. Le dysfonctionnement des IPP peut entraîner diverses maladies, notamment l'immunodéficience, les troubles auto-immuns, les allergies, la toxicomanie et le cancer42. Par conséquent, l'inhibition des IPP (iPPI) est d'un grand intérêt dans la conception et la découverte de médicaments. Des études récentes ont démontré un potentiel biomédical substantiel pour les iPPI avec des ligands43.

Cependant, l'iPPI avec des ligands est un défi dans une vaste gamme de phases d'investigation, y compris la validation de la cible, le dépistage des ligands et l'optimisation des pistes44. Les méthodes de calcul traditionnelles pour les prédictions iPPI ont diverses limites. Par exemple, les approches basées sur la structure doivent surmonter la complexité de l'amarrage des ligands causée par les interfaces larges et dynamiques des PPI, même avec des structures complexes expérimentales stables et fiables45. Récemment, Rodrigues et al.42 ont développé un modèle spécifique à l'interaction, appelé pdCSM-PPI, qui utilise des représentations graphiques des structures de ligands dans le cadre du criblage virtuel basé sur les ligands. Une caractéristique importante de leur approche est que leurs modèles sont basés sur des ligands et spécifiques à la cible : l'entrée de chaque modèle est un ensemble de ligands qui ciblent un IPP particulier. Au lieu d'explorer le mécanisme caché de l'iPPI, leurs modèles reposent sur une comparaison de ligands en supposant que des ligands avec des structures similaires présentent un comportement similaire, c'est-à-dire le principe de propriété similaire. Leur approche évite les difficultés liées au manque de structures iPPI et de mécanismes moléculaires en utilisant des prédictions spécifiques à la cible, dans lesquelles un modèle d'apprentissage automatique est construit pour les ligands ciblant le même système PPI. Par conséquent, il ne peut pas être utilisé pour le criblage de nouvelles cibles. En revanche, SVS peut éviter cette difficulté en incorporant des séquences de cibles PPI. En conséquence, SVS peut être directement appliqué pour explorer l'inhibition de nouveaux IPP sans faire correspondre les cibles dans les ensembles de données iPPI existants.

Dans ce travail, nous avons analysé les IPP et les ligands en utilisant diverses stratégies d'incorporation de K, pour prédire la concentration semi-maximale d'inhibiteur (CI50) de l'inhibition du ligand des IPP. Pour chaque complexe iPPI, un petit transformateur moléculaire et un transformateur protéique sont utilisés pour intégrer une séquence de ligand et deux séquences de protéines dans notre SVS. Nous avons testé notre modèle sur le jeu de données considéré par Rodrigues et al.42. Notre modèle montre un Rp de 0,766 et un RMSE de 0,761 mol/L dans la validation croisée de 10 fois, tandis que le Rp et le RMSE du modèle pdCSM-PPI antérieur sont de 0,74 et 0,95 mol/L, respectivement. SVS montre une meilleure performance à la fois en Rp et en RMSE, illustrant la supériorité de la méthode SVS. La comparaison des résultats prédictifs par rapport à la valeur de vérité terrain de notre modèle se trouve sur la figure 2a.

Nous explorons les stratégies de K-embedding via divers deep embeddings NLP. Nous examinons trois fonctions d'intégration dans cette étude, c'est-à-dire Stack, Prod et Diff, pour générer des stratégies d'incorporation de K avec l'incorporation d'ordre supérieur construite à partir d'incorporations d'ordre inférieur. Stack concatène deux intégrations de traitement de langage biomoléculaire à partir de deux protéines dans un complexe PPI en un seul vecteur d'intégration. Cette méthode préserve l'intégralité des informations fournies par le module de traitement du langage biomoléculaire, mais l'inconvénient est sa haute dimensionnalité. Étant donné que deux protéines d'un complexe PPI sont codées par deux vecteurs de longueur identique, l'intégration en 2 peut être effectuée via les opérations par composants entre ces deux vecteurs. Nous avons également testé le produit par composant (Prod) et la valeur absolue de la différence (Diff). Ces approches d'intégration 2 par composant se traduisent par des intégrations 2 de dimension inférieure pour le module d'apprentissage automatique en aval. Les formules spécifiques correspondant à ces trois stratégies sont décrites dans les Eqs. (2), (3) et (4), respectivement.

Ici, nous choisissons 14 types d'intégrations profondes d'ordre supérieur qui tiennent pleinement compte de l'homogénéité ou de l'hétérogénéité des modèles NLP, qui sont illustrés à la figure 3a avec leurs performances prédictives. Il convient de noter que cet ensemble de données iPPI est un ensemble de données ligand-central composé de plusieurs ligands qui ciblent le même PPI. Par conséquent, l'incorporation de 1 pour le traitement des informations de séquence de ligand jouera le rôle le plus important. Nos expériences montrent que l'utilisation de modèles basés sur Transformer avec les schémas Stack donnera une performance de pointe.

a Illustration des performances (Rp) de différentes stratégies de K-embedding. b L'analyse de l'importance des caractéristiques du ligand, de la protéine1 et de la protéine2 dans les prédictions iPPI en utilisant la meilleure stratégie d'intégration de K (c'est-à-dire la pile de trois transformateurs). c La proportion de caractéristiques de ligand dans les principales caractéristiques de SVS pour iPPI en utilisant la meilleure stratégie d'incorporation de K (c'est-à-dire la pile de trois transformateurs). L'axe des abscisses indique la quantité de caractéristiques supérieures à considérer et l'axe des ordonnées représente la proportion de caractéristiques de ligand dans les caractéristiques supérieures.

Nous analysons en outre l'importance des caractéristiques de nos meilleurs schémas de GBDT pour les caractéristiques codant pour les ligands et les protéines. Fait intéressant, les caractéristiques des ligands sont nettement plus importantes que celles des protéines (Fig. 3b). Plus précisément, l'importance des caractéristiques du ligand est beaucoup plus élevée à 84,2 %, tandis que la somme d'importance pour deux protéines n'est que de 15,8 %. D'autre part, les principales caractéristiques comprennent une forte proportion de caractéristiques de ligand, par exemple, 96, 4% des 512 principales caractéristiques proviennent de caractéristiques de ligand (Fig. 3c). Une raison possible d'un tel déséquilibre des caractéristiques peut être que seuls quelques systèmes PPI sont inclus dans cet ensemble de données qui contient 1694 ligands mais seulement 31 PPI. Bien que les caractéristiques des protéines soient moins importantes, elles sont nécessaires pour apprendre l'iPPI sans cible correspondante. Comme le montre la figure 3a, sans informations PPI (non-codage des PPI), ou avec seulement des informations de classification triviales des PPI (codage à paire unique des PPI), nos modèles montrent une baisse substantielle de la précision prédictive. La seule exception est Diff de la cible PPI. L'une des raisons est que de nombreuses protéines de cette cible IPP appartiennent à la même famille de protéines. Ainsi, la grande similitude de séquence de ces protéines ne fournirait que des informations très limitées pour les schémas Diff. En général, les caractéristiques des protéines sont des composants nécessaires pour l'apprentissage des iPPI ciblés inégalés.

Les interactions protéine-protéine (IPP) régulent de nombreux processus biologiques, notamment la transduction du signal, la réponse immunitaire et l'organisation cellulaire46. Cependant, la sélectivité et la force des IPP dépendent des espèces et de l'environnement cellulaire. L'identification et l'étude des IPP peuvent aider les chercheurs à comprendre le mécanisme moléculaire des fonctions des protéines et la façon dont les protéines interagissent les unes avec les autres au sein d'une cellule ou d'un organisme.

Nous avons utilisé la méthode SVS pour identifier les IPP, où notre modèle a classé les paires de protéines dans un ensemble de données donné en suivant les protocoles standard de formation et de fractionnement des tests dans la littérature14,47. Les échantillons positifs ont été définis comme des paires de protéines en interaction qui sont en contact physique direct par le biais de forces intermoléculaires, tandis que les échantillons négatifs ont été générés en sélectionnant au hasard des paires de protéines dans des compartiments sous-cellulaires distincts14,47. Cinq ensembles de données PPI avec différentes espèces, y compris Homo sapiens (HS), Mus musculus (MM), Saccharomyces cerevisiae (SC), Drosophila melanogaster (DM) et Helicobacter pylori (HP) sont utilisés pour la référence. Ici, nous explorons trois stratégies d'incorporation de K : Stack, Prod et Diff.

Étant donné que les performances des modèles de régression sont compliquées, nous analysons d'abord les performances des fonctionnalités interactives sans modèles de régression en aval. En particulier, nous avons utilisé le graphique RS pour visualiser le score de résidu de caractéristique (R) par rapport au score de similarité (S)48. Le R-score et le S-score d'un échantillon donné sont calculés en considérant les distances de ses caractéristiques avec celles des échantillons inter-classes et des échantillons intra-classe, formulés comme Eqs. (10) et (11), respectivement. Le score R et le score S vont de 0 à 1. Un échantillon avec un score R plus élevé indique qu'il est loin des échantillons d'autres classes, et un score S plus élevé indique qu'il est proche d'autres échantillons de la même classe. classe. Une méthode de caractérisation efficace devrait avoir à la fois des scores R et des scores S élevés, bien qu'il existe un compromis clair entre les scores R et S (Fig. 4b). Notamment, un tel compromis peut également être quantifié par l'indice RS (Eq. (14)). L'analyse RS montre que les fonctionnalités Stack sont situées en haut à droite des intégrations Prod et Diff, à l'exception de l'ensemble de données H. pylori (situé dans une zone similaire), bien qu'elles se chevauchent largement sur tous les ensembles de données. De plus, du point de vue de l'indice RS, Stack et Diff ont des avantages dans deux ensembles de données, et Prod a des avantages dans un ensemble de données.

a–e Comparaisons de notre modèle prédictif (SVS) avec certains modèles d'identification PPI antérieurs. La comparaison de chaque ensemble de données est affichée indépendamment dans une sous-parcelle avec le nom de l'ensemble de données en haut. Pour chaque sous-parcelle, l'axe des abscisses représente les scores de précision, allant de 0,75 à 1 ; l'axe des ordonnées répertorie le nom de chaque modèle. Notre SVS surpasse les modèles de pointe, tels que SVM-NVDT14, RF-NVDT14, PCVMZM58, TAGPPI47, etc. f Comparaison de différentes stratégies de K-embedding, mesurées par analyse RS sur les caractéristiques. Trois stratégies d'incorporation de K, Prod, Diff et Stack, sont choisies à des fins de comparaison. Cette parcelle est composée verticalement de cinq sections similaires. Chaque section représente un jeu de données avec le nom sur la gauche. De plus, chaque section possède deux parties. La partie gauche comporte deux sous-parcelles montrant le tracé RS des caractéristiques positives ou négatives générées par différentes stratégies. La partie droite montre l'indice RS (RSI) des différentes stratégies. g La précision de comparaison des modèles prédictifs de différentes stratégies d'incorporation de K.

De plus, nous avons comparé différentes stratégies d'intégration de K en couplant avec les modèles de régression identiques en utilisant une validation croisée quintuple (Fig. 4b). De manière cohérente, la stratégie Stack a montré le score de précision le plus élevé que les autres dans les performances de leur modèle en aval pour tous les ensembles de données testés (Fig. 4c). Dans l'ensemble, Stack fournit une stratégie optimale d'intégration de K.

Dans l'ensemble, nos modèles avec la meilleure pile d'intégrations de traitement biomoléculaire du langage ont montré des scores de précision aussi élevés que 99,93 %, 99,28 %, 99,64 %, 99,22 % et 98,69 % pour les ensembles de données Helicobacter pylori, Mus musculus, Saccharomyces cerevisiae, Helicobacter pylori et Drosophila. melanogaster, respectivement (Fig. 4a et Tableau supplémentaire 1). En comparaison, la méthode de pointe, SVM-NVDT14, donne respectivement 98,56 %, 94,83 %, 99,20 %, 95,41 % et 94,94 % pour ces ensembles de données. SVM-NVDT était basé sur des vecteurs naturels et des informations sur les dinucléotides et les nucléotides triplets. En outre, la note supplémentaire 2 affiche des résultats supplémentaires de nos modèles SVS, y compris les courbes AUC qui sont présentées dans la figure supplémentaire 1. Nos modèles surpassent tous les modèles précédents par une marge substantielle, ce qui démontre la supériorité de notre méthode sur les méthodes précédentes pour identifier les IPP.

Dans cette étude, nous utilisons des représentations de modèles de langage moléculaire traditionnels comme point de départ pour définir de manière inductive les intégrations de K d'ordre élevé, qui fournissent une stratégie systématique pour représenter les interactions biologiques impliquant un nombre arbitraire de molécules. En générant différents K-embeddings, nous pouvons capturer efficacement et facilement les représentations de séquences des modèles NLP générés pour une seule molécule. Ces incorporations de K permettent une prise en compte complète de l'hétérogénéité potentielle des biomolécules interactives, améliorant la représentabilité des molécules individuelles. De plus, la conception du K-embedding permet à SVS d'optimiser les algorithmes d'apprentissage automatique/profond en aval. Pour démontrer l'utilité des K-embeddings, nous concevons deux algorithmes d'apprentissage automatique qui obtiennent des résultats de pointe.

Pour prédire les interactions biomoléculaires, les approches basées sur la structure sont populaires et très précises lorsque les représentations topologiques de structures 3D de haute qualité sont utilisées10. Cependant, leurs performances dépendent de la disponibilité de structures expérimentales fiables à haute résolution. L'amarrage structurel est un protocole nécessaire pour les approches basées sur la structure lorsqu'il n'y a pas de structure expérimentale disponible pour le complexe interactif. De plus, la puissance des méthodes basées sur la structure réside dans leur capacité à capturer avec précision les informations géométriques des complexes interactifs. Par conséquent, la disparité entre les structures ancrées et les structures expérimentales sera également héritée par les modèles basés sur la structure. Cependant, aucune étude n'a montré que les modèles d'amarrage moléculaire actuels peuvent contrôler cette disparité dans des tolérances acceptables. En revanche, notre méthode SVS fournit une approche alternative pour l'étude des complexes moléculaires interactifs en utilisant uniquement des données de séquence. Il intègre implicitement des informations structurelles, la flexibilité, l'évolution structurelle et la diversité dans l'espace latent, qui est optimisé pour les modèles en aval grâce à des stratégies d'intégration de K. Il convient de noter que SVS atteint le même niveau de précision que la meilleure approche basée sur la structure, comme le montre la Fig. 2.

Les modèles de criblage virtuels basés sur les ligands constituent également une autre approche efficace qui peut éviter l'amarrage basé sur la structure pour évaluer l'interaction biomoléculaire avec les ligands49. Cependant, l'utilisation actuelle des modèles basés sur des ligands est assez limitée car ces modèles ne peuvent en principe être appliqués qu'à des ensembles de données spécifiques à des cibles et ne peuvent pas être utilisés pour le criblage impliquant de nouvelles cibles. Nous avons montré qu'en combinant les intégrations profondes de cibles et de ligands via des stratégies d'intégration de K, SVS donne lieu à des prédictions robustes non spécifiques à la cible avec une précision basée sur la structure.

Le module Biological language processing et le module K-embedding sont deux composants majeurs des modèles SVS. Classiquement, les performances du modèle reposent à la fois sur des modules de caractérisation et sur des algorithmes d'apprentissage automatique. Pour analyser uniquement la qualité des modules de caractérisation, nous effectuons une analyse de similarité des résidus (RS) à l'aide du tracé RS et de l'indice RS48 pour les tâches de classification (Fig. 4b). L'analyse RS décrit la qualité des caractéristiques en termes de scores de similarité et de scores de résidus ainsi que l'écart entre les différentes classes.

Nous analysons plus en détail les comportements SVS sur différents ensembles de données en termes de grandeurs et de modélisation (Fig. 5a), où les informations de base des ensembles de données de correspondance peuvent être trouvées dans le tableau supplémentaire 3. Trois mesures sont utilisées : l'indice de modélisation, l'indice prédictif et l'indice de magnitude de l'indice. L'indice de modélisation et l'indice de magnitude sont calculés sur la base des données d'apprentissage de chaque ensemble de données, tandis que l'indice prédictif est calculé sur la base de nos résultats prédictifs sur les données de test. Notez que si notre modèle est testé par validation croisée, l'ensemble de données complet sera calculé pour chacun des cinq indices. L'indice prédictif est choisi en fonction des types de tâches : nous avons choisi le score de précision pour les tâches de classification et Rp pour les tâches de régression. L'indice de modélisation, qui représente la faisabilité de notre approche sur les données d'apprentissage de chaque jeu de données, est évalué en calculant le rapport pondéré par classe (classification) ou la falaise d'activité (régression) entre les plus proches voisins des échantillons (Eqs. (15 ) et (16)). Des études antérieures50,51 ont suggéré que 0,65 est le seuil pour séparer les ensembles de données modélisables et non modélisables. Notre modèle dépasse ce seuil dans tous les ensembles de données. En particulier, les indices de modélisation dépassent 0,8, ce qui confirme la robustesse, la stabilité et la faisabilité de notre SVS. Notre méthode est compatible avec une grande variété de tailles d'ensembles de données, comme le montre l'indice de magnitude, qui reflète la taille de l'ensemble de données correspondant proportionnellement à la taille maximale des 9 ensembles de données étudiés (la taille maximale des données est de 11 188). Notre analyse montre qu'il n'y a pas de corrélation substantielle entre l'indice de magnitude et l'indice de modélisation ou l'indice prédictif, la seule exception étant l'ensemble de données PN. Cet ensemble de données, comparé à d'autres ensembles de données de la même tâche (c.-à-d. ensembles de données PL, PP, iPPI), a le même niveau d'indice de modélisation, mais avec des niveaux inférieurs d'indice prédictif. Nous pensons que c'est parce que l'indice de magnitude est trop petit, et cet ensemble de données est testé par validation croisée. Par conséquent, les données sélectionnées au hasard entraînent un vide dans l'espace des caractéristiques, ce qui rend difficile l'ajustement de notre modèle à cet ensemble de données. En conclusion, SVS peut être largement appliqué pour les prédictions biomoléculaires et est robuste contre la variation de la taille des données. De plus, SVS a une forte adaptabilité aux molécules avec différentes compositions de séquences. Étant donné que des protéines étaient impliquées dans chacune de nos expériences numériques précédentes, nous montrons la distribution de la longueur des séquences de protéines dans chaque ensemble de données (Fig. 5b) ainsi que la distribution du taux d'apparition des acides aminés dans les séquences (Fig. 5c). En moyenne, les longueurs de séquence de PL, PP et PN sont plus courtes que celles de Saccharomyces cerevisiae (SC), Drosophila melanogaster (DM), Helicobacter pylori (HP), Homo sapiens (HS) et Mus musculus (MM). En effet, les échantillons des ensembles de données précédents sont également fournis avec des structures déterminées expérimentalement. La disponibilité et la fiabilité des structures protéiques de grande taille sont soumises à des techniques expérimentales ainsi qu'à des considérations pratiques, ce qui conduit à un biais systématique inévitable pour les approches basées sur la structure. D'autre part, nos modèles SVS montrent d'excellentes performances pour les tâches impliquant différentes distributions de longueur de séquence. De plus, la diversité de la distribution du taux d'apparition des acides aminés soutient l'adaptabilité de notre modèle pour s'attaquer à différentes tâches biologiques, que la composition de la séquence impliquée ait ou non une certaine spécificité. En conclusion, nos modèles SVS sont robustes contre la variation de longueur de séquence et adaptatifs à la variabilité biomoléculaire, ce qui révèle le potentiel de notre méthode SVS en tant qu'approche universelle pour l'étude des interactions biologiques.

a Indice de modélisation, indice prédictif et indice de magnitude pour neuf ensembles de données. L'axe y de gauche représente la modélisabilité et les indices prédictifs, tandis que l'axe y de droite représente l'indice de magnitude. Neuf ensembles de données utilisés dans notre travail sont quatre tâches de régression d'affinité de liaison (c. ), HS (Homo sapiens) et MM (Mus musculus). b La distribution de la longueur de la séquence pour 9 ensembles de données. c La distribution normalisée du taux d'apparition des acides aminés. Cette sous-figure comporte neuf canaux horizontalement, correspondant à neuf jeux de données décrits en a, b. Chaque canal montre la distribution de 20 types de taux d'apparition d'acides aminés dans les séquences de l'ensemble de données.

Le succès du SVS est dû à l'utilisation de puissants modèles NLP, tels que LSTM, l'auto-encodeur, et en particulier les transformateurs entraînés avec des centaines de millions de molécules. Ces modèles extraient les règles constitutionnelles des molécules et des biomolécules sans recourir à des étiquettes de propriétés moléculaires. Le SVS proposé deviendra plus puissant à mesure que des modèles NLP plus avancés seront disponibles.

Pour présenter la méthode SVS proposée, nous avons choisi neuf ensembles de données d'interaction biomoléculaires représentatifs impliquant quatre ensembles de données de régression pour la liaison protéine-ligand, la liaison protéine-protéine, la liaison d'acide nucléique et l'inhibition du ligand des interactions protéine-protéine et cinq ensembles de données de classification pour la protéine-protéine. interactions dans cinq espèces biologiques. Le SVS peut être appliqué au criblage virtuel à grande échelle de plusieurs cibles et de plusieurs composants moléculaires sans aucune information structurelle.

Récemment, on s'inquiète de plus en plus d'éventuelles fuites de données dans les modèles d'apprentissage automatique, où le modèle peut trop s'appuyer sur la similarité des séquences pour faire des prédictions52. Ce problème compromet la capacité du modèle à apprendre le schéma sous-jacent des interactions entre les biomolécules. Cependant, notre approche, SVS, évite les fuites de données en utilisant des incorporations de K basées sur la PNL. En extrayant un large éventail d'informations cachées des séquences, y compris des informations sur la structure, le contexte, la biochimie et l'évolution, notre modèle SVS dépend moins de la similarité des séquences. Des études récentes démontrent également l'efficacité des méthodes basées sur la PNL pour prédire les mutations uniques ou multiples des interactions protéiques qui peuvent complètement modifier ou abandonner les interactions moléculaires4,53, confirmant davantage la faible dépendance du SVS à la similarité des séquences.

Dans cette étude, nous avons utilisé les ensembles de données PDBbind-201641 pour prédire l'affinité de liaison protéine-ligand. L'ensemble de données utilisé dans l'affinité de liaison protéine-protéine a été construit à partir de la base de données PDBbind41. La version originale 2020 de PDBbind contient des données d'affinité de liaison de 2852 complexes protéine-protéine. Nous avons sélectionné 1795 échantillons avec seulement deux séquences de sous-chaîne différentes, comme indiqué dans le tableau supplémentaire 5. En outre, nous construisons également l'ensemble de données d'affinité de liaison protéine-acide nucléique à partir de la version 2020 de PDBbind. Cependant, contrairement aux protéines et aux ligands, les acides nucléiques doivent être convertis aux k-mers (dans nos modèles, k est égal à 3) avant d'alimenter le modèle Transformer que nous avons utilisé. Ainsi, une lettre non conventionnelle (par exemple, X, Y) dans une séquence se traduira par k k-mers inconnus. De plus, les acides nucléiques se liant aux protéines sont généralement de courte longueur. Par conséquent, les lettres non conventionnelles dans leurs séquences peuvent complètement détruire le contexte des représentations k-mer. Par exemple, une séquence d'acide nucléique "ACXTG" sera convertie en trois 3-mers : "ACX", "CXT" et "XTG". Notez que ces trois 3-mers contiennent tous un "X", de sorte que le modèle de traitement du langage biomoléculaire les traitera comme des jetons inconnus et ne pourra lire aucune information de séquence utile. Afin de garantir l'efficacité des informations de séquence, nous appliquons un critère d'exclusion plus strict : 1) exclure les complexes protéine-acide nucléique dont les numéros de séquence ne sont pas égaux à deux ; 2) exclure les complexes protéine-acide nucléique dont les étiquettes ne sont pas claires ; 3) exclure les complexes protéine-acide nucléique qui ont des lettres anormales (les lettres normales sont A, C, T, G) dans ses séquences d'acide nucléique ; 4) exclure les complexes protéine-nucléique dont la longueur de séquence d'acide nucléique est inférieure à 6. L'ensemble de données résultant contient 186 complexes protéine-acide nucléique, comme indiqué dans le tableau supplémentaire 4. De plus, pour ces deux ensembles de données, les étiquettes sont transformées à partir de la constante de dissociation (Kd), constante d'inhibiteur (Ki) et concentration inhibitrice demi-maximale (IC50) à l'énergie libre de Gibbs basée sur l'équation supplémentaire. 8.

L'ensemble de données original iPPI se concentre sur les ligands, la disponibilité des cibles PPI est donc obscure et seules 31 cibles sont fournies au niveau de la famille alors que 1694 ligands sont disponibles. Pour chaque famille de protéines, nous avons sélectionné une protéine pour représenter l'ensemble de la famille (par exemple, nous avons choisi P10415/Q07812 pour BCL2/BAK ; O60885/P62805 pour bromodomaine/histone et O75475/P12497 pour ledgf/in.). Des correspondances plus spécifiques peuvent être trouvées dans le tableau supplémentaire 6.

L'identification de l'interaction protéine-protéine implique cinq ensembles de données de référence, à savoir 2434 paires de protéines d'Homo sapiens, 694 paires de protéines de Mus musculus, 11 188 paires de protéines de Saccharomyces cerevisiae, 2140 paires de protéines de Drosophila melanogaster et 2916 paires de protéines de Helicobacter pylori14. Chaque ensemble de données se compose d'une quantité égale de paires en interaction et de paires sans interaction. Les paires de protéines en interaction, servant d'échantillons positifs, ont été collectées à partir de la base de données publique des protéines en interaction (DIP)54. Les échantillons avec moins de 50 acides aminés et plus de 40 % d'identité de séquence par paire les uns par rapport aux autres ont été exclus pour réduire les fragments et la similarité de séquence. Des échantillons négatifs de chaque ensemble de données ont été générés en sélectionnant au hasard des paires de protéines dans des compartiments sous-cellulaires distincts. Les protéines de différents compartiments sous-cellulaires n'interagissent généralement pas les unes avec les autres, et en effet, cette construction assure une grande confiance dans l'identification des échantillons négatifs14.

Toutes les informations supplémentaires sur les ensembles de données utilisés dans cette étude se trouvent dans la note complémentaire 4.

Pour un complexe moléculaire donné à m molécules, notons Sm = {s1, s2, … , sm}(m ≥ 2) l'ensemble des séquences correspondantes. L'ensemble d'intégrations NLP 1 associées est \(\{{\tau }_{{u}_{1}}^{(1)}({s}_{1}),{\tau }_{{ u}_{2}}^{(1)}({s}_{2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s} _{m})\}\). Ici, l'indice (ui) est la dimension d'intégration, par exemple 512 pour la dimension d'espace latent du petit transformateur moléculaire24. Notre objectif est de construire un modèle m-embedding optimal (\({\tau }_{z}^{(m)}({S}_{m})\)) à partir de \(\{{\tau }_ {{u}_{1}}^{(1)}({s}_{1}),{\tau }_{{u}_{2}}^{(1)}({s}_ {2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s}_{m})\}\), pour le complexe.

En général, un q-embedding est défini sur les formes inférieures par la formule suivante :

où r + t = q, et \({S}_{r}=\{{s}_{{i}_{1}},{s}_{{i}_{2}},\ldots ,{s}_{{i}_{r}}\},{S}_{t}=\{{s}_{{j}_{1}},{s}_{{j}_ {2}},\ldots ,{s}_{{j}_{t}}\},\,{{{{{{\rm{and}}}}}}}}\,{S} _{q}=\{{s}_{{k}_{1}},{s}_{{k}_{2}},\ldots ,{s}_{{k}_{q} }\}\) sont trois sous-ensembles de séquences. Ici, le H est la fonction d'intégration. Dans cette étude, nous avons appliqué Stack, Prod et Diff en fonction de l'homogénéité ou de l'hétérogénéité des stratégies de formes inférieures comme nos choix de H.

Plus précisément, la pile peut être définie comme suit :

où ⊕ est la somme directe.

De plus, si les stratégies de forme inférieure sont homogènes (c'est-à-dire, u = v, s = t), nous pouvons définir Prod et Diff comme suit :

où μ et σ sont la valeur moyenne et l'écart type, et

où × et - est le produit élément par élément et la soustraction, respectivement.

Dans ce travail, l'optimisation est faite sur l'incorporation individuelle de la PNL (\({\tau }_{{u}_{j}}^{(1)}({s}_{j})\)), comme Transformateur, auto-encodeur et LSTM, et toutes les fonctions d'intégration (H), c'est-à-dire Stack, Prod et Diff.

Nous utilisons deux ensembles d'algorithmes d'apprentissage automatique. Le premier ensemble est constitué des réseaux de neurones artificiels (ANN), un algorithme d'apprentissage en profondeur inspiré des fonctionnalités complexes du cerveau humain. Pour chaque tâche, nous utilisons l'optimisation bayésienne55 pour rechercher la meilleure combinaison d'hyperparamètres, notamment la taille du réseau, les paramètres de pénalité L2, le taux d'apprentissage, la taille du lot et l'itération maximale. Le deuxième modèle est l'arbre de décision d'amplification de gradient (GBDT), l'une des méthodes d'ensemble les plus populaires. GBDT a les avantages de robustesse contre le surajustement, d'insensibilité aux hyperparamètres, d'efficacité dans la performance, de possession d'interprétabilité. GBDT a été principalement utilisé pour implémenter des tâches de régression. Les hyperparamètres comprenant "n_estimators, max_depth, min_sample_split, subsample, max_features" sont choisis en fonction de la taille des données et des dimensions d'intégration de chaque tâche. La note complémentaire 3 présente les stratégies d'optimisation utilisées dans notre étude. Les paramètres détaillés des hyperparamètres sont présentés dans le tableau supplémentaire 2.

L'optimisation bayésienne est une approche populaire pour optimiser séquentiellement les hyperparamètres des algorithmes d'apprentissage automatique. L'optimisation bayésienne consiste à maximiser une fonction de boîte noire f(x) dans un espace \({{{{{{\mathcal{S}}}}}}}}\) :

Dans l'optimisation des hyperparamètres, \({{{{{{{\mathcal{S}}}}}}}}\) peut être considéré comme l'espace de recherche des hyperparamètres, x* est l'ensemble des hyperparamètres optimaux, et f( x) est une métrique d'évaluation des performances d'apprentissage automatique.

Étant donné t points de données Xt = (x1, x2, … , xt) et leurs valeurs de matrices d'évaluation Yt = (y1, y2, … , yt), le processus gaussien peut modéliser le paysage de f sur tout l'espace \({{{ {{{{\mathcal{S}}}}}}}\) en ajustant (Xt, Yt)56. En tout nouveau point x, f(x) est modélisée par une distribution a posteriori gaussienne : \(p(f(x)| {X}_{t},{Y}_{t}) \sim {{{{{ {{\mathcal{N}}}}}}}}({\mu }_{t}(x),{\sigma }_{t}^{2}(x))\), où μt(x ) est la moyenne et σ est l'écart type de f(x) prédit par la régression du processus gaussien :

Ici k est la fonction noyau, K(x, Xt) est un vecteur ligne d'évaluations noyau entre x et les éléments de Xt avec \({[K(x,{X}_{t})]}_{i} =k(x,{x}_{i})\), et K(Xt, Xt) est la matrice noyau avec \({[K({X}_{t},{X}_{t}) ]}_{ij}=k({x}_{i},{x}_{j})\). ϵn est le terme de bruit, qui est appris de la régression.

Dans l'optimisation bayésienne, la moyenne prédite et l'écart type sont utilisés pour la prise de décision pour le prochain point de données d'évaluation. On peut soit choisir le point qui maximise les valeurs moyennes de f(x) pour une recherche gourmande, soit choisir le point avec le plus grand écart type pour acquérir de nouvelles connaissances et améliorer la précision du processus gaussien sur le paysage f(x). La recherche gloutonne peut largement maximiser f(x) en quelques itérations et l'exploration de points incertains peut bénéficier d'itérations à long terme. Pour équilibrer un tel compromis exploitation-exploration, une fonction d'acquisition, α(x), doit être choisie. La décision pour le prochain point d'évaluation xn est prise de telle sorte qu'elle maximise la fonction d'acquisition

Dans cette étude, nous avons utilisé l'acquisition de la borne de confiance supérieure (UCB) qui peut gérer le compromis et qui a un taux de convergence rapide57 pour l'optimisation de la boîte noire.

En plus des mesures d'évaluation introduites dans la note complémentaire 1 (de l'équation supplémentaire 1 à l'équation supplémentaire 7), les scores RS, l'indice RS et l'indice de modélisation sont décrits ci-dessous.

Le diagramme de similarité des résidus (RS) est un nouveau type de méthode de visualisation et d'analyse qui peut être appliqué à un nombre arbitraire de classes proposé par Hozumi et al.48. Un tracé RS évalue chaque échantillon de données données par deux composants, le résidu et les scores de similarité. Pour un ensemble de données donné \({\{({x}_{m},{y}_{m})| {x}_{m}\in {R}^{N},{y}_{m} \in {Z}_{L}\}}_{m = 1}^{M}\), le score de résidu et le score de similarité d'un échantillon (xm, ym) sont définis comme suit :

où l = ym, Cl = {xm∣ym = l}, et \({d}_{\max }=\mathop{\max }\nolimits_{{x}_{i},{x}_{j }\in {C}_{l}}| | {x}_{i}-{x}_{j}| |\). Notez que 0 ≤ Rm ≤ 1 et 0 ≤ Sm ≤ 1. Si un échantillon est éloigné des autres classes, il aura un score de résidu plus grand ; si un échantillon est bien regroupé, il aura un score de similarité plus élevé.

L'indice de résidu de classe (IRC) et l'indice de similarité de classe (CSI) pour la l-ème classe peuvent être définis comme \({{{\mbox{CRI}}}}_{l}=\frac{1}{| { C}_{l}| }{\sum }_{m}{R}_{m}\) et \({{{\mbox{CSI}}}}_{l}=\frac{1}{ | {C}_{l}| }{\sum }_{m}{S}_{m}\). Ensuite, l'indice de résidu indépendant de la classe (RI) et l'indice de similarité (SI) peuvent être définis :

Ensuite, les indices RS qui peuvent donner une évaluation indépendante de la classe des écarts R- et S-scores48 peuvent être définis :

Notez que le RSI varie de 0 à 1 et qu'un RSI faible indique un écart important entre le score R et le score S.

L'indice de modélisation est défini indépendamment pour les tâches de classification et les tâches de régression, à savoir MODIcl et MODIreg, respectivement, définis comme suit50,51 :

où L représente le nombre de classes, Ni est le nombre d'échantillons dans la ième classe dont le premier plus proche voisin est également dans la ième classe, Mi est le nombre d'échantillons dans la ième classe, M est le total nombre d'échantillons, \({C}_{i}^{1}\) est le voisin le plus proche du i-ème échantillon, Ki est le nombre d'échantillons dans \({C}_{i}^{1 }\) sauf le ième échantillon, et yi représente l'étiquette normalisée du ième échantillon.

Nous avons marqué l'écart type de tous nos résultats de validation croisée sur le tableau supplémentaire 1. Pour la reproductibilité, les répétitions de nos expériences sont présentées dans le tableau supplémentaire 3.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Tous les ensembles de données sont disponibles sur https://weilab.math.msu.edu/DataLibrary/2D/. Les données supplémentaires 1 fournissent des fichiers .xlsx pour reproduire les Fig. 2, 3, 4 et 5.

Les codes sources sont disponibles sur https://github.com/WeilabMSU/SVS.

Bryant, P., Pozzati, G. & Elofsson, A. Prédiction améliorée des interactions protéine-protéine à l'aide d'AlphaFold2. Nat. Commun. 13, 1–11 (2022).

Google Scholar

Jumper, J. et al. Prédiction très précise de la structure des protéines avec AlphaFold. Nature 596, 583–589 (2021).

Article CAS PubMed PubMed Central Google Scholar

Otović, E., Njirjak, M., Kalafatovic, D. & Mauša, G. Schéma de représentation des propriétés séquentielles pour la prédiction récurrente basée sur un réseau neuronal de peptides thérapeutiques. J. Chem. Inf. Modèle. 62, 2961-2972 (2022).

Qiu, Y., Hu, J. & Wei, G.-W. Évolution dirigée assistée par apprentissage de cluster. Nat. Calcul. Sci. 1, 809–818 (2021).

Article PubMed PubMed Central Google Scholar

Planas, D. et al. Échappement considérable du SARS-CoV-2 omicron à la neutralisation des anticorps. Nature 602, 671–675 (2022).

Article CAS PubMed Google Scholar

Zhang, QC, Petrey, D., Garzón, JI, Deng, L. & Honig, B. PrePPI : une base de données structurée des interactions protéine-protéine. Nucleic Acids Res. 41, D828–D833 (2012).

Article PubMed PubMed Central Google Scholar

Kwon, Y., Shin, W.-H., Ko, J. & Lee, J. Ak-score : prédiction précise de l'affinité de liaison protéine-ligand à l'aide d'un ensemble de réseaux de neurones à convolution 3D. Int. J. Mol. Sci. 21, 8424 (2020).

Article CAS PubMed PubMed Central Google Scholar

Ballester, PJ & Mitchell, JB Une approche d'apprentissage automatique pour prédire l'affinité de liaison protéine-ligand avec des applications à l'amarrage moléculaire. Bioinformatique 26, 1169-1175 (2010).

Article CAS PubMed Google Scholar

Zheng, L., Fan, J. & Mu, Y. Onionnet : un réseau de neurones convolutionnels multicouches basé sur le contact intermoléculaire pour la prédiction de l'affinité de liaison protéine-ligand. ACS Oméga 4, 15956–15965 (2019).

Article CAS PubMed PubMed Central Google Scholar

Cang, Z., Mu, L. et Wei, G.-W. Représentabilité de la topologie algébrique pour les biomolécules dans la notation basée sur l'apprentissage automatique et le criblage virtuel. Calcul PLoS. Biol. 14, e1005929 (2018).

Article PubMed PubMed Central Google Scholar

Nguyen, DD, Cang, Z. & Wei, G.-W. Un examen des représentations mathématiques des données biomoléculaires. Phys. Chim. Chim. Phys. 22, 4343–4367 (2020).

Article CAS PubMed PubMed Central Google Scholar

Prieto-Martínez, FD, Arciniega, M. & Medina-Franco, JL Amarrage moléculaire : avancées et défis actuels. TIP Journal spécialisé en sciences chimiques et biologiques https://doi.org/10.22201/fesz.23958723e.2018.0.143 (2018).

Zhou, X.-X., Wang, Y.-B., Pan, Y.-J. & Li, W.-F. Différences dans la composition des acides aminés et les schémas de couplage entre les protéines mésophiles et thermophiles. Acides aminés 34, 25–33 (2008).

Article CAS PubMed Google Scholar

Zhao, N., Zhuo, M., Tian, ​​K. & Gong, X. Interaction protéine-protéine et prédictions de non-interaction à l'aide d'un vecteur naturel de séquence de gènes. Commun. Biol. 5, 1–11 (2022).

Article CAS Google Scholar

Chou, K.-C. Composition de pseudo-acides aminés et ses applications en bioinformatique, protéomique et biologie des systèmes. Courant. Protéomique 6, 262–274 (2009).

Article CAS Google Scholar

Zeng, Y.-h et al. Utilisation de la composition en pseudo-acides aminés de Chou augmentée pour prédire l'emplacement des protéines dans les submitochondries sur la base d'une approche d'auto-covariance. J. Théor. Biol. 259, 366–372 (2009).

Article CAS PubMed Google Scholar

Friedman, C., Kra, P., Yu, H., Krauthammer, M. & Rzhetsky, A. Genies : un système de traitement du langage naturel pour l'extraction de voies moléculaires à partir d'articles de revues. Bioinformatique 17 (Suppl. 1), S74–S82 (2001).

Ono, T., Hishigaki, H., Tanigami, A. & Takagi, T. Extraction automatisée d'informations sur les interactions protéine-protéine à partir de la littérature biologique. Bioinformatique 17, 155-161 (2001).

Article CAS PubMed Google Scholar

Wang, Y. et al. Un modèle de langage biologique très efficace pour prédire les interactions protéine-protéine. Cellules 8, 122 (2019).

Article CAS PubMed PubMed Central Google Scholar

Alley, EC, Khimulya, G., Biswas, S., AlQuraishi, M. & Church, GM Ingénierie rationnelle unifiée des protéines avec apprentissage de représentation en profondeur basé sur les séquences. Nat. Méthodes 16, 1315–1322 (2019).

Article CAS PubMed PubMed Central Google Scholar

Feng, H. et al. Analyse d'apprentissage automatique de la dépendance à la cocaïne informée par les réseaux d'interactomes basés sur DAT, SERT et NET. J. Chem. Calcul théorique. 18, 2703–2719 (2022).

Article CAS PubMed Google Scholar

Rives, A. et al. La structure et la fonction biologiques émergent de la mise à l'échelle de l'apprentissage non supervisé à 250 millions de séquences de protéines. Proc. Natl Acad. Sci. États-Unis 118, e2016239118 (2021).

Ji, Y., Zhou, Z., Liu, H. & Davuluri, RV DNAbert : représentations d'encodeurs bidirectionnels pré-formés à partir du modèle de transformateurs pour le langage de l'ADN dans le génome. Bioinformatique 37, 2112–2120 (2021).

Article CAS PubMed Google Scholar

Chen, D., Zheng, J., Wei, G.-W. & Pan, F. Extraction de représentations prédictives à partir de centaines de millions de molécules. J.Phys. Chim. Lett. 12, 10793–10801 (2021).

Article CAS PubMed PubMed Central Google Scholar

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Adv. inf neuronal. processus. système 30, (2017).

Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. Bert : pré-entraînement des transformateurs bidirectionnels profonds pour la compréhension du langage. Préimpression sur arXiv https://arxiv.org/abs/1810.04805 (2018).

Chen, D. et al. Transformateurs bidirectionnels assistés par graphe algébrique pour la prédiction des propriétés moléculaires. Nat. Commun. 12, 1–9 (2021).

Google Scholar

Ramírez, D. & Caballero, J. Est-il fiable d'utiliser des méthodes d'amarrage moléculaire courantes pour comparer les affinités de liaison des paires d'énantiomères pour leur cible protéique ? Int. J. Mol. Sci. 17, 525 (2016).

Article PubMed PubMed Central Google Scholar

Jain, AN Fonctions de notation pour l'amarrage protéine-ligand. Courant. Peptide protéique. Sci. 7, 407–420 (2006).

Article CAS PubMed Google Scholar

Steinbrecher, T. & Labahn, A. Vers des calculs précis d'énergie libre dans les études de liaison aux protéines ligands. Courant. Méd. Chim. 17, 767–785 (2010).

Article CAS PubMed Google Scholar

Meng, Z. & Xia, K. Apprentissage automatique basé sur le spectre persistant (PerSpect ML) pour la prédiction de l'affinité de liaison protéine-ligand. Sci. Adv. 7, eabc5329 (2021).

Article CAS PubMed PubMed Central Google Scholar

Pan, X. et al. AA-score : une nouvelle fonction de notation basée sur l'interaction spécifique aux acides aminés pour l'amarrage moléculaire. J. Chem. Inf. Modèle. 62, 2499-2509 (2022).

Article CAS PubMed Google Scholar

Su, M. et al. Bilan comparatif des fonctions de scoring : la mise à jour CASF-2016. J. Chem. Inf. Modèle. 59, 895–913 (2018).

Article PubMed Google Scholar

Jiménez, J., Skalic, M., Martinez-Rosell, G. & De Fabritiis, G. KDEEP : prédiction de l'affinité de liaison absolue protéine-ligand via des réseaux de neurones à convolution 3D. J. Chem. Inf. Modèle. 58, 287-296 (2018).

Article PubMed Google Scholar

Wójcikowski, M., Kukiełka, M., Stepniewska-Dziubinska, MM & Siedlecki, P. Développement d'une empreinte de connectivité étendue protéine-ligand (PLEC) et son application pour les prédictions d'affinité de liaison. Bioinformatique 35, 1334–1341 (2019).

Article PubMed Google Scholar

Stepniewska-Dziubinska, MM, Zielenkiewicz, P. & Siedlecki, P. Développement et évaluation d'un modèle d'apprentissage en profondeur pour la prédiction de l'affinité de liaison protéine-ligand. Bioinformatique 34, 3666–3674 (2018).

Article CAS PubMed PubMed Central Google Scholar

Jones, D. et al. Prédiction améliorée de l'affinité de liaison protéine-ligand avec inférence de fusion profonde basée sur la structure. J. Chem. Inf. Modèle. 61, 1583-1592 (2021).

Article CAS PubMed Google Scholar

Boyles, F., Deane, CM & Morris, GM Apprendre du ligand : utiliser des fonctionnalités basées sur le ligand pour améliorer la prédiction de l'affinité de liaison. Bioinformatique 36, 758–764 (2020).

Article CAS PubMed Google Scholar

Wang, M., Cang, Z. et Wei, G.-W. Un arbre de réseau basé sur la topologie pour la prédiction des changements d'affinité de liaison protéine-protéine suite à une mutation. Nat. Mach. Renseignement. 2, 116-123 (2020).

Article PubMed PubMed Central Google Scholar

Liu, X., Feng, H., Wu, J. & Xia, K. Hom-complex-based machine learning (HCML) pour la prédiction des changements d'affinité de liaison protéine-protéine lors d'une mutation. J. Chem. Inf. Modèle. 62, 3961–3969 (2022).

Article CAS PubMed Google Scholar

Liu, Z. et al. Collecte de données de liaison à l'échelle de l'APB : état actuel de la base de données pdbbind. Bioinformatique 31, 405–412 (2015).

Article CAS PubMed Google Scholar

Rodrigues, CH, Pires, DE & Ascher, DB PDCSM-PPI : Utilisation de signatures basées sur des graphes pour identifier les inhibiteurs de l'interaction protéine-protéine. J. Chem. Inf. Modèle. 61, 5438–5445 (2021).

Article CAS PubMed Google Scholar

Jubb, H., Blundell, TL & Ascher, DB Flexibilité et petites poches aux interfaces protéine-protéine : nouvelles perspectives sur la pharmacogabilité. Programme. Biophys. Mol. Biol. 119, 2–9 (2015).

Article CAS PubMed PubMed Central Google Scholar

Laraia, L., McKenzie, G., Spring, DR, Venkitaraman, AR & Huggins, DJ Surmonter les défis chimiques, biologiques et informatiques dans le développement d'inhibiteurs ciblant les interactions protéine-protéine. Chim. Biol. 22, 689–703 (2015).

Article CAS PubMed PubMed Central Google Scholar

Watkins, AM & Arora, PS Inhibition basée sur la structure des interactions protéine-protéine. EUR. J. Med. Chim. 94, 480–488 (2015).

Article CAS PubMed Google Scholar

Sun, T., Zhou, B., Lai, L. et Pei, J. Prédiction basée sur la séquence de l'interaction protéine-protéine à l'aide d'un algorithme d'apprentissage en profondeur. BMC Bioinform. 18, 1–8 (2017).

Article CAS Google Scholar

Song, B. et al. L'apprentissage des structures spatiales des protéines améliore la prédiction de l'interaction protéine-protéine. Bref. Bioinformer. 23, bbab558 (2022).

Hozumi, Y., Wang, R. et Wei, G.-W. CCP : clustering corrélé et projection pour la réduction de la dimensionnalité. Préimpression sur arXiv https://arxiv.org/abs/2206.04189 (2022).

Ripphausen, P., Nisius, B. & Bajorath, J. État de l'art en matière de criblage virtuel à base de ligands. Découverte de drogue. Aujourd'hui 16, 372-376 (2011).

Article CAS PubMed Google Scholar

Luque Ruiz, I. & Gómez-Nieto, M. Á. Étude de la modélisation des jeux de données : modélisation, rivalité et indices pondérés de modélisation. J. Chem. Inf. Modèle. 58, 1798-1814 (2018).

Article CAS PubMed Google Scholar

Marcou, G., Horvath, D. & Varnek, A. Paramètre d'alignement cible du noyau : une nouvelle mesure de modélisation pour les tâches de régression. J. Chem. Inf. Modèle. 56, 6–11 (2016).

Article CAS PubMed Google Scholar

Bernett, J., Blumenthal, DB & List, M. Casser la boîte noire de la prédiction de l'interaction protéine-protéine basée sur la séquence profonde. Préimpression sur bioRxiv https://doi.org/10.1101/2023.01.18.524543 (2023).

Qiu, Y. & Wei, G.-W. Ingénierie des protéines guidée par la théorie spectrale persistante. Nat. Calcul. Sci. 3, 149-163 (2023).

Xénarios, I. et al. Dip, la base de données des protéines en interaction : un outil de recherche pour étudier les réseaux cellulaires d'interactions protéiques. Nucleic Acids Res. 30, 303–305 (2002).

Article CAS PubMed PubMed Central Google Scholar

Snoek, J., Larochelle, H. & Adams, RP Optimisation bayésienne pratique des algorithmes d'apprentissage automatique. Adv. inf neuronal. processus. système 25, (2012).

Williams, CK & Rasmussen, CE Processus gaussiens pour l'apprentissage automatique, Vol. 2 (MIT Press, 2006).

Srinivas, N., Krause, A., Kakade, SM & Seeger, M. Optimisation des processus gaussiens dans le cadre du bandit : aucun regret et conception expérimentale. Préimpression arXiv https://arxiv.org/abs/0912.3995 (2009).

Wang, Y. et al. PCVMZM : utilisation du modèle de machines vectorielles de classification probabiliste combiné à un descripteur de moments de zernike pour prédire les interactions protéine-protéine à partir de séquences protéiques. Int. J. Mol. Sci. 18, 1029 (2017).

Article CAS PubMed PubMed Central Google Scholar

Télécharger les références

Ce travail a été soutenu en partie par les subventions NIH R01GM126189 et R01AI164266, les subventions NSF DMS-2052983, DMS-1761320 et IIS-1900473, la subvention NASA 80NSSC21M0023, la Fondation MSU, Bristol-Myers Squibb 65109 et Pfizer.

Département de mathématiques, Michigan State University, East Lansing, MI, 48824, États-Unis

Li Shen, Hongsong Feng, Yuchi Qiu et Guo-Wei Wei

Département de génie électrique et informatique, Michigan State University, East Lansing, MI, 48824, États-Unis

Guo Wei Wei

Département de biochimie et de biologie moléculaire, Michigan State University, East Lansing, MI, 48824, États-Unis

Guo Wei Wei

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Tous les auteurs ont conçu ce travail et ont contribué à l'ébauche originale, à la révision et à l'édition. LS, HF et YQ ont réalisé des expériences et analysé des données. G.-WW a assuré l'encadrement et les ressources et a acquis des financements.

Correspondance à Guo-Wei Wei.

Les auteurs ne déclarent aucun intérêt concurrent.

Communications Biology remercie Lurong Pan et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Rédacteurs en chef principaux : Yun Lyna Luo, Gene Chong. Un dossier d'examen par les pairs est disponible.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Shen, L., Feng, H., Qiu, Y. et al. SVSBI : criblage virtuel basé sur les séquences d'interactions biomoléculaires. Commun Biol 6, 536 (2023). https://doi.org/10.1038/s42003-023-04866-3

Télécharger la citation

Reçu : 10 janvier 2023

Accepté : 24 avril 2023

Publié: 18 mai 2023

DOI : https://doi.org/10.1038/s42003-023-04866-3

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.