Modele de hamac

L'actualité de la Ferme du Pichet

Des sous-ensembles aléatoires de différentes tailles jusqu`à 106 séquences uniques ont été échantillonnés à partir des deux jeux de données et traités par hamac. Le même ordinateur de bureau que dans la section précédente a été utilisé. Tous les paramètres ont été laissés à des valeurs par défaut, sauf pour la sélection de noyau de cluster après le clustering gourmand. Cinq pour cent des clusters les plus importants ont été sélectionnés pour les clusters supplémentaires dans chaque jeu de données (la valeur par défaut est 2,5% avec le maximum de 250 clusters). Le hamac at Twenty Mile est une collection de résidences de caractère riche en histoire, fière du patrimoine, méticuleusement adaptée aux goûts les plus exigeants, et en attente de votre arrivée. Les exécutions de MUSI et l`outil d`échantillonnage de Gibbs sur ces deux jeux de données pré-filtrés par hamac sont également indiqués. Les colonnes sont (à partir de la gauche): nom du jeu de données, nombre de séquences uniques dans le jeu de données, nom de l`outil, paramètres d`outil supplémentaires, durée d`exécution, nombre de clusters dans le résultat, nombre de séquences uniques dans le résultat, KLD calculé sur les colonnes MSA définies comme correspondance indiqué par hamac et KLD calculée sur toutes les colonnes MSA. Des efforts significatifs ont déjà été déployés dans le développement de méthodes logicielles pour le traitement des données peptidiques. Une partie de ces outils vise à traiter des données spécifiques aux problèmes, par exemple pour prédire les cibles contraignantes des molécules de MHC. Ces approches utilisent diverses techniques, y compris les modèles cachés de Markov (HMMs, Noguchi et al., 2002), l`échantillonnage de Gibbs (Nielsen et coll., 2004) et les réseaux neuronaux artificiels (Nielsen et Lund, 2009).

Il a été démontré que les domaines qui interagissent avec les peptides courts sont souvent poly-spécifiques, ce qui conduit à des corrélations entre les positions des résidus de motifs reconnus (Gfeller et al., 2011). Par conséquent, même pour un domaine de reconnaissance unique, il est nécessaire de capturer ces corrélations, qui peuvent être faites soit directement, avec l`utilisation, par exemple, des réseaux neuronaux artificiels (Andreatta et al., 2011), ou indirectement, en décrivant un motif avec corrélé positions par plusieurs motifs avec des positions non corrélées (Gfeller et al., 2011). La deuxième approche est mise en œuvre dans des outils utilisant plusieurs matrices de position-poids (également appelées matrices de notation spécifiques à la position) pour représenter des profils de spécificité multiples obtenus par diverses techniques, par exemple l`optimisation du modèle de mélange (Kim et coll., 2011) ou de l`échantillonnage de Gibbs (Andreatta et coll., 2012). Ces outils essaient d`être polyvalents et permettent de traiter les données peptidiques provenant de n`importe quelle source biologique, mais peuvent nécessiter une connaissance préalable des données, comme le nombre de grappes à identifier. Comparé aux outils existants, hamac est beaucoup plus rapide et peut traiter les ensembles de données de magnitude plus grandes, tout en atteignant la meilleure qualité de résultats de clustering. Une autre différence est que, avec les paramètres par défaut, hamac peut supprimer de nombreuses séquences du résultat, si elles ne correspondent pas à un cluster bien. Cette fonctionnalité est bénéfique dans le cas de jeux de données volumineux et bruyants et peut être utilisé en utilisant hamac comme un outil de dénoising. D`autre part, dans le cas de jeux de données petits et propres contenant des motifs de séquences subtiles seulement, ce comportement peut ne pas être désiré.

Il peut être modifié par paramétrage, mais nous estimons que pour de tels cas, certaines des méthodes plus intensives en calcul, telles que l`échantillonnage de Gibbs, peuvent être plus appropriées. Hamac effectue plusieurs étapes de clustering pour identifier les clusters de séquences partageant un motif et générer un alignement de séquences multiples de chaque cluster. Comme le bruit se produit souvent, le résultat contient également un ensemble de séquences (non alignées) n`appartenant à aucun cluster. Hamac utilise HMMs pour représenter efficacement des grappes entières de séquences à la fois et fait usage de processeurs multicœurs modernes, comme toutes les étapes sont parallélisées. Ici, les différences dans les temps d`exécution et les résultats étaient considérables. Alors que le hamac se termine en moins de 3 min, les deux autres outils ont besoin d`heures pour terminer, avec l`outil d`échantillonnage de Gibbs seulement être en mesure de terminer dans 72 h à partir de 100 clusters.