Encyclopédies élargies des éléments d'ADN dans les génomes humain et murin
Nature volume 583, pages 699-710 (2020)Citer cet article
86 000 accès
658 citations
328 Altmétrique
Détails des métriques
Une correction de l'auteur à cet article a été publiée le 26 avril 2022.
Cet article a été mis à jour
Les génomes humains et murins contiennent des instructions qui spécifient les ARN et les protéines et régissent le moment, l'ampleur et le contexte cellulaire de leur production. Pour mieux délimiter ces éléments, la phase III du projet Encyclopédie des éléments d'ADN (ENCODE) a élargi l'analyse des répertoires cellulaires et tissulaires de transcription de l'ARN, de structure et de modification de la chromatine, de méthylation de l'ADN, de bouclage de la chromatine et d'occupation par des facteurs de transcription et de l'ARN. protéines de liaison. Nous résumons ici ces efforts, qui ont produit 5 992 nouveaux ensembles de données expérimentales, y compris des déterminations systématiques du développement fœtal de souris. Toutes les données sont disponibles via le portail de données ENCODE (https://www.encodeproject.org), y compris les données de phase II ENCODE1 et Roadmap Epigenomics2. Nous avons développé un registre de 926 535 éléments cis-régulateurs candidats humains et 339 815 souris candidats, couvrant 7,9 et 3,4 % de leurs génomes respectifs, en intégrant des types de données sélectionnés associés à la régulation génique, et avons construit un serveur Web (SCREEN ; http:// screen.encodeproject.org) pour fournir un accès flexible et défini par l'utilisateur à cette ressource. Collectivement, les données et le registre ENCODE fournissent une ressource étendue à la communauté scientifique pour mieux comprendre l'organisation et la fonction des génomes humains et murins.
Le génome humain comprend un vaste référentiel d’instructions codées par l’ADN qui sont lues, interprétées et exécutées par la machinerie cellulaire des protéines et de l’ARN pour permettre les diverses fonctions des cellules et des tissus vivants. Le projet ENCODE vise à délimiter de manière précise et complète les segments des génomes humain et murin qui codent pour les éléments fonctionnels1,3,4,5,6. Sur le plan opérationnel, les éléments fonctionnels sont définis comme des caractéristiques de séquence discrètes et ordonnées de manière linéaire qui spécifient des produits moléculaires (par exemple, des gènes codant pour des protéines ou des ARN non codants) ou des activités biochimiques ayant un rôle mécanistique dans la régulation des gènes ou du génome (par exemple, des promoteurs ou des amplificateurs de transcription)5. . Débutant avec le projet pilote ENCODE en 2003 (qui portait sur 1 % défini de la séquence du génome humain4) et s'étendant à l'ensemble du génome au cours d'une phase de production II qui a débuté en 20071, ENCODE a appliqué une succession de méthodes de pointe. des tests artistiques pour identifier les éléments fonctionnels probables avec une précision croissante dans une gamme croissante de contextes cellulaires et biologiques. Afin de capitaliser sur la valeur de la souris de laboratoire, Mus musculus, à la fois pour l'analyse génomique fonctionnelle comparative et la modélisation de la biologie humaine, un projet Mouse ENCODE de portée plus limitée a été lancé en 20096. Une perspective d'accompagnement7 fournit un contexte supplémentaire pour l'évolution du ENCODE Projet et décrit comment les données ENCODE sont utilisées pour éclairer les questions biologiques et biomédicales fondamentales qui recoupent la structure et la fonction du génome.
À partir de 2012, les projets ENCODE chez l'homme et la souris ont lancé des programmes pour élargir et approfondir leurs efforts respectifs pour découvrir et annoter des éléments fonctionnels, et pour systématiser la production, la conservation et la diffusion des données ENCODE dans le but d'autonomiser largement la communauté scientifique. Les données ENCODE ont servi d'interface entre la séquence du génome humain et son application à la recherche biomédicale en raison à la fois de la gamme de caractéristiques biologiques et biochimiques englobées par les tests ENCODE et de l'étendue et de la profondeur avec lesquelles ces tests ont été appliqués à travers des contextes cellulaires et tissulaires. . ENCODE s'est maintenant développé sur ces deux axes en (i) incorporant de nouveaux tests tels que la localisation des protéines de liaison à l'ARN et le bouclage de la chromatine ; (ii) augmenter la profondeur à laquelle les tests actuels tels que l'immunoprécipitation et le séquençage de la chromatine avec facteur de transcription (ChIP – seq) interrogent les lignées cellulaires de référence ; et (iii) collecter des données sur une gamme biologique considérablement élargie, en mettant l'accent sur les cellules et tissus primaires. De plus, ENCODE a désormais incorporé et traité uniformément les données substantielles du projet Roadmap Epigenomics2 qui sont conformes aux normes ENCODE (voir Méthodes).