Encyclopédies élargies des éléments d'ADN dans les génomes humain et murin

Nature volume 583, pages 699-710 (2020)Citer cet article

86 000 accès

658 citations

328 Altmétrique

Détails des métriques

Une correction de l'auteur à cet article a été publiée le 26 avril 2022.

Cet article a été mis à jour

Les génomes humains et murins contiennent des instructions qui spécifient les ARN et les protéines et régissent le moment, l'ampleur et le contexte cellulaire de leur production. Pour mieux délimiter ces éléments, la phase III du projet Encyclopédie des éléments d'ADN (ENCODE) a élargi l'analyse des répertoires cellulaires et tissulaires de transcription de l'ARN, de structure et de modification de la chromatine, de méthylation de l'ADN, de bouclage de la chromatine et d'occupation par des facteurs de transcription et de l'ARN. protéines de liaison. Nous résumons ici ces efforts, qui ont produit 5 992 nouveaux ensembles de données expérimentales, y compris des déterminations systématiques du développement fœtal de souris. Toutes les données sont disponibles via le portail de données ENCODE (https://www.encodeproject.org), y compris les données de phase II ENCODE1 et Roadmap Epigenomics2. Nous avons développé un registre de 926 535 éléments cis-régulateurs candidats humains et 339 815 souris candidats, couvrant 7,9 et 3,4 % de leurs génomes respectifs, en intégrant des types de données sélectionnés associés à la régulation génique, et avons construit un serveur Web (SCREEN ; http:// screen.encodeproject.org) pour fournir un accès flexible et défini par l'utilisateur à cette ressource. Collectivement, les données et le registre ENCODE fournissent une ressource étendue à la communauté scientifique pour mieux comprendre l'organisation et la fonction des génomes humains et murins.

Le génome humain comprend un vaste référentiel d’instructions codées par l’ADN qui sont lues, interprétées et exécutées par la machinerie cellulaire des protéines et de l’ARN pour permettre les diverses fonctions des cellules et des tissus vivants. Le projet ENCODE vise à délimiter de manière précise et complète les segments des génomes humain et murin qui codent pour les éléments fonctionnels1,3,4,5,6. Sur le plan opérationnel, les éléments fonctionnels sont définis comme des caractéristiques de séquence discrètes et ordonnées de manière linéaire qui spécifient des produits moléculaires (par exemple, des gènes codant pour des protéines ou des ARN non codants) ou des activités biochimiques ayant un rôle mécanistique dans la régulation des gènes ou du génome (par exemple, des promoteurs ou des amplificateurs de transcription)5. . Débutant avec le projet pilote ENCODE en 2003 (qui portait sur 1 % défini de la séquence du génome humain4) et s'étendant à l'ensemble du génome au cours d'une phase de production II qui a débuté en 20071, ENCODE a appliqué une succession de méthodes de pointe. des tests artistiques pour identifier les éléments fonctionnels probables avec une précision croissante dans une gamme croissante de contextes cellulaires et biologiques. Afin de capitaliser sur la valeur de la souris de laboratoire, Mus musculus, à la fois pour l'analyse génomique fonctionnelle comparative et la modélisation de la biologie humaine, un projet Mouse ENCODE de portée plus limitée a été lancé en 20096. Une perspective d'accompagnement7 fournit un contexte supplémentaire pour l'évolution du ENCODE Projet et décrit comment les données ENCODE sont utilisées pour éclairer les questions biologiques et biomédicales fondamentales qui recoupent la structure et la fonction du génome.

À partir de 2012, les projets ENCODE chez l'homme et la souris ont lancé des programmes pour élargir et approfondir leurs efforts respectifs pour découvrir et annoter des éléments fonctionnels, et pour systématiser la production, la conservation et la diffusion des données ENCODE dans le but d'autonomiser largement la communauté scientifique. Les données ENCODE ont servi d'interface entre la séquence du génome humain et son application à la recherche biomédicale en raison à la fois de la gamme de caractéristiques biologiques et biochimiques englobées par les tests ENCODE et de l'étendue et de la profondeur avec lesquelles ces tests ont été appliqués à travers des contextes cellulaires et tissulaires. . ENCODE s'est maintenant développé sur ces deux axes en (i) incorporant de nouveaux tests tels que la localisation des protéines de liaison à l'ARN et le bouclage de la chromatine ; (ii) augmenter la profondeur à laquelle les tests actuels tels que l'immunoprécipitation et le séquençage de la chromatine avec facteur de transcription (ChIP – seq) interrogent les lignées cellulaires de référence ; et (iii) collecter des données sur une gamme biologique considérablement élargie, en mettant l'accent sur les cellules et tissus primaires. De plus, ENCODE a désormais incorporé et traité uniformément les données substantielles du projet Roadmap Epigenomics2 qui sont conformes aux normes ENCODE (voir Méthodes).

1.64 throughout, and low otherwise./p>2,000 bp for TSS-distal). We defined TSSs as the 5′ ends of all basic transcripts annotated by GENCODE (V24 for human and M18 for mouse). A cCRE was assigned to one of five mutually exclusive groups on the basis of its state and TSS proximity (Box 1): TSS-overlapping with promoter-like signatures (PLS), TSS-proximal with enhancer-like signatures (pELS), TSS-distal with enhancer-like signatures (dELS), not TSS-overlapping and with high DNase and H3K4me3 signals only (DNase–H3K4me3), not TSS-overlapping and with high DNase and CTCF signals only (CTCF-only). Note that this set of seven states and five groups is defined across all biosamples, and therefore is cell-type agnostic. We next define cell type-specific state and group classifications./p>