User:Daniel.raphve/sandbox
El Proyecto del Genoma son los intentos cientificos que buscan determinar completamente la secuencia entera del genoma de un organismo (ya sea un animal, una planta, un hongo, una bacteria, una arquea, un protista o un virus) y para anotar genes que codifican proteinas y otras características importantes del genoma codificado.[1] La secuencia del genoma de un organismo incluye la recopilación de las secuencias de cada cromosoma en el ADN de un organismo. Para una bacteria que contiene unicamente un cromosoma, el proyecto del genoma buscará mapear la secuencia de ese cromosoma. Para la especie humana, cuyo genomea incluye 22 pares de autosomas y 2 cromosomas sexuales, una secuencia completa del genoma tendrá 46 secuencias separadas de cromosomas.
El Proyecto del Genoma Humano fue un punto importante en proyecto del genoma que está teniendo un gran impacto en el campo de la investigación con respecto a las ciencias de la vida, que tiene potencial para estimular numerosos desarrollos médicos y comerciales.[2]
Monataje del genoma
[edit]El montaje del genoma se refiere al proces de tomar un número grande de secuencias de ADN cortas y poniéndolas juntas nuevamente para formar una representación de los cromosomas originales de los cuales se origina el ADN. En un proyecto de secuenciación escopeta, todo el ADN de una fuente (normalmente un organismo simple, desde una bacteria hasta unmamífero) primero es separado en millones de piezas pequeñas. Estas piezas son "leídas" por máquinas automatizadas de secuenciación, que pueden leer hasta 1000 [[nucleótido]s o bases al mismo timpo. (Las cuatro bases son adenina, guanina, citosina, y thiminea, representadas como AGCT.) El algoritmo del montaje de un genoma funciona al tomar todas las piezas y alinearlas una con otra, y detectar todos los lugares donde dos o más de las secuencias cortas o "lecturas" se sobreponen. Estas lecturas sobrepuestas se pueden juntas, y el proceso continua.
El montaje del genoma es un problema computacional, hecho más díficil por el hecho de que muchos genomas contienen grandes números de secuencias idénticas, conocidas como, repeticiones. Estas repeticiones puedes estar formadas por miles de nucleótidos y algunas toman lugar en miles de unicaciones diferentes, especialmente en los genomas grandes de plantas y animales.
La secuencia resultante de la seucnecia del genoma se produce al combinar la información secuenciada contigs y después utilizando información que vincule para crear andamio biológicos. Los andamio biológicos se posiconan a lo largo del mapa físico del cromosoma creando un "camino dorado".
Software de montaje
[edit]Normalmente, los centros más grandes de secuenciación desarrollan su propio software para el montaje de las secuencias que producen. Sin embargo, esto ha cambiado ya que el software se ha vuelto más complejo y debido a que el número de centros de secuenciación ha incrementado. Un ejemplo de un montador Short Oligonucleotide Analysis Package desarrollado por BGI para el nuevo montaje de genomas de tamaño humano. [3][4][5]
Anotación de genomas
[edit]La anotación de genomas es el proceso de juntar la informacion biológica is the process of attaching biological information a las secuencias.[6] Consiste en tres pasos fundamentales:
- identificar partes del genoma que no codifica proteinas
- identificar los elementos en el genoma, que es un proceso llamadopredicción de genes, y
- juntar la información biológica de estos elementos.
Las herramientas de anotación automática intentan realizar todo esto por medio de un análisis en la computadora, contrario a la anotación manual que requiere habilidad humana. Idealmente, estos acercamientos coexisten y se complementan el uno al otro en la misma tubería de anotación.
El nivel báscio de anotación utiliza BLAST para encontrar similitudes, y después anota genomas basado en eso.[1] Sin embargo, hoy en día se agrega más y más informacion a la plataforma de anotación. La información adicional permite a los anotadores manuales encontrar discrepancias entre los genes dados en la misma anotación. Algunas bases de datos usan la información del contexto del genoma, puntajes similares, información experimental, y la integración de otros recursos para generar anotaciones del genoma a través de sus enfoques de subsistemas. Otras bases de datos (e.g. Ensembl) recae tanto en las fuentes de informacion como en las diferentes herramientas de software en la automatizacion de la tubería para la anotación del genoma.[7]
Anotación estructural consite en la identificación de elementos genómicos.
- ORFs y su localización
- estructura de genes
- regiones de codificación
- ubicación de motivos reguladores
Anotación funcional consiste en juntar la información biológica a elementos genómicos.
- función bioquímica
- función biológica
- regulación implicada e interacciones
- expresión
Estos pasos puede involucrar ambas, experimentos biologicos y análisis in silico analysis. Laproteogenomica basa sus aproximaciones utilizando información de proteínas expresadas, normalmente derivada de un espectómetro de masas, para mejorar las anotaciones genómicas.[8]
Una variedad de herramientas de software han sido desarroolladas que le permiten a los científicos observar y compartir las anotaciones genómicas.[citation needed]
Las anotaciones genomicas siguen siendo un gran reto para los científicos investigando el genoma humano, ahora que las secuencias de genoma de más mil individiuos humanos y organismos model están finalmente completadas.[9][10] Identificar las ubicaciones de genes y otros elementos genéticos de control normalmente se describen al definir las "lista de partes" biológicas para el montaje y la operación normal de un organismo.[1] Los científicos aún están en una fase temprana del proceso de delinear la "lista de partes" y en entender como todas las pares se "ajustan juntas".[11]
La anotación del genoma es un área de investigación que involucra a diferentes organizaciones en la comunidad de ciencias de la vida, que publican los resultados de sus esfuerzos en bases de datos biologicas disponibles al públicos y accesible vía online y otros medios electrónicos. Aquí hay una lista en orden alfabético de proyectos relevantes a la anotación del genoma:
- Encyclopedia of DNA elements (ENCODE)
- Entrez Gene
- Ensembl
- GENCODE
- Gene Ontology Consortium
- GeneRIF
- RefSeq
- Uniprot
- Vertebrate and Genome Annotation Project (Vega)
En Wikipedia, la anotación del genoma ha empezado a automatizarse bajo los auspicios de Gene Wiki portal el cual opera un bot que cosecha datos de genes de basos de datos de investigación y crea resguardos de genes en esa base.[12]
Ver también
[edit]- Joint Genome Institute
- Model organism
- National Center for Biotechnology Information
- Illumina, private company involved in genome sequencing
- Knome, private company offering genome analysis & sequencing
Referencias
[edit]- ^ a b c Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2nd edy ed.). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851.
- ^ Cite error: The named reference
doe2009
was invoked but never defined (see the help page). - ^ Cite error: The named reference
li2010
was invoked but never defined (see the help page). - ^ Cite error: The named reference
ReferenceA
was invoked but never defined (see the help page). - ^ Cite error: The named reference
wang2008
was invoked but never defined (see the help page). - ^ Cite error: The named reference
Stein2001
was invoked but never defined (see the help page). - ^ Cite error: The named reference
ensmbl
was invoked but never defined (see the help page). - ^ Cite error: The named reference
Gupta07
was invoked but never defined (see the help page). - ^ ENCODE Project Consortium (2011). Becker PB (ed.). "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)". PLOS Biology. 9 (4): e1001046. doi:10.1371/journal.pbio.1001046. PMC 3079585. PMID 21526222.
{{cite journal}}
: CS1 maint: unflagged free DOI (link) - ^ McVean, G. A.; Abecasis, D. M.; Auton, R. M.; Brooks, G. A. R.; Depristo, D. R.; Durbin, A.; Handsaker, A. G.; Kang, P.; Marth, E. E.; McVean, P.; Gabriel, S. B.; Gibbs, R. A.; Green, E. D.; Hurles, M. E.; Knoppers, B. M.; Korbel, J. O.; Lander, E. S.; Lee, C.; Lehrach, H.; Mardis, E. R.; Marth, G. T.; McVean, G. A.; Nickerson, D. A.; Schmidt, J. P.; Sherry, S. T.; Wang, J.; Wilson, R. K.; Gibbs (Principal Investigator), R. A.; Dinh, H.; Kovar, C. (2012). "An integrated map of genetic variation from 1,092 human genomes". Nature. 491 (7422): 56–65. doi:10.1038/nature11632. PMC 3498066. PMID 23128226.
- ^ Dunham, I.; Bernstein, A.; Birney, S. F.; Dunham, P. J.; Green, C. A.; Gunter, F.; Snyder, C. B.; Frietze, S.; Harrow, J.; Kaul, R.; Khatun, J.; Lajoie, B. R.; Landt, S. G.; Lee, B. K.; Pauli, F.; Rosenbloom, K. R.; Sabo, P.; Safi, A.; Sanyal, A.; Shoresh, N.; Simon, J. M.; Song, L.; Trinklein, N. D.; Altshuler, R. C.; Birney, E.; Brown, J. B.; Cheng, C.; Djebali, S.; Dong, X.; Dunham, I. (2012). "An integrated encyclopedia of DNA elements in the human genome". Nature. 489 (7414): 57–74. doi:10.1038/nature11247. PMC 3439153. PMID 22955616.
- ^ Cite error: The named reference
Huss2008
was invoked but never defined (see the help page).
External links
[edit]- GOLD:Genomes OnLine Database
- Genome Project Database
- The Protein Naming Utility
- SUPERFAMILY
- The sea urchin genome database
- NRCPB.