Modelos de redes bayesianas en el estudio de secuencias genómicas y otros problemas biomédicos (página 2)

Enviado por María del Carmen Chávez Cárdenas

Partes: 1, 2, 3, 4, 5

a bajo la curva ROC, del inglés, Area under the Receiving Operation
Characteristic Curve
AD: Árbol de Decisión, del inglés Decision Tree
LOO-CV: validación cruzada dejando uno fuera, del inglés Leave one out crossvalidation

Monografias.com

INTRODUCCIÓN
La secuenciación de genomas ha generado un amplio catálogo de miles de millones de
secuencias de pares de bases nucleotídicas de ADN (Ácido desoxirribonucleico), o
moléculas esenciales de la vida. Una de las dificultades que se afronta en los estudios
biológicos actuales proviene, paradójicamente, de esta enorme cantidad de datos. Se
conocen las secuencias (nucleotídicas o de aminoácidos para los cuales ellas codifican) de
más de un millón y medio de proteínas, las de más de cien genomas (ver anexo 1 de
conceptos básicos), la estructura tridimensional de más de 20 mil proteínas, etc. Gracias a
los experimentos de matrices de ADN o micro arreglos (micro arrays) se sabe cuándo y
cómo se expresan muchos genes; también se dispone de muchos datos que indican qué
proteínas interactúan entre sí. Además, todo el conocimiento científico acumulado a lo
largo de las últimas décadas se encuentra disperso en más de 12 millones de artículos
(Galperin 2007).
La disponibilidad de genomas completos de muchas especies, además del humano, el
volumen de información ubicado actualmente en las bases de datos públicas, por ejemplo la
base de datos GenBank (Benson et al. 2005), y los ambiciosos proyectos masivos de
estudios sobre la interacción entre proteínas, han generado un cambio de paradigma en las
investigaciones biológicas: de una estrategia de extraer el máximo de información a partir
de unos pocos datos, se ha pasado a la necesidad de obtener la información esencial a partir
de grandes volúmenes de datos. Para sólo poner un ejemplo, cuando se secuencia un
genoma se tiene poco más que una larga serie de letras (bases nucleotídicas) (Dopazo y
Valencia 2002) que constituyen realmente instrucciones y datos complicados. Para avanzar
en la compresión de la información que encierran estos libros de instrucciones se deben
encontrar los genes y predecir su función y esto está lejos de ser resuelto para cualquiera de
los genomas ya secuenciados.
Se ha dado un avance en el planteamiento de la estructura-función en los genes así como la
interrelación entre ellos y a su vez, su relación, por ejemplo, con procesos metabólicos
normales así como con enfermedades asociadas a factores hereditarios o transformaciones
genéticas. Estos descubrimientos conllevan el manejo de una cantidad elevada de datos,

Monografias.com

Introducción
2
imposibles de procesar de forma manual y que exigen de aplicaciones informáticas
especializadas. Por tal motivo son muy importantes los avances en el orden computacional
que se aplican al procesamiento de los datos para convertirlos en información esencial. Por
ejemplo, los 34 000 genes humanos (la cifra es aproximada) pueden dar lugar a varios
cientos de miles de proteínas y funciones, cifra que se multiplica gracias al multiuso de
secciones codificantes, facilitado por el evento conocido como "splicing" o corte de
intrones1 y además, a las modificaciones postraduccionales que pueden sufrir las proteínas.

El enfoque clásico, que consistía en conocer una determinada función y buscar el gen
responsable, se transformó y creó un nuevo escenario donde se dispone de un importante
número de genes desconocidos a los que es necesario asignar una función. Este nuevo
momento dio lugar al desarrollo de la Bioinformática (Christos y Valencia 2003).

Existe consenso acerca de la necesidad de la revisión y adaptación de algoritmos y
sistemas existentes en el campo de la Ciencia de la Computación con estos objetivos, e
incluso, el diseño de nuevos algoritmos e implementaciones.

Antecedentes

Los estudios bioinformáticos que se desarrollan en el mundo tienen mucho de
experimental, de uso de métodos de prueba y error, de abuso de hipótesis “ad-hoc”, además
de ser inmensamente costosos por los materiales y la información que requieren, tanto para
la experimentación biológica como para el procesamiento computacional.

En el año 2002 se crea el Grupo de Bioinformática en la Universidad Central “Marta
Abreu” de Las Villas (UCLV) con objetivos específicos, que emprenden el estudio, desde
el punto de vista matemático puro y estadístico, de estructuras algebraicas en el código
genético con pretensiones de ayudar a predecir estructura, funciones, evolución o
mutaciones en general. Estas investigaciones básicas obtienen un rápido éxito.

Una vez que estos resultados se han obtenido y publicado (Sánchez y Grau 2005), (Sánchez
et al. 2004) , se hace necesario buscar nuevas herramientas computacionales que junto a
1
intrones: segmentos no codificantes para proteínas que forman parte de los genes de organismos superiores y
que se intercalan con los exones, o zonas codificantes en un gen.

Monografias.com

Introducción
3
estas representaciones algebraicas permitan perfeccionar el análisis de secuencias. Los
enfoques de aprendizaje automático o Machine Learning (ML), por ejemplo las Redes
Neuronales, los Modelos Ocultos de Markov, las Máquinas con Vectores Soporte, las
Redes Bayesianas (RB), etc., se ajustan idealmente para dominios caracterizados por la
presencia de grandes volúmenes de datos, modelos “ruidosos”, y la ausencia de teorías
generales que permitan hacer análisis determinísticos o incluso estadísticos.

La idea fundamental que se persigue es descubrir conocimiento o aprender
automáticamente desde los datos, a través de un proceso de inferencia o modelo de
adaptación. Una arquitectura unificada dentro de los métodos de aprendizaje automático es
el enfoque probabilístico bayesiano para la modelación e inferencia (Baldi y Soren 2001).

Las RB son una técnica de Inteligencia Artificial (IA) que ha mostrado resultados
relevantes frente a este tipo de datos. Ellas constituyen una representación del conocimiento
que tiene en cuenta las relaciones entre las variables2 y hacen una selección de las más
importantes por su propia caracterización, a la vez que permiten hacer inferencias sobre las
mismas y en particular pueden ser usadas para tareas de clasificación. Esencialmente, una
RB es un grafo dirigido acíclico (GDA) y una distribución de probabilidad para cada nodo
del grafo (Buntine 1996), (Castillo et al. 1997), (Heckerman 1996), (Charles River
Analytics 2004).

La definición de una RB supone siempre dos tareas. La primera es determinar la estructura
de relaciones de dependencia entre las variables “independientes”3, digamos por ejemplo,
las posiciones de una secuencia, en relación a una variable “dependiente”. La segunda tarea
es obtener la distribución de probabilidades (parámetros) que permitirá hacer inferencias.
Entre estas dos tareas, la primera es esencial por ser realmente la más difícil y es
imprescindible para poder realizar la segunda. Así, las posibilidades del uso de las RB se
fortalece si es posible realizar el aprendizaje de las mejores estructuras y parámetros,
2
Indistintamente se utilizan los términos variables, atributos o rasgos para referirnos a las variables
predictoras en los problemas que se tratan, y cuando se habla de la variable dependiente se refiere como
variable dependiente o clase.
3
estos términos por analogía con los de otras técnicas de pronóstico pero se anotan por esa razón entre
comillas. Las llamadas variables independientes, son las predictivas de la variable dependiente u objetivo,
pero no son independientes entre sí.

Monografias.com

Introducción
4
especialmente si se logra optimizar el aprendizaje estructural acorde con el dominio del
campo de aplicación, en este trabajo la Bioinformática y en particular el análisis de
secuencias genómicas. Se requiere además la implementación de estas nuevas técnicas de
aprendizaje y de inferencia en productos de software, preferiblemente en plataformas de
software libre para facilitar la divulgación y uso por la comunidad científica.

Las RB se han utilizado en Biología e incluso en Bioinformática (Wilkinson 2007), pero se
usan técnicas muy generales de aprendizaje que tal vez no tienen en cuenta la información
esencial de los datos biológicos o de las secuencias genómicas (Liu y Logvinenco 2003).
Este es el campo de estudio. A continuación se detalla esta situación problémica.

Situación problémica

La genómica y la proteómica, generan continuamente grandes cantidades de datos que
plantean problemas de gestión y análisis, lo cual enfrenta a la Bioinformática el reto de
encontrar nuevas soluciones que permitan el procesamiento eficiente de dicha información.
Los especialistas confrontan no solo el problema técnico que presenta el manejo de grandes
volúmenes de datos, sino la búsqueda de nuevos algoritmos con los que se pueda extraer
nuevo conocimiento desde datos ruidosos o sujetos a errores.
Las herramientas bioinformáticas clásicas más usadas en el contexto del análisis de
secuencias incluyen métodos de búsqueda de secuencias similares e inducción de
propiedades a partir de la similaridad. Los programas BLAST (Basic Local Alignment
Search Tool)4 y FASTA (FAST-All, (EBI 1999))5 son muy conocidos; también el
alineamiento múltiple (CLUSTAL es un algoritmo clásico para esta tarea), la definición de
regiones conservadas con posible significado funcional, y el uso de estas regiones para
buscar nuevas secuencias, así como métodos filogenéticos en aras de reconstruir relaciones
evolutivas entre las secuencias (Cohen 2004). Esencialmente, ellas son herramientas de
aprendizaje no supervisado o supervisado. Sin embargo, algunas de estas herramientas
bioinformáticas, por ejemplo las de alineamiento están diseñadas para trabajar con una
4
5
BLAST se utiliza para buscar regiones similares entre secuencias biológicas.
FASTA permite hacer una comparación rápida de proteínas o nucleótidos.

Monografias.com

Introducción
5
cantidad relativamente pequeña de secuencias o de clases objetivo, y se limita así el
procedimiento clásico para saber más sobre una secuencia que consiste, básicamente, en
alinear ésta con otras disponibles en bases de datos, cuyas características o funciones son
conocidas y “buscar” información sobre la misma a partir de similaridades con un grupo
reducido de secuencias conocidas.
Un nuevo reto del análisis de secuencias biológicas está en la manipulación de mucha
información, que además, puede contener incertidumbre. Usualmente los especialistas de
bioinformática afrontan así la realización de dos tareas principales: clasificar los datos en
grupos y después, investigar qué información tienen en común los miembros de cada grupo,
que los distinguen del resto de los otros grupos. La ejecución de estas tareas se basa
esencialmente en la aplicación de técnicas de agrupamiento y de la aplicación posterior de
otros métodos que permitan extraer información característica de un grupo de elementos.
Es dentro de la segunda tarea que se pretende utilizar las RB. Los métodos para extraer la
información en la segunda fase pueden incluir cualquier técnica de aprendizaje
supervisado; pero la extracción de conocimiento en el análisis de secuencias genómicas o
datos biológicos no siempre constituye un problema de regresión o clasificación. Dada la
incertidumbre presente en estos datos, resulta apropiada la aplicación de métodos
bayesianos, por las ventajas que ofrece sobre las técnicas estadísticas y bioinformáticas
convencionales (Silva y Muñoz 2000).

Las RB aventajan a métodos tradicionales de clasificación en dos aspectos esenciales:

1. Permiten realizar inferencias en presencia de información o evidencias incompletas.

2. Las inferencias pueden ser no solo sobre la “clase o variable dependiente” sino sobre
cualquiera de las variables “independientes” cuya información se desconozca a partir de
evidencias de otras variables.

Estos dos aspectos son típicos en los problemas actuales de análisis de secuencias. Por
ejemplo, a partir de una base de datos de mutaciones de un virus con niveles conocidos de
resistencia antiviral ante determinada droga, puede ser interesante el clásico problema de
clasificación de la resistencia de una nueva mutación, aun cuando no se tengan disponibles
todos los datos de ésta. Puede también ser interesante, a partir de cierto nivel de resistencia

Monografias.com

Introducción
6
deseado, conocer información probabilística sobre determinadas posiciones de esa
secuencia, necesaria para obtener un determinado nivel de resistencia, así como
combinaciones de las distintas interrogantes que se puedan presentar. Todos estos
problemas se pueden resolver si se hacen diferentes inferencias con una RB única que tenga
una buena estructura y una vez que se definan los parámetros asociados a la misma.

También en otras aplicaciones biológicas y médicas se presentan problemas similares. Por
ejemplo, en el diagnóstico probabilístico diferenciado de una determinada enfermedad, a
partir de una base de casos con información sobre riesgos y casos nuevos con información
incompleta, o la investigación de la necesidad probabilística de un riesgo difícil de explorar
ante casos con diagnóstico conocido.

Debido a las bondades que presentan las RB surge la idea de trabajar con este tipo de
técnica; aunque esto no necesariamente alivia la solución de los problemas, y mucho menos
la solución combinada con técnicas de la IA, si la estructura de la red exige el cálculo de un
gran número de probabilidades condicionales o parámetros, como es usual. Se plantea
entonces el problema de simplificar la estructura de la red con el apoyo de otros modelos
gráficos probabilísticos o de optimización, así como en información concreta del dominio
de aplicación, para en definitiva aliviar el cálculo de probabilidades, facilitar inferencias y
reducir complejidad computacional.

Hay otras insuficiencias en el estado del arte actual de algunas aplicaciones
computacionales. Por ejemplo, la plataforma inteligente para aprendizaje Weka (Waikato
Environment for Knowledge Analysis) (Witten y Frank 2005), que es libre y de código
abierto, tiene incorporadas muchas técnicas estadísticas o de IA y brinda la posibilidad de
experimentar con el conjunto de ellas para investigar con cuáles se obtienen mejores
resultados. Pero las RB que incluye hasta ahora usan sólo los métodos clásicos de
aprendizaje y apenas permiten resolver tareas de clasificación, no así de inferencia inversa
como las mencionadas anteriormente.

Además, en el campo de la aplicación al análisis de secuencias genómicas, existen muchos
problemas abiertos, los cuales han sido abordados por diferentes técnicas, en particular, de
clasificación, con resultados que aún no satisfacen las expectativas de los especialistas en

Monografias.com

Introducción
7
ciencias biológicas y que sugieren la aplicación de nuevos métodos con el propósito de
alcanzar mejores desempeños en las predicciones. Entre los ejemplos de tales problemas se
encuentran la localización de los sitios de splicing, la detección de interacciones de
proteínas, la predicción de actividad antiviral y otros que serán abordados en la presente
tesis con la aplicación de los métodos propuestos en la misma.

La comunidad bioinformática actual ha llegado al consenso de que ninguna técnica por
separado dará una solución definitiva a varios de estos
problemas, producto de las
indeterminaciones propias de los procesos biológicos y la presencia de muchos ruidos o
ausencia de información y ello reclama de los “ensembles” o “multiclasificadores”. Es ello
otra justificación para la búsqueda, casi interminable, de nuevos algoritmos que, desde una
óptica diferente, puedan aportar elementos extras a la solución de tales problemas en
conjunción con otros algoritmos o modelos. En este sentido, el presente trabajo contribuye
a la detección de interacciones esenciales entre variables supuestamente predictivas para
abordar tales problemas.

Consecuentemente se plantea el siguiente:

Objetivo general

Desarrollar e implementar nuevos algoritmos de aprendizaje estructural de RB a partir de la
combinación de métodos clásicos con otros modelos gráficos como los árboles de decisión
y los algoritmos de optimización bioinspirados, que simplifiquen la red, que tengan
resultados con eficiencia similar o superior a las RB clásicas y otras técnicas en problemas
de clasificación de carácter biológico, y capaces de ser utilizados efectivamente en el
análisis de secuencias genómicas para extraer información múltiple y adicional de las
mismas.

Este objetivo general se desglosa en los siguientes objetivos específicos:
•
Desarrollar nuevos algoritmos de aprendizaje estructural de RB que conduzcan a redes
relativamente simples, en las cuales se minimicen las relaciones esenciales de
dependencia entre las variables, con eficiencia similar o superior a las ya existentes, y
particularmente aplicables en estudios bioinformáticos y biomédicos.

Monografias.com

Introducción
8
•

•
Realizar la implementación computacional de los métodos propuestos en plataformas
de software libre, de modo que se facilite su utilización práctica por la comunidad
científica internacional, y a su vez poder compararlos con otros modelos clásicos de RB
u otras técnicas de aprendizaje.
Ilustrar cómo los modelos desarrollados pueden contribuir a la solución de problemas
reales y aun abiertos de Bioinformática, relacionados con el análisis de secuencias
genómicas, e ilustrar su generalidad con las posibilidades de aplicación también en
otros problemas de diagnóstico médico.
Para el cumplimiento de estos objetivos se trazaron las siguientes

Tareas de investigación
1.

4.
Confección del marco teórico relacionado con la teoría de las RB y las experiencias
reportadas de aplicación a la Bioinformática. Revisión de la teoría relacionada con los
modelos que se pretenden combinar.
Desarrollar y formalizar nuevos algoritmos de aprendizaje estructural de RB basados
en:
a. Integración de árboles de decisión obtenidos con el algoritmo de detección de
interacciones basado en Chi-cuadrado (CHAID)
b. Detección de interacciones esenciales, perfeccionado el algoritmo de búsqueda de
las mismas
c. Algoritmos de optimización bioinspirados, concretamente la optimización basada
en enjambres de partículas, para contribuir a la reducción de atributos.
Implementar y evaluar los tres algoritmos elaborados sobre la plataforma Weka y
realizar la validación cruzada en forma paralela para así facilitar la evaluación de los
algoritmos en problemas bioinformáticos.
Mostrar y evaluar los resultados de la aplicación en problemas tales como:
a. Detección de interacciones entre proteínas
b.
Localización de genes a través de la predicción de splice sites
c. Diagnóstico médico de la hipertensión arterial ( HTA)

Partes: 1, 2, 3, 4, 5

Página anterior

Volver al principio del trabajo

Página siguiente