Aprendizaje automático para identificar interacciones factor de transcripción-ADN
[ad_1]
Los factores de transcripción (TF) y los sitios de ADN a los que se unen (TF-DNA) son buenos objetivos para el mejoramiento de plantas porque controlan la expresión génica. Si bien los desarrollos tecnológicos de la última década han facilitado la caracterización de las preferencias de unión al ADN para muchos TF, muchos siguen sin identificar. Apareció un nuevo artículo en en silico Plants describe un modelo de aprendizaje automático creado para encontrar sitios de unión de TF candidatos.
La Sra. Sohyun Bang, estudiante de posgrado en el Departamento de Bioinformática de la Universidad de Georgia y coautora, creó un modelo predictivo que podría clasificar las regiones genómicas como clases de unión a TF y clases no unidas a TF del ADN genómico. Los autores optaron por centrarse en la detección de miembros de la familia TF del factor de respuesta de auxina (ARF) en maíz y soja porque la auxina desempeña un papel fundamental en el crecimiento y desarrollo de las plantas y se conserva evolutivamente en todas las especies.
Debido a que los datos estaban desequilibrados, lo que significa que la mayor parte del genoma no estaba compuesto por eventos de unión a ARF, los autores se arriesgaron a tener altas tasas de falsos positivos. Por lo tanto, redujeron la cantidad de datos que no consistían en eventos de unión de ARF al restringir los datos utilizados a las regiones no metiladas, que están altamente enriquecidas para las interacciones TF-DNA en comparación con las regiones metiladas en el genoma (Figura 1).
Los algoritmos de aprendizaje automático esperan variables numéricas, no secuencias de nucleótidos categóricas. Por lo tanto, los autores probaron la codificación de las variables categóricas (A, T, G, C) con una o más variables numéricas utilizando dos métodos (Figura 2):
- La codificación one-hot considera el ADN como una secuencia unidimensional de cuatro canales y longitud fija. Por ejemplo, si A, C, G, T están codificados en (1 0 0), (0 1 0), (0 0 1), (0 0 0), respectivamente, entonces la secuencia ATTGC se convierte en ((1 0 0), (0 0 0), (0 0 0), (0 0 1), (0 1 0)). Las secuencias de ADN codificadas se clasificaron utilizando redes neuronales convolucionales.
- Contar la vectorización con usos de k-mer describe secuencias de ADN cortas a lo largo de su longitud (la longitud se indica como k). Por ejemplo, si hay un grupo de secuencias de AATTG, las fichas de 3-mer son AAT, ATT, TTG y TGC. El k probado en este artículo fue de 5 a 9 pares de bases y finalmente se eligió usar un 7-mer porque produjo la tasa de falsos negativos más baja. La regresión logística se ajustó para contar características vectorizadas.
Usando estos métodos, se desarrollaron y entrenaron dos modelos para aprender diferentes patrones de secuencias unidas y no unidas a TF a partir de un subconjunto de datos. Luego, los modelos se ejecutaron en los datos restantes para predecir las regiones unidas o no unidas a TF. La precisión de la predicción de cada modelo se evaluó utilizando eventos TF unidos y no unidos conocidos, que los autores identificaron usando picos de purificación y secuenciación de afinidad de ADN (DAP-seq, Figura 3).
El número total de eventos vinculados y no vinculados a TF predichos con precisión mostró una alta precisión de los modelos de predicción con la advertencia de que a menudo se perdieron los eventos no vinculados a TF de alta frecuencia.
Los autores encontraron que los dos métodos de codificación, one-hot y k-mer, tenían una precisión de predicción de TF similar (76-78%) y una incidencia similar pero alta (41-46%) de tasas de falsos negativos.
Los autores decidieron continuar con el modelo k-mer y mejorar aún más su rendimiento al incluir un clasificador de regresión logística con muestreo ascendente y selección de características. Para equilibrar los datos, que contenían más regiones no vinculadas a ARF que regiones vinculadas a ARF, los autores utilizaron muestreo ascendente, en el que la clase minoritaria se elige aleatoriamente para que tenga el mismo tamaño que la clase mayoritaria en el conjunto de entrenamiento. La selección de características se realizó mediante la identificación de los patrones de secuencia genómica de 7 mer a los que es más probable que se una ARF, sin utilizar la información del motivo.
Esto les permitió lograr una precisión de predicción de TF del 91 % y una tasa de falsos negativos del 35 %.
Finalmente, los autores validaron el modelo de maíz mejor establecido contra el genoma de la soya para determinar si el modelo se puede usar para predecir de manera confiable las interacciones TF-ADN en otras especies de plantas (Figura 4). Para hacer esto, generaron datos DAP-seq para los mismos ARF de maíz utilizando ADN genómico de soja como entrada. Después de entrenar las regiones ligadas a ARF de maíz y probar los datos de soya, lograron una precisión de predicción de TF de 70-84 % pero tasas altas (36-89 %) de falsos negativos entre los miembros de ARF.
Los resultados de este estudio sugieren el uso potencial de diferentes métodos para predecir las interacciones TF-ADN dentro y entre especies con diversos grados de éxito.
LEER EL ARTÍCULO:
Sohyun Bang, Mary Galli, Peter A. Crisp, Andrea Gallavotti, Robert J. Schmitz, Identificación de las interacciones entre el factor de transcripción y el ADN mediante el aprendizaje automático, in silico Plants, 2022;, diac014, https://doi.org/10.1093/ insilicoplants/ diac014
El modelo está disponible gratuitamente en https://github.com/schmitzlab/Identifying-transcription-factor-DNA-interactions-using-machine-learning
El aprendizaje automático utilizado para identificar las interacciones entre el factor de transcripción y el ADN apareció por primera vez en Botany One.
[ad_2]