¿Cómo se calcula el valor P en el análisis de vías de IPA?

En IPA (Ingenuity Pathway Analysis), el valor P se obtiene mediante análisis estadístico. El valor P es un indicador que evalúa si los datos observados son estadísticamente significativos en comparación con lo que se obtendría en condiciones aleatorias.

El flujo general

En el análisis de vías de IPA, el valor P se calcula mediante los siguientes pasos.

Preprocesamiento de los datos de entrada: Para el análisis de vías, se introducen datos brutos como datos de expresión génica o datos de expresión de proteínas.
Selección de la vía: Se selecciona la vía biológica que se desea analizar. Por ejemplo, pueden elegirse vías de transducción de señales o vías metabólicas relacionadas con una enfermedad específica.
Puntuación de la vía: Se calculan las puntuaciones de los genes y las proteínas incluidos en la vía seleccionada. Para ello pueden emplearse, por ejemplo, el análisis de expresión diferencial de los datos de expresión génica o el análisis de las variaciones en la expresión de proteínas.
Prueba de permutación: A partir de las puntuaciones de los genes y las proteínas dentro de la vía, se generan conjuntos de datos aleatorios. Estos conjuntos de datos aleatorios conservan las características de los datos de entrada, pero asignan al azar las puntuaciones de los genes y las proteínas.
Cálculo del valor P: Utilizando los conjuntos de datos aleatorios generados por la prueba de permutación, se crea una distribución aleatoria de las puntuaciones. A continuación, se evalúa en qué posición se encuentra la puntuación observada dentro de la distribución aleatoria y se calcula el valor P. El valor P indica la probabilidad de que la puntuación observada se obtenga en una distribución aleatoria.

Cuanto menor sea el valor P, menor será la probabilidad de que la puntuación observada se obtenga en condiciones aleatorias. En general, un valor P igual o inferior a 0.05 (normalmente igual o inferior a 0.01) se considera estadísticamente significativo. En tales casos, dado que la probabilidad de que la puntuación observada se obtenga en condiciones aleatorias es muy baja, se considera que existe una asociación biológica realmente significativa.

¿Cómo se realiza la puntuación de la vía?

En la puntuación de la vía, se cuantifican y evalúan la importancia y la contribución de los genes.

Como ejemplo concreto, supongamos que hay tres genes (A, B, C) relacionados con una determinada vía y que el nivel de expresión de cada gen se da de la siguiente manera.

Nivel de expresión del gen A: 10 Nivel de expresión del gen B: 5 Nivel de expresión del gen C: 8

En este caso, supongamos que las puntuaciones de los genes se calculan en función de sus niveles de expresión y se evalúan, por ejemplo, en una escala de 10 puntos. Como el gen A tiene el nivel de expresión más alto, se le asignan 10 puntos. Como el gen B tiene un nivel de expresión moderado, se le asignan 5 puntos. Como el gen C también tiene un nivel de expresión alto, se le asignan 8 puntos.

Luego, estas puntuaciones se normalizan. Por ejemplo, supongamos que se escalan al rango de 0 a 1. En este caso, el gen A pasa a ser 1.0, el gen B pasa a ser 0.5 y el gen C pasa a ser 0.8.

De esta manera, se pueden asignar puntuaciones a los genes dentro de la vía. Esto permite evaluar la importancia de los genes y su papel dentro de la vía.

¿Qué es una prueba de permutación?

En una prueba de permutación, los datos se reordenan al azar para realizar el análisis estadístico. Mediante este reordenamiento aleatorio se predicen los resultados que se obtendrían cuando los datos se encuentran en un estado aleatorio.

Cuando se conoce la expresión del gen A y del gen B a partir de los datos del paciente, para evaluar si estos participan en la Pathway X, se puede realizar una prueba de permutación con los siguientes pasos.

Preprocesamiento de los datos: Se extraen los datos de expresión del gen A y del gen B a partir de los datos del paciente.
Puntuación de los genes: Utilizando los datos de expresión del gen A y del gen B, se asignan puntuaciones a cada gen. El método de cálculo de las puntuaciones puede establecerse en función del nivel de expresión y la importancia del gen.
Preparación de la prueba de permutación: Para la prueba de permutación, se preparan los datos de puntuación del gen A y del gen B.
Ejecución de la permutación: Los datos de puntuación del gen A y del gen B se reordenan al azar y se ejecuta la prueba de permutación. Esto predice los resultados que se obtendrían cuando la asociación entre el gen A y el gen B se produce en condiciones aleatorias.
Repetición de la permutación: La permutación se repite varias veces para generar conjuntos de datos aleatorios. Normalmente se repite varios miles de veces o más.
Evaluación de los resultados: Los conjuntos de datos aleatorios obtenidos en la prueba de permutación se comparan con los datos originales. Concretamente, se evalúa en qué posición se encuentran las puntuaciones del gen A y del gen B dentro de los conjuntos de datos aleatorios. Esto permite evaluar estadísticamente si las puntuaciones del gen A y del gen B participan en la Pathway X.

Mediante la prueba de permutación, es posible evaluar si las puntuaciones del gen A y del gen B tienen una asociación estadísticamente significativa con la Pathway X. Esto permite verificar estadísticamente si un gen específico participa en una vía específica.

¿Cómo se obtiene el valor P?

Tras ejecutar la prueba de permutación, se evalúa en qué posición se encuentran los datos originales dentro de los conjuntos de datos aleatorios.
Para esta evaluación, se calcula un estadístico de los datos originales (por ejemplo, el valor absoluto de la diferencia entre las puntuaciones del gen A y del gen B, o el coeficiente de correlación).
Entre los conjuntos de datos aleatorios obtenidos en la prueba de permutación, se calcula la proporción en la que se obtuvo un estadístico mayor o igual que el de los datos originales.
Esta proporción se convierte en el valor P. El valor P indica la probabilidad de que los datos originales se obtengan en un estado aleatorio.

Por ejemplo, consideremos el caso de evaluar el valor absoluto de la diferencia entre las puntuaciones del gen A y del gen B.

Mediante la prueba de permutación, los datos de puntuación del gen A y del gen B se reordenan al azar.
Se calcula el valor absoluto de la diferencia entre las puntuaciones del gen A y del gen B en los datos originales.
Entre los conjuntos de datos aleatorios obtenidos en la prueba de permutación, se cuenta el número de veces que se obtuvo un valor absoluto de la diferencia mayor o igual que el de los datos originales.
Ese número se divide por el número de repeticiones de la permutación para calcular una proporción. Esta se convierte en el valor P.

El valor P indica la probabilidad de que los datos originales se obtengan en un estado aleatorio. Cuanto menor sea el valor P, menor será la probabilidad de que los datos originales se obtengan en un estado aleatorio. En las pruebas estadísticas de hipótesis, al compararlo con un nivel de significación establecido de antemano (normalmente 0.05 o 0.01), si el valor P es pequeño, se puede decir que el resultado es estadísticamente significativo.

Lo anterior es un ejemplo de cómo se calcula el valor P. Con esto, los resultados de la prueba de permutación pueden evaluarse estadísticamente y se puede determinar la probabilidad de que los datos originales se obtengan en un estado aleatorio.

Resumido en un diagrama, sería algo así.