Zootecnia Tropical >  Colección > Sumario > Volumen 18 > Artículo

Zootecnia Tropical, 18(1):3-28.  2000

COMPARACIÓN DE MÉTODOS PARA ANÁLISIS DE DATOS BINOMIALES EN PRODUCCIÓN ANIMAL1

Omar Verde

Profesor titular. Facultad de Ciencias Veterinarias, Universidad Central
 de Venezuela, Apdo. 4653, Maracay, Venezuela.
1
Proyecto codificado DL-AG-0056 financiado por FUNDACITE Aragua
Recibido: 13/07/99        Aceptado: 11/02/00


RESUMEN

Se describen cuatro metodologías estadísticas: tablas de contingencia con pruebas de chi-cuadrado, regresión logística, cuadrados mínimos ponderados y modelos mixtos bajo un modelo animal, para la evaluación de datos donde la variable respuesta tiene una distribución binomial. Se discuten las ventajas y desventajas de cada una de ellas y se evalúa un conjunto de datos por estas metodologías. Se concluye que, en la evaluación simultanea de la influencia de varios efectos fijos sobre una característica binomial, las metodologías de los cuadrados mínimos y la de los modelos mixtos bajo un modelo animal, a través de los programas de computación desarrollados, proporcionan mayor cantidad de información de interés práctico y que la aplicación de una u otra dependerá del objetivo principal de la investigación.

Palabras clave: Binomial, cuadrados mínimos, regresión logística, modelos mixtos

INTRODUCCIÓN

El análisis de variables continuas, especialmente las que tienden a ajustarse a una distribución normal, ha tenido un progreso sostenido y rápido durante el presente siglo. Por el contrario, ha sido mucho más reciente el desarrollo de metodologías estadísticas sofisticadas para el análisis de una variable respuesta categórica. A manera de ejemplo, los métodos de regresión y análisis de la variancia para caracteres continuos fueron desarrollados rápidamente después de las contribuciones de Francis Galton a finales del siglo XIX mientras que, métodos análogos a la regresión para variables respuesta categóricas, solo fueron desarrollados durante los últimos 25 años.

Una variable categórica muy especial y de gran importancia en el campo de la producción animal está dada por la denominada variable binomial, que corresponde a aquella donde solo existen dos posibles resultados o respuestas como, por ejemplo, recuperación o no ante una enfermedad, éxito o falla de la inseminación, sobrevivencia o no a una determinada edad, etc.

Una severa limitación o complicación en el análisis de los datos en el campo de la producción animal surge con la disponibilidad de observaciones desigualmente distribuidas a través de los niveles de los diferentes factores o efectos que se desea evaluar en su contribución a explicar la variación de una variable respuesta. Las metodologías tradicionales de análisis de variancia producen resultados sesgados que, en muchas oportunidades, dificultan su interpretación. La situación se presenta aun más complicada al tratarse de caracteres binomiales, cuya distribución no se ajusta exactamente a los requerimientos de las técnicas de análisis propuestas.

El presente trabajo tiene como objetivo comparar la aplicación de cuatro metodologías: tablas de contingencia con pruebas de chi-cuadrado, regresión logística, cuadrados mínimos ponderados y modelos mixtos, como herramientas para ser utilizadas en los análisis de caracteres binomiales.

TABLAS DE CONTINGENCIA

Con dos variables categóricas (una con k niveles y la otra con 2), donde una observación es asignada a una determinada categoría en cada una de las variables, se tendrá un total de k x 2 combinaciones de clasificación. Si se asume que una de las variables es la variable respuesta con dos posibles categorías y la otra es una variable explicatoria con k categorías, se tendrá una tabla que contendrá el número de observaciones en cada combinación y que pudiera ser utilizada para evaluar el comportamiento de la variable respuesta binomial a través de las k categorías de la variable explicatoria.

La prueba estadística más simple y más frecuentemente utilizada para probar la asociación entre dos variables discretas es la clásica prueba de X 2, basada en la magnitud del estadístico:

X2= S (O-E)2
             E

O corresponde a las frecuencias observadas en las distintas combinaciones de niveles y E corresponde a las frecuencias esperadas bajo una determinada Hipótesis de trabajo. El valor de X 2 obtenido se debe comparar con el valor de la tabla de X 2 para (k-1) grados de libertad y la probabilidad de error tipo I que se desee utilizar.

Por otro lado, de disponerse de más de dos categorías en la variable explicatoria, se pudiera estar interesado en realizar comparaciones de grupos, por lo que puede recurrirse a la subdivisión de los grados de libertad de la prueba de X 2 y realizar comparaciones que permitan obtener chi-cuadrados independientes. Así, por ejemplo, si se tienen 4 categorías de la variable explicatoria, la prueba de X 2 global tiene 3 grados de libertad, pudíendose plantear la posibilidad de partirlos en tres pruebas independientes como, por ejemplo, categorías 1 y 2 contra 3 y 4; categoría 1 contra 2 y categoría 3 contra 4. La suma de los X 2 de estas tres pruebas será igual al valor de X 2 global. Es decir, se estaría en capacidad de realizar comparaciones entre los niveles de la variable explicatoria.

Una de las principales razones para evaluar datos biológicos está dada por la necesidad de detectar en forma simultanea la importancia con que una serie de efectos o factores influyen sobre la variable respuesta. Así, por ejemplo, se desea evaluar la influencia del sexo del becerro, año de nacimiento, mes de nacimiento, edad de la madre al parto, etc. sobre la sobrevivencia de becerros, con el agravante de no disponerse de igual número de observaciones para cada combinación de factores. La utilización de tablas k x 2 para realizar este tipo de evaluación se hace difícil o, muy probablemente, imposible, ya que se considera deseable disponer de estimadores insesgados del efecto de cada nivel de cada factor sobre la variable respuesta. Por esto, se han presentado métodos alternativos para la evaluación de datos binomiales y, a continuación, se tratará de realizar una breve descripción de algunos.

METODOLOGÍA DE LA REGRESIÓN LOGÍSTICA

Los modelos lineales generalizados se especifican con tres componentes: el componente aleatorio que identifica la distribución probabilística de la variable respuesta, el componente sistemático que especifica una función lineal de variables explicatorias que es usada como un predictor y una asociación que describe la relación funcional entre el componente sistemático y el valor esperado del componente aleatorio.

El más importante de los modelos lineales generalizados para la variable binomial es el denominado Modelo de Regresión Logística, que está basado en la transformación logit de una proporción. La diferencia entre la regresión logística y la regresión lineal está en la escogencia del modelo y en los supuestos. Así, por ejemplo, mientras en la regresión lineal se espera que la variable respuesta y tome cualquier valor a medida que la variable independiente X tome valores entre -00 y +00 , en la variable binomial los valores respuesta esperados deben estar entre 0 y 1, observándose que los cambios de respuesta son cada vez menores a medida que se acercan a los extremos. La curva de respuesta es parecida a una S y, aunque muchas funciones han sido propuestas para el análisis de la variable binomial, la distribución logística presenta algunas ventajas importantes: desde el punto de vista matemático, la función es extremadamente flexible, facil de usar y permite una interpretación biológica apropiada.

Si Pi (x) = E (y/x)

e ßo+Sßixi 
-----------------------

(función logística)

1 + e ßo+Sßixi 

 

la transformación g(x)= ln

[ Pi (X)    ]
----------------

  1 - Pi (x)

permite la linealización de la función a:

ßo+ S ßiXi

En las presentes condiciones, la variable respuesta y dado x puede ser expresada como Pi (x) + e donde e puede asumir dos posibles valores: si y = 1, entonces e = 1 - Pi (x) con probabilidad Pi (x) pero si y es igual a 0, entonces e = - Pi (x) con probabilidad 1 - Pi (x). Es decir, los e tienen una distribución con media 0 y variancia Pi (x)[1-Pi (x)] que corresponde a una distibución binomial donde la probabilidad viene dada por Pi (x), por lo que es a través de la distribución binomial que se realizarán los análisis.

El método de estimación que se utilizará para obtener las soluciones es el conocido como método de máxima verosimilitud, que permitirá obtener valores (estimados) para los parámetros que maximizan la probabilidad de obtener el conjunto de datos en evaluación. Para la aplicación del método, se deberá construir la función de verosimilitud, que expresa la probabilidad de los valores observados como una función de los parámetros. Los estimadores máximo verosímiles de estos parámetros se escogerán de forma tal que maximicen esta función, por lo que los estimadores obtenidos serán aquellos que presenten más coincidencia con los valores observados.

La contribución a la función de Verosimilitud para el par (xi,yi) puede ser expresada como:

q (xi) = Pi (xi)yi [1-Pi (xi)]1-yi

y como se asume que las observaciones son independientes, la función de Verosimilitud se obtiene por el producto de los términos, por lo que esta será:

n

1(ß)=

Õ

q(Xi)

y=1

El principio de la Máxima Verosimilitud establece que se utilicen los valores estimados de ß que maximicen la anterior expresión. Sin embargo, es más fácil trabajar con el logarítmo de la expresión, por lo que se tendrá la expresión alternativa:

n

L (ß) = ln [l (ß) ] =

å { yi ln [ (xi) ]+ (1-yi) ln [1-Pi (xi)]} 

i=1

Para encontrar los valores de ß que maximizan L(ß) se debe proceder a derivar la función L (ß) con respecto a ßo y los ßi e igualar a cero y resolver el sistema de ecuaciones obtenido, constituido por:

n

å[yi-p (xi)] = 0

              y

i=1

 

n

å xi[yi-pi (xi)] = 0

   para cada x incluida en el modelo

i=1

Las ecuaciones Máximo Verosímiles son no lineales en ßo y las ßi, por lo que se requiere de métodos especiales para obtener su solución. Estos métodos son, usualmente, iterativos. Dentro de estos métodos de estimación de parámetros máximo-verosímiles se dispone del conocido como método iterativo de Newton-Raphson, que se fundamenta en, partiendo de los valores iniciales de p, calcular:

n

d lnFk

A =

[å

-------]

k=1

d pi

 

n

d 2lnFk

D =

[ å

------------ ]

k=1

d pid pj

donde n es el número de casos.

Los estimados de los parámetros son modificados provisionalmente en:

Delta p= -D -1A

Si los nuevos valores no incrementan el valor de la función de verosimilitud, solo una fracción de p es utilizada, fracción que es estimada por la fijación de una función cuadrática a la función de verosimilitud. La iteración finaliza cuando el mejoramiento relativo del valor de la función de verosimilitud es menor que un cierto valor prefijado, señalándose entonces haberse logrado la convergencia y los valores obtenidos para los estimadores de las ßs son denominados estimadores máximo-verosímiles.

Para la realización de pruebas de hipótesis concernientes a los estimadores, se recurre a la comparación de valores observados y esperados de la variable respuesta para dos modelos: uno que no contiene la variable en evaluación y otro que si la contiene. Esta comparación se realiza con los logaritmos de las funciones Máximo-verosímiles mediante la prueba de la Razón de Verosimilitud.

función de Verosimilitud sin la variable

G = - 2ln [

-------------------------------------------------------]

función de Verosimilitud con la variable

que sigue una distribución de X 2 con un (1) grado de libertad para una variable continua y con k -1 grados de libertad para una variable discreta con k niveles.

Una grave limitación para la evaluación de grandes volumenes de datos con modelos que incluyen un elevado número de parámetros a estimar mediante la Regresión Logística está dada por el proceso de iteración que requiere tiempo de cómputo largo, no sólo para evaluar la totalidad de los datos en cada oportunidad, sino también para el logro de la convergencia.

METODOLOGÍA DE LOS CUADRADOS MÍNIMOS PONDERADOS

Jerome C. R. Li (1957) planteó la posibilidad de codificar uno de los resultados de una variable binomial como 1 y el resultado contrario como 0 y realizar los análisis en la misma forma como se analizan las variables contínuas, teniendo en consideración que una prueba de X 2 y una prueba de t son idénticas e igualmente validas cuando el tamaño de la muestra es grande. Por otra parte, Gabriel (1963) señala que en el caso de modelos complejos para el análisis de datos binomiales, las técnicas del Análisis de Variancia por cuadrados mínimos, donde las proporciones para cada clase son ponderadas por el número de observaciones, produce resultados muy cercanos a las pruebas de significación correctas, son más sencillas, permiten conclusiones más detalladas y confiables, son más ampliamente aplicables y son más robustas que las pruebas de X 2.

Harvey (1964, 1970 y 1982) hace una evaluación detallada de las posibilidades de análisis de datos binomiales a través de la metodología de los Cuadrados Mínimos Ponderados. Indica que ponderar una clase por el número de observaciones equivale a desarrollar las ecuaciones mínimo cuadráticas usuales en los análisis para variables continuas, codificando cada observación como 0 ó 1 de acuerdo a su resultado (falla o éxito).

Esta metodología, la de los Cuadrados Mínimos Ponderados, que se basa en la minimización de las sumas de cuadrados de las desviaciones de los valores observados de Y con relación a los valores predichos basado en el modelo en consideración, ha sido ampliamente utilizada por los investigadores en el área de la producción animal para evaluar variables respuesta como preñez, sobrevivencia, tipo de parto, etc. Varias ventajas están a su favor: la disponibilidad de programas estadísticos para la realización de análisis aplicando una amplia variedad de modelos fijos, aleatorios o mixtos; la posibilidad de obtener estimados de componentes de variancia para variables discretas; la posibilidad de disponer de estimados de componentes de covariancia entre caracteres discretos y continuos; la rapidez de ejecución del proceso pero, sobre todo esto, la posibilidad de disponer de la constante y del promedio ajustado para cada nivel de variable incluida en el modelo estadístico. Esto permite detectar los niveles de cada efecto que son favorables en su respuesta para el caracter en estudio y cuales no lo son, así como determinar cuales son los efectos que influyen en mayor magnitud a la explicación de la variable analizada. Por otro lado, los estimados de componentes de variancia y parámetros genéticos son de amplia utilidad en el desarrollo de programas de mejoramiento sostenido de la producción en un rebaño.

Los detalles del proceso matemático han sido presentados en numerosos textos y trabajos de investigación. Pudieran ser resumidos en la siguiente forma:

Modelo lineal y=X.ß + e y Var(e)=Vs 2 en lugar de Is 2

Las ecuaciones mínimo cuadráticas son:

X' V-1 Xß = X' V-1 y

y

ß = (X' V-1 X)- X' V-1 y

donde (X' V-1 X)- es una inversa generalizada.

Sin embargo, si se reparametriza el modelo para escoger un conjunto de funciones estimables deseadas, el modelo operativo será:

y = XLMß + e

donde M define el conjunto de funciones estimables y L es una inversa de M.

Si se reemplaza XL por XR y Mß por B, entonces las ecuaciones mínimo cuadráticas serán:

X'R V-1 XRB = X'R V-1 y

y entonces

B =[ X'R V-1 XR ]-1 X'R V-1 y

MODELOS MIXTOS, MÁXIMA VEROSIMILITUD Y MODELO ANIMAL

Los modelos mixtos son utilizados para describir datos donde algunos efectos son fijos y otros aleatorios, por lo que la descripción involucra dos partes, una que describe los efectos aleatorios y otra los efectos fijos. Por consiguiente, el análisis de un modelo mixto consiste de dos tipos de análisis: el aleatorio y el fijo.

En notación matricial, el modelo mixto para el vector de observaciones y puede describirse, siguiendo las nomenclaturas propuestas por Henderson (1984) de la siguiente manera:

y = Xß + Zu + e, donde

ß es el vector de efectos fijos asociados con los datos en y a través de X .

u es el vector de efectos aleatorios asociados con los datos en y a través de Z, efectos que presentan incompleta repetibilidad en sus expresiones y que debe ser tomada en cuenta en las predicciones.

A partir de esto, se tiene que:

E[y]=Xß

V(u)=G

V(e)=R

E(ue')=0

V(y)=ZGZ' + R

En las aplicaciones de mejoramiento animal, u es un vector de Valores Genéticos con V(u) = G = As 2g , donde A es la matriz de parentescos, s 2g es la variancia genética aditiva y R = Ig2e

Otra forma de presentación de las ecuaciones de modelo mixto es:

X'R-1 X      X' R-1 Z

     ß

X' R-1 y

=

Z'R-1 X      Z' R-1 Z+G-1 

Z' R-1 y

     u

Henderson (1950, 1963 y 1974) demostraron que los estimados obtenidos para las ß son Mejores Estimadores Lineales Insesgados (BLUE) y que las u son Mejores Predictores Lineales Insesgados (BLUP).

La utilización de las Ecuaciones de Modelos Mixtos para predecir Valores Genéticos y para estimación de componentes de variancia y efectos fijos ha ido creciendo con el tiempo. Especialmente desde la incorporación del método conocido como Máxima Verosimilitud Restringida (REML), que maximiza la parte de la función de Verosimilitud asociada con los efectos aleatorios luego de ajustar para los estimados de los efectos fijos.

La función de Verosimilitud a maximizar viene dada por la expresión

L = -0,5[(n-p) log (2pi) + log ½ R ½ + log ½ G ½ + log ½ C ½ + y'Py]

donde C es la matriz de coeficientes para las ecuaciones de modelos mixtos y y'Py es la suma de cuadrados residual.

Los métodos de obtención de estimados de G y R involucraban la obtención de derivadas de L con respecto a las variancias y covariancias en G y R, las cuales no son lineales y requieren de la realización de iteraciones no lineales.

Se sugirió la posibilidad de no tomar derivadas (Smith y Graser, 1986 y Graser et al., 1987) y se desarrolló el método denominado Máxima Verosimilitud Restringida Sin Derivación (DFREML) para la maximización de la función de verosimilitud. El método propuesto consiste en incorporar o substituir en las ecuaciones los valores a estimar hasta que se obtenga el máximo.

Posteriormente, se consideró más facil de visualizar, en vez de la maximización de L , la minimización de -2L = constante + log½ R½ + log½ G½ + log½ C½ + y'Py

Para la evaluación de las partes más complicadas de la función se propuso, inicialmente, la estrategia basada en la eliminación de Gauss. Sin embargo, otras metodologías han sido probadas, con resultados halagadores: el método Simplex de Nelder y Mead (1965); la incorporación de la factorización de Choleski (George y Ng, 1980, 1984 y Chu et al., 1984); el método de Powell (Powell, 1964).

La Universidad de Nebraska, USA (2) ha desarrollado un conjunto de programas para la obtención de estimados de variancia y covariancia para modelos mixtos incluyendo el modelo animal para varios caracteres. La estrategia metodológica utilizada para la solución de las ecuaciones máximoverosímiles, incluye la factorización de Choleski y el método Simplex. Su contribución a la evaluación de datos en el campo de la producción animal y para características binomiales ha sido de primordial importancia.

APLICACIÓN A UN CONJUNTO DE DATOS

Se dispuso de un conjunto de 1177 datos de becerros con información relacionada a sexo, padre, año y mes de nacimiento del becerro, edad de la madre al parto y, como variable dependiente, sobrevivencia a los 18 meses codificada como 0 (no sobrevivencia) y 1 (si sobrevivencia). La distribución de los datos era desigual para las diferentes categorías de cada variable independiente, existiendo dos categorías para sexo, cuatro para año, tres para mes, tres para edad de la madre y nueve para padre del becerro.

Los datos fueron sometidos a análisis aplicando las cuatro metodologías arriba descritas y, a continuación, se presenta un resumen de los resultados obtenidos.

Mediante la evaluación por las tablas de contingencia y la prueba de chi-cuadrado se obtuvieron los resultados que se presentan en el Cuadro 1. Se observa que solo se detecta efecto significativo de Padre sobre la variable sobrevivencia en las evaluaciones separadas de los efectos. Esto quizas constituya la más severa limitación de éste análisis: no es posible estudiar en forma simultánea los efectos de interés.

Cuadro 1. Resultados del análisis por tablas de contingencia

Efecto    

Categoría

Muertos

Vivos

Probabilidad

Sexo del becerro

machos

76

542

P>0,05

hembras  

56

503

Año de nacimiento  

1

22

220

P>0,05

        2       

34

277

3

32

295

4

44

253

Mes de nacimiento  

1

58

403

P>0,05

  2  

46

454

   3  

28

188

Edad de la madre   

1

44

309

P>0,05

  2  

38

320

  3  

50

416

Padre del becerro   

1

16

113

P<0,01

  2  

7

75

  3  

3

53

22

108

7

80

27

130

20

249

18

82

12

155

Por otro lado, los mismos datos fueron evaluados mediante la regresión logística con un modelo que incluyó los efectos de sexo del becerro, padre, año y mes de nacimiento y edad de la madre al parto sobre la característica sobrevivencia. La evaluación fue realizada utilizando el programa BMDPLR del paquete estadístico BMDP (1990), que permite estimar los efectos asociados con cada nivel de cada variable discreta incluida en el modelo. El proceso de cómputo tardó 40 veces más que el proceso por cuadrados mínimos y los resultados más importantes son presentados en los Cuadros 2 y 3. Año de nacimiento y padre del becerro tuvieron influencia significativa.

Los datos fueron sometidos a un análisis de variancia por cuadrados mínimos utilizando el programa desarrollado por Harvey (1964). El modelo estadístico utilizado para evaluar la variable binomial sobrevivencia incluyó los efectos de sexo, padre, año y mes de nacimiento del becerro y el de edad de la madre al parto. En los Cuadros 4 y 5 se presentan los resultados de mayor relevancia obtenidos en el análisis aplicando esta metodología. Año de nacimiento y padre del becerro tuvieron efectos estadísticamente significativos. Si se asume efecto aleatorio de padre, se puede obtener su componente de variancia, el cual fue de .004 y si se considera que este efecto contiene ¼ de la variancia genética aditiva, se podrá obtener un estimado de indice de herencia, que resultó igual a .152 con un error estandar de .084.

Cuadro 2. Resultados del análisis por regresión logística

Paso

Fuentes

g.l.

Chi-cuadrado

Probabilidad

1

Padre

8

24,206

0,002

2

Año nacimiento

3

22,156

0,000

3

Mes nacimiento

2

4,788

  0,091

4

Sexo becerro

1

2,671

0,102

5

Edad madre

2

1,007

0,604

      

Cuadro 3. Constantes obtenidas en el análisis por regresión logística

Efecto y categoría

Coeficiente   

Error Estandar

Prom.

BASE
Año 1,mes 1,edad madre 1,
sexo masculino y padre 1 Superioridad respecto base:

2,1230 

0,349

0,893

hembras 

0,3204

0,193

0,920

año 2 

- 0,4694

0,298

0,839

año 3 

- 1,1470

0,385

0,726

año 4 

- 1,9030

0,407

0,555

mes 2  

0,1605

0,236

0,908

mes 3  

- 0,4260

0,288

0,845

edad madre 2  

- 0,1693

0,278

0,876

edad madre 3  

- 0,2613

0,261

0,866

padre 2  

1,7200

0,597

0,979

padre 3 

1,6880

0,712

0,978

padre 4 

- 0,2070

0,373

0,872

padre 5 

0,0420

0,610

0,985

padre 6 

0,3042

0,394

0,919

padre 7 

1,5020

0,443

0,974

padre 8 

0,7728

0,486

0,948

padre 9

2,0550

0,525

0,985

 

Cuadro 4. Resultados del análisis de variancia por cuadrados mínimos

Fuentes

g.l.

C.M.

F

COMPONENTE

Sexo becerro 

1

0,254

2,64

 

Año nacimiento  

3

0,790

8,20*

 

Mes nacimiento  

2

0,193

2,00

 

Edad madre 

2

0,062

0,64

 

Padre 

8

0,525

5,45*

s 2p=,004  h2=,152± ,084

Residual 

1160

0,096

 

s 2 =,096

* P<0,01

 

Cuadro No 5. Constantes obtenidas en el análisis por cuadrados mínimos

Efecto y categoría   

n

Constante

Error Estandar

Promedio ajustado   

1177

0,889

0,011

Sexo del becerro:

machos 

618

- 0,015

0,009

hembras 

559

0,015

0,009

Año de nacimiento:

1  

242

0,081

0,021

311

0,034

0,018

3  

327

- 0,019

0,018

297

- 0,097

0,021

Mes de nacimiento:

461

0,007

0,015

  2  

500

0,022

0,013

3

216

- 0,029

0,016

Edad de madre al parto:

1  

353

0,016

0,016

358

- 0,004

0,014

466

- 0,013

0,013

Padre del becerro:

1

129

- 0,089

0,032

  2 

82

0,052

0,034

3

56

  0,044

0,039

130

- 0,118

0,029

87

0,098

0,035

6

157

- 0,083

0,025

  7  

269

0,037

0,020

100

- 0,038

0,031

  9  

167

0,096

0,027

Finalmente, los mismos datos fueron evaluados mediante el método de los modelos mixtos utilizando el modelo animal, el que permite incorporar, además de los efectos incluidos en el análisis por cuadrados mínimos, los efectos de madre del animal y al propio animal individual, por lo que se obtendrán predictores de valor genético para padre, madre e individuo. La evaluación fue realizada utilizando el conjunto de programas identificados como MTDFREML desarrollados por la Universidad de Nebraska. El proceso de computo requirió de mucho mayor tiempo que el proceso por cuadrados mínimos, especialmente por la necesidad de obtener estimados de componentes de variancia mediante iteraciones hasta la obtención de valores prácticamente invariantes. Los resultados más importantes son presentados en el Cuadros 6.

Cuadro 6. Resultados del análisis por modelo animal

Efecto y categoría   

Coeficiente

Error estandar

Precisión

BASE:
Año 1,mes 1,edad madre 1,
sexo masculino

0,0372

 

 

Superioridad respecto base:

hembras

0,0321

 

 

año 2

- 0,0371

 

 

año 3

- 0,0533

 

 

año 4

- 0,1237

 

 

mes 2

0,0195

 

 

mes 3

- 0,0300

 

 

mes 3

- 0,0300

 

 

edad madre 2

- 0,0072

 

 

edad madre 3

- 0,0134

 

 

DEPs:

padre 1

- 0,0326

10,032

0,83

padre 2 

0,0239

0,033

0,81

padre 3 

0,0435

0,036

0,78

padre 4  

- 0,0485

0,030

0,85

padre 5 

0,0619

0,034

0,81

padre 6  

- 0,0514

0,029

0,86

padre 7  

0,0440

0,026

0,89

padre 8  

- 0,0216

0,031

0,85

padre 9  

0,0554

0,030

0,85

s 2g= 0,0134 s 2= 0,0877 h2= 0,13

DISCUSIÓN

La evaluación mediante la creación de tablas de contingencia y la realización de pruebas de chi-cuadrado para determinar si existe un comportamiento diferente entre los niveles de una variable presentó severas limitaciones ya que se tuvo que realizar para cada variable por separado y no produjo estimadores de componentes de variancia.

Al comparar la regresión logística con los cuadrados mínimos ponderados, se observó que ambas metodologías de análisis produjeron similares resultados en cuanto a la significación estadística de los efectos. Los cuadrados mínimos produjeron estimados de constantes para cada nivel de cada efecto incluido en el modelo, además del estimado de componente de variancia para padre del becerro y del estimado de índice de herencia para la característica, mientras que la regresión logística produjo, en forma directa, estimados de promedios para un grupo denominado base (sexo masculino, año de nacimiento 1, mes de nacimiento 1, edad de madre al parto 1 y padre de becerro 1) y para los otros niveles de los efectos como desviación del año base.

A objeto de poder realizar una comparación de los resultados obtenidos por las dos metodologías, en el Cuadro 7 se presentan los estimados obtenidos por regresión logística y los estimados por cuadrados mínimos. Las diferencias en los estimados son importantes en algunos casos, con un valor absoluto máximo de diferencia de 0,157 para el año 4, mes 1, edad de madre 1, sexo masculino y padre 1. La metodología de los cuadrados mínimos produjo constantes para todos los niveles de todos los efectos y un estimado de índice de herencia, lo que no fue posible obtener por regresión logística. Por otro lado, los estimados por cuadrados mínimos, en algunos casos, estuvieron por encima del valor máximo teórico de 1,00 mientras que en la regresión logística los estimados están acotados entre los valores 0 y 1,00.

Cuadro 7. Análisis comparativo de promedios para las metodologías regresión logística y cuadrados mínimos ponderados

Efecto y categoría  

PROMEDIOS

 

Regresión logística

Cuadrados mínimos

Difer.

Año 1,mes 1,edad madre 1, sexo masculino y padre 1

0,893 

0,890

0,003

CAMBIO DE NIVEL:

hembras 

0,920

0,920

0,000

año 2

0,839

0,843

- 0,004

año 3

0,726

0,790

- 0,064

año 4  

0,555

0,712

- 0,157

mes 2  

0,908

0,905

0,003

mes 3 

0,845

0,854

- 0,009

edad madre 2 

0,876

0,870

0,006

edad madre 3

0,866

0,861

0,005

padre 2

0,979

1,031

- 0,052

padre 3 

0,978

1,023

- 0,045

padre 4

0,872

0,861

0,011

padre 5 

0,985

1,077

- 0,092

padre 6 

0,919

0,895

0,024

padre 7

0,974

1,016

- 0,042

padre 8

0,948

0,941

0,007

padre 9 

0,985

1,075

- 0,090

Con la regresión logística, el sexo femenino fue superior al masculino, lo que coincide con los resultados del análisis por cuadrados mínimos y el orden de mérito para año de nacimiento, mes de nacimiento, edad de la madre al parto y padre del becerro es exactamente igual en ambos métodos. Esto pudiera ser un indicio que ambas metodologías producen resultados muy similares. Por otro lado, los estimados obtenidos por ambas metodologías son insesgados. El problema surge al momento de establecer las probabilidades de error estadístico en las pruebas de hipótesis, ya que la prueba de F del análisis de variancia requiere el supuesto de normalidad de los datos que, obviamente, no se cumple, por lo que la probabilidad de cometer error estadístico se incrementa. Sin embargo, en estos análisis biológicos se considera de gran importancia la obtención de las constantes de ajuste y los componentes de variancia, ambos aportados por los programas de computación disponibles para la evaluación con la metodología de los cuadrados mínimos pero no aportados por los programas para la aplicación de la regresión logística.

Aunado a la menor cantidad de información aportada por la regresión logística, se tiene el relativamente mayor tiempo de proceso necesario para la obtención de los resultados finales, por lo que pareciera ser recomendable la utilización de la metodología de los cuadrados mínimos, en comparación con la regresión logística, para la evaluación de datos binomiales donde se desea estudiar en forma simultanea la influencia de varios efectos fijos sobre la característica.

En la comparación de la evaluación por cuadrados mínimos ponderados y por modelo animal se observó que ambas metodologías de análisis produjeron similares resultados en cuanto a la tendencia de los efectos. Los cuadrados mínimos produjeron estimados de promedio ajustado, constantes para cada nivel de cada efecto incluido en el modelo, además del estimado de componente de variancia para padre del becerro y del estimado de índice de herencia para la característica, mientras que el modelo animal produjo, en forma directa, estimados para un grupo denominado base (sexo masculino, año de nacimiento 1, mes de nacimiento 1, edad de madre al parto 1) y para los otros niveles de los efectos fijos, como desviación del año base. Por otro lado, también produjo predictores de la Diferencia Esperada entre Progenies (DEP) con su errorestandar y precisión para cada padre evaluado y el índice de herencia estimado a través de los componentes de variancia genético y ambiental obtenidos por el método de máxima verosimilitud restringida sin derivación.

Una comparación de la precisión de los predictores de valor genético obtenidos en las dos metodologías puede ser realizada mediante la evaluación de los errores estandar. Ellos señalan que existen pocas diferencias dentro de padre, por lo que no se puede concluir que una de las dos metodologías aporta estimados con menor error de estimación. Es posible que esto sea consecuencia del bajo número de observaciones y bajo número de padres en evaluación, por lo que se sugiere evaluar estas metodologías con mayor número de observaciones y categorías en los efectos fijos y aleatorios.

Con los cuadrados mínimos, el sexo femenino fue superior al masculino, lo que coincide con los resultados del análisis por modelo animal y el orden de mérito para año de nacimiento, mes de nacimiento y edad de la madre al parto es exactamente igual en ambos métodos, pero para padre del becerro se observó un cambio en el orden de mérito. Esto pudiera ser un indicio que ambas procedimientos de análisis no producen resultados similares. Por otro lado, los estimados obtenidos por ambas metodologías son insesgados. El punto a considerar es el objetivo fundamental de la evaluación. Si se desea obtener constantes de ajuste y análisis de variancia, posiblemente los cuadrados mínimos sean de más utilidad. Si se desea obtener valores genéticos con sus precisiones, tanto para los reproductores en uso como para los futuros, el modelo animal es de mayor utilidad. Además, se hace necesario recordar que en la evaluación por Modelo Animal se toman en cuenta todas las relaciones de parentesco entre los individuos de la base de datos, por lo que los predictores que produce están basados en mayor cantidad de información.

EVALUATION OF METHODS FOR BINOMIAL DATA ANALYSIS IN ANIMAL PRODUCTION

SUMMARY

Contingency tables with chi-squares, logistic regression, weighted least squares and mixed models (animal model) methodologies are described as a tool for binomial data evaluation. Advantages and disadvantages for each one are discussed and a set of data is analysed. It is concluded that in the simultaneous evaluation of several fixed effects on a binomial response, least squares and mixed model methodologies, by means of the computer programs available,produce more amount of practical information and the decisión which one to use will depend on the main objective of the research.

Key words: Binomial data, least squares, logistic regression, mixed models

REVISIÓN BIBLIOGRÁFICA

BMDP Statistical Sofware. 1990. University of California Press. Berkeley, CA.

Boldman, K. G., L. A. Kriese, L. D. Van Vleck, C. P. Van Tassell y S. D. Kachman. 1995. A Manual for Use of MTDFREML. A Set of Programs To Obtain Estimates of Variances and Covariances. U.S. Department of Agriculture, Agricultural Research Service. 114 pp. (DRAFT)

Chu, E., A. George, J. Liu y E. Ng. 1984. SPARSPAK. Waterloo sparse matrix package user's guide for SPARSPAK-A. CS-84-36, Dep. Computer Sci., Univ. Waterloo, Waterloo, ON, Canada.

Gabriel, K. R. 1963. Analysis of variance of proportions with unequal frequencies. J. Amer. Statist. Assoc., 58:1133.

George, A., J. Liu y E. Ng. 1980. User guide for SPARSPAK: Waterloo sparse linear equations package. CS-78-30, Dept. Computer Sci., Univ. Waterloo, ON, Canada.

George, A. y E. Ng. 1984. A new release of SPARSPAK: The Waterloo sparse matrix package. Dept. Computer Sci., Univ. Waterloo, Waterloo, ON, Canada. (Mimeo)

Graser, H. U., S. P. Smith y B. Tier. 1987. A derivative-free approach for estimating variance components in animal models by restricte maximum likelihood. J. Anim. Sci., 64:1362-1370.

Harvey, W. R. 1964. Computer procedures for a generalized least-squares analysis program. Mimeographed paper presented at the Analysis of Variance Workshop, Ft. Collins, Colorado, July, 50 p.

Harvey, W. R. 1970. Estimation of variance and covariance components in the mixed model. Biometrics, 26:485.

Harvey, W. R. 1982. Least-squares analysis of discrete data. J. of Animal Science, 54(5):1062.

Henderson, C. R. 1950. Estimation of genetic parameters. Ann. Math. Stat., 21:309.

Henderson, C. R. 1963. Selection index and expected genetic advance. En: Statistical Genetics in Plant Breeding. NAS-NRC publication 982.

Henderson, C. R. 1974. General flexibility of linear model techniques for sire evaluation. J. Dairy Sci., 57:963.

Henderson, C. R. 1984. Application of linear models in animal breeding. U. Guelph, Guelph, ON, Canada.

Li, J. C. R. 1957. Introduction to statistical inference. Edwards Brothers, Inc. Ann Arbor. MI.

Nelder, J. A. y R. Mead. 1965. A simplex method for funtion minimization. Computer J., 7:308.

Powell, M. J. D. 1964. An efficient method for finding the minimum of a funtion of several variables without calculating derivatives. Computer J., 7:155.

Smith, S. P. y H. U. Graser. 1986. Estimating variance components in a class of mixed models by restricted maximum likelihood. J. Dairy Sci., 69:1156-1165.


^

Zootecnia Tropical Colección > Sumario > Volumen 18 > Artículo