Bienvenido al Instituto de Investigación y Educación Digital Stata Class Notes Contando de n a N Introducción Stata tiene dos variables integradas llamadas n y N. N es la notación Stata para el número de observación actual. N es 1 en la primera observación, 2 en la segunda, 3 en la tercera, y así sucesivamente. N es la notación Stata para el número total de observaciones. Veamos cómo funcionan N y N. Como se puede ver, el ID de la variable contiene el número de observación que va de 1 a 7 y nt es el número total de observaciones, que es 7. Contando con usando n y N junto con el comando by pueden producir algunos resultados muy útiles. Por supuesto, para usar el comando by debemos primero ordenar nuestros datos en la variable by. Ahora n1 es el número de observación dentro de cada grupo y n2 es el número total de observaciones para cada grupo. Para enumerar la puntuación más baja de cada grupo, utilice lo siguiente: Para enumerar la puntuación más alta de cada grupo, utilice lo siguiente: Otro uso de n Utiliza n para averiguar si hay números de identificación duplicados en los siguientes datos: Las observaciones 6 y 7 tienen los mismos números de identificación y valores de puntuación diferentes. Búsqueda de duplicados Ahora utilice N para encontrar observaciones duplicadas. En este ejemplo clasificamos las observaciones por todas las variables. Entonces usamos toda la variable en la sentencia by y ponemos set n igual al número total de observaciones que son idénticas. Finalmente, enumeramos las observaciones para las cuales N es mayor que 1, identificando así las observaciones duplicadas. Si tiene muchas variables en el conjunto de datos, puede tardar mucho tiempo en escribirlas todas dos veces. Podemos hacer uso del comodín para indicar que queremos utilizar todas las variables. Además en las últimas versiones de Stata podemos combinar ordenar y por en una sola declaración. A continuación se muestra una versión simplificada del código que producirá los mismos resultados que anteriormente. El contenido de este sitio web no debe interpretarse como un endoso de ningún sitio web, libro o producto de software en particular por la Universidad de California. Bienvenido al Instituto de Investigación y Educación Digital Regresión con Stata Capítulo 1 - Capítulo de Regresión Simple y Múltiple Esquema 1.0 Introducción 1.1 Un primer análisis de regresión 1.2 Examinar datos 1.3 Regresión lineal simple 1.4 Regresión múltiple 1.5 Transformar variables 1.6 Resumen 1.7 Autoevaluación 1.8 Para más información Este libro consta de cuatro capítulos que cubren una variedad de temas sobre el uso de Stata para la regresión. Debemos enfatizar que este libro trata sobre el análisis de quotdata y que demuestra cómo Stata puede usarse para el análisis de regresión, a diferencia de un libro que cubre la base estadística de la regresión múltiple. Suponemos que ha tenido al menos un curso de estadística que cubre el análisis de regresión y que tiene un libro de regresión que puede usar como referencia (consulte la página Regresión con Stata y nuestra página de Libros de estadísticas para préstamos para obtener libros de análisis de regresión recomendados). Este libro está diseñado para aplicar sus conocimientos de regresión, combinarlo con la instrucción en Stata, para realizar, comprender e interpretar los análisis de regresión. Este primer capítulo cubrirá temas de regresión simple y múltiple, así como las tareas de apoyo que son importantes para preparar el análisis de sus datos, p. La comprobación de datos, familiarizarse con su archivo de datos y examinar la distribución de sus variables. Ilustraremos los fundamentos de la regresión simple y múltiple y demostraremos la importancia de inspeccionar, verificar y verificar sus datos antes de aceptar los resultados de su análisis. En general, esperamos demostrar que los resultados de su análisis de regresión pueden ser engañosos sin una exploración adicional de sus datos, lo que podría revelar relaciones que un análisis casual podría pasar por alto. En este capítulo, y en los capítulos siguientes, usaremos un archivo de datos que fue creado al muestrear aleatoriamente 400 escuelas primarias del conjunto de datos del Departamento de Educación de California, API 2000. Este archivo de datos contiene una medida del desempeño académico de la escuela, así como otros atributos de las escuelas primarias, tales como tamaño de clase, inscripción, pobreza, etc. Puede acceder a este archivo de datos a través de la web desde Stata con el comando Stata use como mostrado a continuación. Nota: no escriba el punto inicial en el comando - el punto es una convención para indicar que la instrucción es un comando Stata. Una vez que haya leído el archivo, probablemente desee almacenar una copia de él en su computadora (por lo que no necesita leerlo en la web cada vez). Digamos que usted está usando Windows y desea almacenar el archivo en una carpeta llamada c: regstata (puede elegir un nombre diferente si lo desea). En primer lugar, puede crear esta carpeta dentro de Stata utilizando el comando mkdir. Entonces podemos cambiar a ese directorio usando el comando cd. Y luego si guarda el archivo se guardará en la carpeta c: regstata. Permite guardar el archivo como elemapi. Ahora el archivo de datos se guarda como c: regstataelemapi. dta y podría salir de Stata y el archivo de datos todavía estaría allí. Cuando desee utilizar el archivo en el futuro, simplemente utilice el comando cd para cambiar al directorio c: regstata (o lo que se le llame) y luego use el archivo elemapi. 1.1 Un primer análisis de regresión Permite realizar un análisis de regresión utilizando las variables api00. Acsk3. Comidas y completo. Estas medidas miden el rendimiento académico de la escuela (api00), el tamaño promedio de la clase en el kindergarten al tercer grado (acsk3), el porcentaje de estudiantes que reciben comidas gratis (que es un indicador de pobreza) y el porcentaje de maestros que tienen Credenciales de enseñanza completa (completa). Esperamos que un mejor rendimiento académico se asocie con un menor número de alumnos por clase, menos estudiantes recibiendo comidas gratis y un mayor porcentaje de maestros con credenciales de enseñanza completas. A continuación, mostramos el comando Stata para probar este modelo de regresión seguido del resultado de Stata. Vamos a enfocarnos en los tres predictores, si son estadísticamente significativos y, si es así, la dirección de la relación. El tamaño promedio de la clase (acsk3.b-2.68), no es estadísticamente significativo en el nivel 0.05 (p0.055), pero sólo así. El coeficiente es negativo, lo que indicaría que el mayor tamaño de la clase está relacionado con un menor rendimiento académico, lo cual es lo que cabría esperar. A continuación, el efecto de las comidas (b-3,70, pág. 000) es significativo y su coeficiente es negativo indicando que cuanto mayor es la proporción de estudiantes que reciben comidas gratuitas, menor es el rendimiento académico. Tenga en cuenta que no estamos diciendo que las comidas gratis están causando un menor rendimiento académico. La variable comidas está altamente relacionada con el nivel de ingresos y funciona más como un indicador de la pobreza. Por lo tanto, niveles más altos de pobreza están asociados con un menor rendimiento académico. Este resultado también tiene sentido. Finalmente, el porcentaje de maestros con credenciales completas (full b0.11, p.232) parece no estar relacionado con el desempeño académico. Esto parecería indicar que el porcentaje de maestros con credenciales completas no es un factor importante en la predicción del rendimiento académico - este resultado fue algo inesperado. De estos resultados, podríamos concluir que el menor tamaño de las clases está relacionado con un mayor rendimiento, que un menor número de estudiantes que reciben comidas gratis está asociado con un mayor rendimiento y que el porcentaje de maestros con credenciales completas fue No relacionado con el rendimiento académico en las escuelas. Antes de escribir esto para la publicación, debemos hacer una serie de controles para asegurarnos de que podemos apoyar firmemente estos resultados. Comenzamos familiarizándonos con el archivo de datos, realizando la comprobación preliminar de datos, buscando errores en los datos. 1.2 Examinar datos En primer lugar, utilice el comando describe para obtener más información sobre este archivo de datos. Podemos verificar cuántas observaciones tiene y ver los nombres de las variables que contiene. Para hacer esto, simplemente escribimos No entraremos en todos los detalles de esta salida. Observe que hay 400 observaciones y 21 variables. Tenemos variables sobre el rendimiento académico en 2000 y 1999 y el cambio en el rendimiento, api00. Api99 y crecimiento respectivamente. También tenemos varias características de las escuelas, p. El tamaño de la clase, la educación de los padres, el porcentaje de maestros con credenciales completas y de emergencia, y el número de estudiantes. Tenga en cuenta que cuando hicimos nuestro análisis de regresión original, dijo que había 313 observaciones, pero el comando describe indica que tenemos 400 observaciones en el archivo de datos. Si desea obtener más información sobre el archivo de datos, puede enumerar todas o algunas de las observaciones. Por ejemplo, a continuación se enumeran las primeras cinco observaciones. Esto ocupa mucho espacio en la página, pero no nos da mucha información. Listar nuestros datos puede ser muy útil, pero es más útil si se enumeran sólo las variables que le interesan. Permite enumerar las primeras 10 observaciones para las variables que examinamos en nuestro primer análisis de regresión. Vemos que entre las primeras 10 observaciones, tenemos cuatro valores faltantes para las comidas. Es probable que los datos que faltan para las comidas tuvieran algo que ver con el hecho de que el número de observaciones en nuestro primer análisis de regresión fue 313 y no 400. Otra herramienta útil para aprender acerca de sus variables es el comando codebook. Vamos a hacer codebook para las variables que incluimos en el análisis de regresión, así como la variable yrrnd. Hemos intercalado algunos comentarios sobre este resultado entre corchetes y en negrita. El comando codebook ha descubierto una serie de peculiaridades dignas de un examen más profundo. Utilice el comando summary para aprender más sobre estas variables. Como se muestra a continuación, el comando de resumen también revela el gran número de valores faltantes para comidas (400 - 315 85) y vemos el mínimo inusual para acsk3 de -21. Permite obtener un resumen más detallado para acsk3. En Stata, la coma después de la lista de variables indica que las opciones siguen, en este caso, la opción es el detalle. Como puede ver a continuación, la opción de detalle le da los percentiles, los cuatro valores más grandes y más pequeños, las medidas de tendencia central y la varianza, etc Tenga en cuenta que resumen. Y otros comandos, puede ser abreviado: podríamos haber escrito sum acsk3, d. Parece como si algunos de los tamaños de clase de alguna manera se volvió negativo, como si un signo negativo se escribió incorrectamente delante de ellos. Vamos a hacer un tabulado de tamaño de clase para ver si esto parece plausible. De hecho, parece que algunos de los tamaños de las clases de alguna manera tienen signos negativos puestos delante de ellos. Veamos el número de la escuela y el distrito para estas observaciones para ver si provienen del mismo distrito. De hecho, todas provienen del distrito 140. Veamos todas las observaciones para el distrito 140. Todas las observaciones del distrito 140 parecen tener este problema. Cuando encuentre tal problema, desee volver al origen original de los datos para verificar los valores. Tenemos que revelar que fabricamos este error con fines ilustrativos, y que los datos reales no tenían tal problema. Vamos a fingir que comprobamos con el distrito 140 y hubo un problema con los datos allí, un guión fue puesto accidentalmente delante de los tamaños de la clase haciéndolos negativos. Vamos a hacer una nota para corregir esto Vamos a continuar la comprobación de nuestros datos. Echemos un vistazo a algunos métodos gráficos para inspeccionar los datos. Para cada variable, es útil inspeccionarlas utilizando un diagrama de histograma, diagrama de bloques y diagrama de tallo y hoja. Estos gráficos pueden mostrarle información sobre la forma de sus variables mejor que las estadísticas numéricas simples. Ya sabemos sobre el problema con acsk3. Pero permite ver cómo estos métodos gráficos habría revelado el problema con esta variable. En primer lugar, mostramos un histograma para acsk3. Esto nos muestra las observaciones donde el tamaño promedio de la clase es negativo. Del mismo modo, un boxplot habría llamado estas observaciones a nuestra atención también. Puede ver la forma de observaciones negativas periféricas en la parte inferior de la caja. Finalmente, un diagrama de tallo y hoja también habría ayudado a identificar estas observaciones. Esta gráfica muestra los valores exactos de las observaciones, indicando que había tres -21s, dos -20s, y uno -19. Recomendamos trazar todos estos gráficos para las variables que analizaremos. Omitiremos, debido a consideraciones de espacio, mostrando estos gráficos para todas las variables. Sin embargo, al examinar las variables, el diagrama de tallo y hoja para llenar parecía bastante inusual. Hasta ahora, no hemos visto nada problemático con esta variable, pero mira el diagrama del tallo y de la hoja para lleno abajo. Muestra 104 observaciones donde el porcentaje con una credencial completa es menos de uno. Esto es más de 25 de las escuelas, y parece muy inusual. Echemos un vistazo a la distribución de frecuencia completa para ver si podemos entender esto mejor. Los valores van de 0,42 a 1,0, luego saltar a 37 y subir desde allí. Parece que algunos de los porcentajes se introducen realmente como proporciones, p. 0.42 se introdujo en lugar de 42 o 0.96 que realmente debería haber sido 96. Veamos de qué distrito (s) estos datos provienen. Observamos que todas las 104 observaciones en las que el total era menor o igual a uno vinieron del distrito 401. Vamos a contar cuántas observaciones hay en el distrito 401 usando el comando count y vemos que el distrito 401 tiene 104 observaciones. Todas las observaciones de este distrito parecen ser registradas como proporciones en lugar de porcentajes. Una vez más, señalemos que este es un problema de fingimiento que insertamos en los datos para fines ilustrativos. Si esto fuera un problema de la vida real, verificaríamos con la fuente de los datos y verificaríamos el problema. Haremos una nota para corregir este problema en los datos también. Otra técnica gráfica útil para cribar sus datos es una matriz de dispersión gráfica. Si bien esto es probablemente más relevante como una herramienta de diagnóstico buscando no linealidades y valores atípicos en sus datos, también puede ser una útil herramienta de cribado de datos, posiblemente revelando información en la distribución conjunta de sus variables que no sería evidente al examinar las distribuciones univariadas . Veamos la matriz del diagrama de dispersión para las variables en nuestro modelo de regresión. Esto revela los problemas que ya hemos identificado, es decir, los tamaños de clase negativos y el porcentaje de credenciales completas que se introducen como proporciones. Hemos identificado tres problemas en nuestros datos. Existen numerosos valores faltantes para las comidas. Hubo negativos insertados accidentalmente antes de algunos de los tamaños de clase (acsk3) y más de una cuarta parte de los valores de full fueron proporciones en lugar de porcentajes. La versión corregida de los datos se llama elemapi2. Vamos a utilizar ese archivo de datos y repetir nuestro análisis y ver si los resultados son los mismos que nuestro análisis original. En primer lugar, vamos a repetir nuestro análisis de regresión original a continuación. Ahora, vamos a usar el archivo de datos corregido y repetir el análisis de regresión. En el análisis original (arriba), acsk3 fue casi significativo, pero en el análisis corregido (a continuación) los resultados muestran que esta variable no es significativa, tal vez debido a los casos en que el tamaño de la clase fue dado un valor negativo. Del mismo modo, el porcentaje de maestros con credenciales completas no fue significativo en el análisis original, pero es significativo en el análisis corregido, quizás debido a los casos en que el valor fue dado como la proporción con credenciales completas en lugar del porcentaje. Además, tenga en cuenta que el análisis corregido se basa en 398 observaciones en lugar de 313 observaciones, debido a la obtención de los datos completos de la variable comidas que tenía muchos valores faltantes. A partir de este punto, utilizaremos el corregido, elemapi2. archivo de datos. Es posible que desee guardar esto en su computadora para que pueda usarlo en futuros análisis. Hasta ahora hemos cubierto algunos temas en la verificación / verificación de datos, pero en realidad no hemos hablado del análisis de regresión. Permite ahora hablar más sobre la realización de análisis de regresión en Stata. 1.3 Regresión lineal simple Comencemos mostrando algunos ejemplos de regresión lineal simple usando Stata. En este tipo de regresión, sólo tenemos una variable predictora. Esta variable puede ser continua, lo que significa que puede asumir todos los valores dentro de un rango, por ejemplo, edad o altura, o puede ser dicotómica, lo que significa que la variable puede asumir sólo uno de dos valores, por ejemplo, 0 o 1. El uso de variables categóricas con más de dos niveles se tratará en el Capítulo 3. Sólo hay una respuesta o variable dependiente, y es continua. En Stata, la variable dependiente aparece inmediatamente después del comando regress seguido de una o más variables predictoras. Examinemos la relación entre el tamaño de la escuela y el rendimiento académico para ver si el tamaño de la escuela está relacionado con el rendimiento académico. Para este ejemplo, api00 es la variable dependiente y register es el predictor. Permite revisar esta salida un poco más cuidadosamente. En primer lugar, vemos que la prueba F es estadísticamente significativa, lo que significa que el modelo es estadísticamente significativo. El R-cuadrado de .1012 significa que aproximadamente 10 de la varianza de api00 se explica por el modelo, en este caso, inscribirse. La prueba t para la inscripción es igual a -6,70, y es estadísticamente significativa, lo que significa que el coeficiente de regresión para inscribirse es significativamente diferente de cero. Tenga en cuenta que (-6,70) 2 44,89, que es el mismo que el estadístico F (con algunos errores de redondeo). El coeficiente de inscripción es de -1998674, o aproximadamente-2, lo que significa que para un aumento de una unidad en inscribirse. Esperamos una disminución de .2 unidad en api00. En otras palabras, se espera que una escuela con 1100 estudiantes tenga una puntuación api 20 unidades más baja que una escuela con 1000 estudiantes. La constante es 744.2514, y este es el valor predicho cuando matrícula es igual a cero. En la mayoría de los casos, la constante no es muy interesante. Hemos preparado una salida anotada que muestra la salida de esta regresión junto con una explicación de cada uno de los elementos en ella. Además de obtener la tabla de regresión, puede ser útil ver un diagrama de dispersión de las variables predichas y de resultado con la línea de regresión trazada. Después de ejecutar una regresión, puede crear una variable que contenga los valores predichos utilizando el comando predict. Puede obtener estos valores en cualquier momento después de ejecutar un comando de regresión, pero recuerde que una vez que ejecute una nueva regresión, los valores previstos se basarán en la regresión más reciente. Para crear valores predichos simplemente escribe predicción y el nombre de una nueva variable Stata te dará los valores ajustados. Para este ejemplo, nuestro nuevo nombre de variable será fv. Así que vamos a escribir Si usamos el comando list, vemos que se ha generado un valor ajustado para cada observación. A continuación podemos mostrar un diagrama de dispersión de la variable de resultado, api00 y el predictor, inscribirse. Podemos combinar la dispersión con lfit para mostrar un diagrama de dispersión con valores ajustados. Como puede ver, algunos de los puntos parecen ser valores atípicos. Si utiliza la opción mlabel (snum) en el comando scatter, puede ver el número de la escuela para cada punto. Esto nos permite ver, por ejemplo, que uno de los valores extremos es la escuela 2910. Como vimos anteriormente, el comando predict puede usarse para generar valores predichos (ajustados) después de ejecutar el regreso. También puede obtener residuos mediante el comando predict seguido de un nombre de variable, en este caso e. Con la opción residual. Este comando se puede acortar para predecir e, residir o incluso predecir e, r. La siguiente tabla muestra que algunos de los otros valores pueden ser creados con la opción predict. 1.4 Regresión múltiple Ahora, veamos un ejemplo de regresión múltiple, en el que tenemos una variable de resultado (dependiente) y múltiples predictores. Antes de comenzar con nuestro próximo ejemplo, necesitamos tomar una decisión con respecto a las variables que hemos creado, porque estaremos creando variables similares con nuestra regresión múltiple, y no queremos que las variables se confundan. Por ejemplo, en la regresión simple creamos una variable fv para nuestros valores predichos (ajustados) y e para los residuos. Si queremos crear valores predichos para nuestro próximo ejemplo podríamos llamar al valor predicho algo más, p. Fvmr. Pero esto podría empezar a ser confuso. Podríamos eliminar las variables que hemos creado, usando drop fv e. En su lugar, permite borrar los datos en la memoria y utilizar el archivo de datos elemapi2 de nuevo. Cuando iniciemos nuevos ejemplos en capítulos futuros, borraremos el archivo de datos existente y volveremos a usar el archivo para empezar de nuevo. Para este ejemplo de regresión múltiple, vamos a regresar la variable dependiente, api00. En todas las variables predictoras en el conjunto de datos. Examinemos la salida de este análisis de regresión. Al igual que con la regresión simple, buscamos el valor p de la prueba F para ver si el modelo general es significativo. Con un valor p de cero a cuatro decimales, el modelo es estadísticamente significativo. El R-cuadrado es 0.8446, lo que significa que aproximadamente 84 de la variabilidad de api00 se explica por las variables en el modelo. En este caso, el R-cuadrado ajustado indica que aproximadamente 84 de la variabilidad de api00 se explica por el modelo, incluso después de tener en cuenta el número de variables predictoras en el modelo. Los coeficientes para cada una de las variables indican la cantidad de cambio que se podría esperar en api00 dado un cambio de una unidad en el valor de esa variable, dado que todas las otras variables en el modelo se mantienen constantes. Por ejemplo, considere la variable ell. Se esperaría una disminución de 0,86 en la puntuación api00 para cada aumento de unidad en ell. Suponiendo que todas las demás variables del modelo se mantienen constantes. La interpretación de gran parte de la salida de la regresión múltiple es la misma que para la regresión simple. Hemos preparado una salida anotada que explica más a fondo el resultado de este análisis de regresión múltiple. Usted puede preguntarse lo que realmente significa un cambio de 0.86 en ell, y cómo podría comparar la fuerza de ese coeficiente con el coeficiente de otra variable, digamos las comidas. Para solucionar este problema, podemos agregar una opción al comando regress llamado beta. Que nos dará los coeficientes de regresión estandarizados. Los coeficientes beta son utilizados por algunos investigadores para comparar la fuerza relativa de los diferentes predictores dentro del modelo. Debido a que los coeficientes beta son todos medidos en desviaciones estándar, en lugar de las unidades de las variables, se pueden comparar entre sí. En otras palabras, los coeficientes beta son los coeficientes que se obtendrían si las variables de resultado y predictor eran todas las puntuaciones estándar transformadas, también llamadas puntuaciones z, antes de ejecutar la regresión. Debido a que los coeficientes de la columna Beta están todos en las mismas unidades estandarizadas, puede comparar estos coeficientes para evaluar la fuerza relativa de cada uno de los predictores. En este ejemplo, las comidas tienen el mayor coeficiente Beta, -0.66 (en valor absoluto), y acsk3 tiene el Beta más pequeño, 0.013. Por lo tanto, un aumento de una desviación estándar en las comidas conduce a una disminución de la desviación estándar de 0.66 en api00 predicho. Con las otras variables mantenidas constantes. Y, un aumento de una desviación estándar en acsk3. A su vez, conduce a un incremento de la desviación estándar de 0,013 en api00 predicho con las otras variables del modelo mantenidas constantes. Al interpretar este resultado, recuerde que la diferencia entre los números enumerados en el Coef. Columna y la columna Beta está en las unidades de medida. Por ejemplo, para describir el coeficiente bruto para ell, diría que una disminución de una unidad en ell produciría un incremento de 0,86 unidades en la predicción api00. Sin embargo, para el coeficiente estandarizado (Beta) diría, La disminución de la desviación en ell produciría un aumento de la desviación estándar de .15 en el api00 predicho. quot El comando listcoef da una salida más extensa con respecto a los coeficientes estandarizados. No es parte de Stata, pero se puede descargar a través de Internet como este. Y luego siga las instrucciones (consulte también ¿Cómo puedo usar el comando findit para buscar programas y obtener ayuda adicional para obtener más información sobre el uso de findit). Ahora que hemos descargado listcoef. Podemos correrlo así. Comparemos la salida de regresión con la salida listcoef. Notará que los valores enumerados en el Coef. T, y los valores de Pgtt son los mismos en las dos salidas. Los valores enumerados en la columna Beta de la salida de regresión son los mismos que los valores de la columna bStadXY de listcoef. La columna bStdX da el cambio de unidad en Y esperado con un cambio de desviación estándar en X. La columna bStdY da el cambio de desviación estándar en Y esperado con un cambio de unidad en X. La columna SDofX da la desviación estándar de cada variable predictora en el modelo. Por ejemplo, el bStdX para ell es -21.3, lo que significa que un aumento de una desviación estándar en ell conduciría a una disminución esperada de 21.3 unidades en api00. El valor de bStdY para ell de -0.0060 significa que para un aumento de una unidad, un por ciento, en los aprendices de inglés, se esperaría una disminución de la desviación estándar de 0,006 en api00. Debido a que los valores de bStdX están en unidades estándar para las variables predictoras, puede utilizar estos coeficientes para comparar la fuerza relativa de los predictores como si se compararan los coeficientes Beta. La diferencia es que los coeficientes de BStdX se interpretan como cambios en las unidades de la variable de resultado en lugar de en unidades estandarizadas de la variable de resultado. Por ejemplo, el BStdX para comidas versus ell es -94 frente a -21, o aproximadamente 4 veces más grande, la misma proporción que la relación de los coeficientes Beta. Hemos creado una salida anotada que explica más a fondo la salida de listcoef. Hasta ahora, nos hemos ocupado de probar una sola variable a la vez, por ejemplo mirando el coeficiente para ell y determinando si eso es significativo. También podemos probar conjuntos de variables, usando el comando test, para ver si el conjunto de variables es significativo. En primer lugar, vamos a empezar por probar una sola variable, ell. Utilizando el comando de prueba. Si se compara esta salida con la salida de la última regresión, se puede ver que el resultado de la prueba F, 16.67, es el mismo que el cuadrado del resultado de la prueba t en la regresión (-4.0832 16.67). Tenga en cuenta que podría obtener los mismos resultados si escribió lo siguiente ya que Stata prefiere comparar los términos enumerados a 0. Quizás una prueba más interesante sería ver si la contribución del tamaño de la clase es significativa. Dado que la información relativa al tamaño de la clase está contenida en dos variables, acsk3 y acs46. Incluimos ambos con el comando de prueba. La prueba F significativa, 3,95, significa que la contribución colectiva de estas dos variables es significativa. Una manera de pensar en esto es que hay una diferencia significativa entre un modelo con acsk3 y acs46 en comparación con un modelo sin ellos, es decir, hay una diferencia significativa entre el modelo quotfullquot y los modelos quotreducedquot. Finalmente, como parte de un análisis de regresión múltiple, podría estar interesado en ver las correlaciones entre las variables en el modelo de regresión. Puede hacer esto con el comando correlate como se muestra a continuación. Si observamos las correlaciones con api00. Vemos comidas y ell tienen las dos correlaciones más fuertes con api00. Estas correlaciones son negativas, lo que significa que a medida que el valor de una variable disminuye, el valor de la otra variable tiende a subir. Sabiendo que estas variables están fuertemente asociadas con api00. Podríamos predecir que serían variables predictoras estadísticamente significativas en el modelo de regresión. También podemos usar el comando pwcorr para hacer correlaciones pairwise. La diferencia más importante entre correlate y pwcorr es la forma en que se manejan los datos perdidos. Con correlato. Una observación o caso se descarta si alguna variable tiene un valor faltante, en otras palabras, correlaciona los usos en la lista. También llamado casewise, supresión. Pwcorr utiliza deleción por pares, lo que significa que la observación se deja caer sólo si hay un valor faltante para el par de variables que se correlacionan. Dos opciones que puede utilizar con pwcorr. Pero no con correlato. Son la opción sig, que dará los niveles de significación para las correlaciones y la opción obs, que dará el número de observaciones utilizadas en la correlación. Esta opción no es necesaria con corr como Stata lista el número de observaciones en la parte superior de la salida. 1.5 Transformando Variables Anteriormente nos enfocamos en analizar sus datos en busca de errores potenciales. En el próximo capítulo, nos centraremos en los diagnósticos de regresión para verificar si sus datos cumplen con los supuestos de regresión lineal. Aquí, nos centraremos en el tema de la normalidad. Algunos investigadores creen que la regresión lineal requiere que las variables de resultado (dependiente) y predictor se distribuyan normalmente. Necesitamos aclarar esta cuestión. En realidad, son los residuos los que necesitan ser distribuidos normalmente. De hecho, los residuos deben ser normales sólo para que las pruebas t sean válidas. La estimación de los coeficientes de regresión no requiere residuos normalmente distribuidos. Como estamos interesados en tener pruebas t válidas, vamos a investigar cuestiones relativas a la normalidad. Una causa común de residuos no normalmente distribuidos es el resultado no-distribuido normalmente y / o las variables predictoras. Por lo tanto, vamos a explorar la distribución de nuestras variables y cómo podemos transformarlos a una forma más normal. Comencemos haciendo un histograma de la variable inscribirse. Que vimos antes en la regresión simple. Podemos usar la opción normal para superponer una curva normal en este gráfico y la opción bin (20) para usar 20 contenedores. La distribución parece sesgada a la derecha. También puede modificar las etiquetas de los ejes. Por ejemplo, usamos la opción xlabel () para etiquetar el eje x debajo, marcándolo de 0 a 1600 incrementando por 100. Los histogramas son sensibles al número de contenedores o columnas que se utilizan en la pantalla. Una alternativa a los histogramas es el diagrama de densidad del núcleo, que se aproxima a la densidad de probabilidad de la variable. Las parcelas de densidad de grano tienen la ventaja de ser lisas y de ser independientes de la elección de origen, a diferencia de los histogramas. Stata implementa gráficos de densidad de kernel con el comando kdensity. No es sorprendente que la gráfica de kdensidad también indique que la variable matriculada no parece normal. Ahora vamos a hacer un boxplot para inscribirse. Utilizando el comando de cuadro de gráfico. Observe los puntos en la parte superior de la caja que indican posibles valores atípicos, es decir, estos puntos de datos son más de 1,5 (rango intercuartílico) por encima del percentil 75. Este boxplot también confirma que la inscripción está sesgada a la derecha. Hay otros tres tipos de gráficos que se utilizan a menudo para examinar la distribución de las variables gráficos de simetría, parcelas de cuantil normales y parcelas de probabilidad normal. Un diagrama de simetría representa la distancia por encima de la mediana para el valor de i-ésimo frente a la distancia por debajo de la mediana para el i-ésimo valor. Una variable que es simétrica tendría puntos que se encuentran en la línea diagonal. Como es de esperar, esta distribución no es simétrica. Un gráfico cuantil normal representa los quantiles de una variable frente a los cuantiles de una distribución normal (Gaussiana). Qnorm es sensible a la no-normalidad cerca de las colas, y de hecho vemos desviaciones considerables de la normal, la línea diagonal, en las colas. Esta gráfica es típica de variables que están fuertemente sesgadas a la derecha. Finalmente, el gráfico de probabilidad normal también es útil para examinar la distribución de variables. Pnorm es sensible a las desviaciones de la normalidad más cercanas al centro de la distribución. Una vez más, vemos indicios de no-normalidad en matricularse. En primer lugar, podemos intentar introducir la variable tal como está en la regresión, pero si vemos problemas, lo que probablemente haría, entonces podemos tratar de transformar matricular para hacer Más normalmente distribuido. Las transformaciones potenciales incluyen tomar el registro, la raíz cuadrada o elevar la variable a una potencia. Seleccionar la transformación apropiada es algo de un arte. Stata incluye los comandos de escalera y gladder para ayudar en el proceso. Ladder informa de los resultados numéricos y gladder produce una visualización gráfica. Comencemos con la escalera y busquemos la transformación con el chi cuadrado más pequeño. La transformada logarítmica tiene el chi cuadrado más pequeño. Permite verificar estos resultados gráficamente usando gladder. Esto también indica que la transformación del registro podría ayudar a hacer que la matrícula se distribuya más normalmente. Permite utilizar el comando generate con la función de registro para crear la variable lenroll que será el registro de enroll. Tenga en cuenta que el registro Stata le dará el registro natural, no base de registro 10. Para obtener la base de registro 10, escriba log10 (var). Ahora vamos a graficar nuestra nueva variable y ver si la hemos normalizado. Podemos ver que lenroll parece bastante normal. Entonces usaríamos el symplot. qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. Stata 14 NEW Stata 14 is a complete, integrated statistical package that provides everything you need for data analysis, data management, and graphics. Stata no se vende en módulos, lo que significa que obtendrá todo lo que necesita en un solo paquete. OxMetrics OxMetrics ofrece una solución integrada para el análisis econométrico de series de tiempo, pronóstico, modelado econométrico financiero o análisis estadístico de datos de corte transversal y panel. EViews NEW EViews 9 ofrece a investigadores académicos, corporaciones, agencias gubernamentales y estudiantes acceso a potentes herramientas estadísticas, de pronóstico y de modelado a través de una interfaz orientada a objetos innovadora y fácil de usar. Forecast Pro Forecast Pro es un software de pronóstico rápido, fácil y preciso para profesionales de negocios. GAUSS GAUSS es una suite rápida, potente y altamente adaptable de software analítico y herramientas. NVivo NVivo es un software que soporta la investigación de métodos cualitativos y mixtos. Le permite recopilar, organizar y analizar contenido. Análisis de tratamiento-efecto / IRT (Teoría de Respuesta de Elementos) Análisis / Soporte para Unicode / Stata en nuevos idiomas / Nuevos comandos de series de tiempo / Stata 14 (abril de 2015) Y mucho más Contrato de licencia de usuario final Stata 14 es un paquete estadístico completo e integrado que proporciona todo lo necesario para el análisis de datos, la gestión de datos y los gráficos. Stata no se vende en módulos, lo que significa que obtendrá todo lo que necesita en un solo paquete. Y, usted puede elegir una licencia perpetua, con nada más para comprar nunca. Las licencias anuales también están disponibles. Todos los siguientes sabores de Stata tienen el mismo conjunto completo de comandos y características y manuales incluidos como documentación en PDF dentro de Stata. Stata / MP: La versión más rápida de Stata Stata / SE: Stata para grandes conjuntos de datos Stata / IC: Stata para conjuntos de datos de tamaño moderado Small Stata: Una versión de Stata que maneja pequeños conjuntos de datos Sólo para compras educativas). Comparación de características Stata / MP es la versión más rápida y más grande de Stata. La mayoría de las computadoras compradas desde mediados de 2006 pueden aprovechar el multiprocesamiento avanzado de Stata / MP. Esto incluye los chips Intel Coretrade 2 Duo, i3, i5, i7 y AMD X2 de doble núcleo. En los chips de doble núcleo, Stata / MP se ejecuta 40 más rápido en general y 72 más rápido donde importa - en los comandos de estimación de tiempo. Con más de dos núcleos o procesadores, Stata / MP es aún más rápido. Stata / MP es una versión de Stata / SE que se ejecuta en multiprocesador y computadoras multicore. Stata / MP proporciona el soporte más extenso para computadoras multiprocesador y computadoras multicore de cualquier paquete de estadísticas y gestión de datos. Lo emocionante de Stata / MP, y la única diferencia entre Stata / MP y Stata / SE, es que Stata / MP corre más rápido. Stata / MP le permite analizar los datos de media a dos tercios del tiempo comparado con Stata / SE en computadoras de bajo coste y computadoras portátiles de doble núcleo y en una cuarta parte a la mitad en computadoras de escritorio de cuatro núcleos. Stata / MP se ejecuta incluso más rápido en los servidores multiprocesador. Stata / MP admite hasta 64 procesadores / núcleos. En un mundo perfecto, el software funcionaría dos veces más rápido en dos núcleos, cuatro veces más rápido en cuatro núcleos, ocho veces más rápido en ocho núcleos, y así sucesivamente. En todos los comandos, Stata / MP se ejecuta 1,6 veces más rápido en dos núcleos, 2,1 veces más rápido en cuatro núcleos y 2,7 veces más rápido en ocho núcleos. Estos valores son medianas mejoras de velocidad. La mitad de los comandos se ejecutan aún más rápido. En el otro lado de la distribución, algunos comandos no se ejecutan más rápido, a menudo porque son inherentemente secuenciales, como los comandos de series temporales. Stata trabajó duro para asegurarse de que las ganancias de rendimiento para los comandos que tardan más en ejecutarse sería mayor. En todos los comandos de estimación, Stata / MP se ejecuta 1,8 veces más rápido en equipos de doble núcleo, 2,8 veces más rápido en equipos de cuatro núcleos y 4,1 veces más rápido en computadoras con ocho núcleos. Stata / MP es compatible con 100 otras versiones de con Stata. Los análisis no tienen que ser reformulados o modificados de ninguna manera para obtener mejoras en la velocidad de Stata / MPs. Windows (procesadores de 32 y 64 bits) Mac OS X (procesadores Intel de 64 bits) Linux (procesadores de 32 y 64 bits) Solaris (64 bits SPARC y x86- 64). Para ejecutar Stata / MP, puede utilizar una computadora de escritorio con un procesador de doble núcleo o de cuatro núcleos, o puede utilizar un servidor con varios procesadores. Si una computadora tiene procesadores separados o un procesador con varios núcleos no hace ninguna diferencia. Más procesadores o núcleos hacen que Stata / MP funcione más rápido. Para obtener más consejos sobre la compra / actualización a Stata / MP o para consultas de hardware, póngase en contacto con nuestro equipo de ventas. Stata SE realiza de la misma manera que Stata / MP, permitiendo el mismo número de variables y observaciones y la única diferencia es que no está diseñado para el procesamiento paralelo. Además, Stata / SE, Stata / IC y Small Stata sólo difieren en el tamaño del conjunto de datos que cada uno puede analizar Stata / SE y Stata / MP pueden encajar modelos con más variables independientes que Stata / IC (hasta 10,998). Stata / IC permite conjuntos de datos con un máximo de 2.047 variables. El número máximo de observaciones es de 2,14 mil millones. Stata / IC puede tener como máximo 798 variables del lado derecho en un modelo. Small Stata se limita a analizar conjuntos de datos con un máximo de 99 variables y 1.200 observaciones. Los Stata pequeños pueden tener como máximo 99 variables del lado derecho en un modelo. Comparación de características El número máximo de observaciones está limitado sólo por la cantidad de RAM disponible en su sistema. Si usted es un estudiante o un profesional experimentado de la investigación, una gama de paquetes de Stata está disponible y diseñado para satisfacer todas las necesidades. Stata / MP: La versión más rápida de Stata (para computadoras de doble y multiprocesador / multicore) Stata / SE: Stata para grandes conjuntos de datos Stata / IC: Stata para conjuntos de datos de tamaño moderado Small Stata: Una versión de Stata que maneja pequeños conjuntos de datos (sólo para compras educativas) Lo que Stata es adecuado para mí El resumen anterior muestra los paquetes de Stata disponibles. Stata / MP es la versión más rápida y más grande de Stata. La mayoría de las computadoras adquiridas después de mediados de 2006 pueden aprovechar las avanzadas capacidades de multiprocesamiento de Stata / MP. Stata / MP, Stata / SE y Stata / IC funcionan en cualquier máquina, pero Stata / MP se ejecuta más rápido. Usted puede comprar una licencia de Stata / MP para hasta el número de núcleos en su máquina (la mayoría es 64). Por ejemplo, si su máquina tiene ocho núcleos, puede comprar una licencia Stata / MP para ocho núcleos (Stata / MP8), cuatro núcleos (Stata / MP4) o dos núcleos (Stata / MP2). Stata / MP también puede analizar más datos que cualquier otro sabor de Stata. Stata / MP puede analizar de 10 a 20 mil millones de observaciones con las computadoras más grandes actuales, y está listo para analizar hasta 281 trillones de observaciones una vez que el hardware de la computadora se acerque. Stata / SE, Stata / IC y Small Stata sólo difieren en el tamaño del conjunto de datos que cada uno puede analizar. Stata / SE y Stata / MP pueden encajar modelos con más variables independientes que Stata / IC (hasta 10,998). Stata / SE puede analizar hasta 2 mil millones de observaciones. Stata / IC permite conjuntos de datos con 2.047 variables y 2.000 millones de observaciones. Stata / IC puede tener como máximo 798 variables del lado derecho en un modelo. Small Stata se limita a analizar conjuntos de datos con un máximo de 99 variables y 1.200 observaciones. Los Stata pequeños pueden tener como máximo 98 variables del lado derecho en un modelo. Nota: El número de variables y observaciones permitidas por Small Stata incluye las variables adicionales u observaciones generadas durante los cálculos estadísticos. Nuevas características en Stata 14 Stata 14 tiene 102 nuevas características y es una de las nuevas versiones más grandes de Stata y ofrece nuevas capacidades de la investigación para los usuarios en una variedad de campos tales como: economía, investigadores de la salud, epidemiólogos, sociólogos, Científicos políticos y econometristas. Comandos de análisis bayesianos La introducción de comandos de análisis bayesianos (modelos lineales univariados y multivariados, GLM univariante, modelos no lineales univariados y generalizados, etc.) apoyados por un nuevo manual de referencia de Stata Bayesian Analysis. Stata 14 incluye 12 modelos de verosimilitud integrados y 22 distribuciones previas incorporadas, entre otras características útiles. Modelos más extendidos de efectos de tratamiento El análisis de efecto de tratamiento está ahora disponible para una clase mucho más amplia de modelos. La estimación del efecto de tratamiento endógeno está ahora disponible para resultados continuos, binarios, de conteo y fraccionarios. Los efectos del tratamiento ahora también se pueden estimar a partir de datos de supervivencia observacional. Más análisis IRT (teoría de la respuesta a los ítems) Stata 14 ahora soporta modelos IRT para artículos binarios (1-3 PL), artículos categóricos (respuesta nominal), elementos ordinales (respuesta graduada, escala de calificación y crédito parcial) y cualquier combinación de esos modelos. Más Stata en nuevos idiomas La interfaz de usuario de Statas está ahora disponible en español y japonés. Más Nuevas funciones útiles añadidas en Stata 14 son: Puede adaptarse a una variedad de modelos de supervivencia multinivel, como los modelos de efectos mixtos exponenciales y Weibull. Más Se puede realizar inferencias de muestras pequeñas en modelos lineales mixtos usando varios métodos denominadores de grados de libertad, incluyendo el método Kenward-Roger. Más Nuevos comandos de series temporales. Más Nuevos y ampliados estimadores de datos de paneles. Más Puede calcular el poder y el tamaño de la muestra para los análisis epidemiológicos de las tablas de contingencia. Más Stata ahora entiende Unicode. Más Puede realizar la prueba de modelo ajustada de Satorra-Bentler para SEM con datos que normalmente no se distribuyen. Más Puede estimar modelos de tasas, proporciones y otras respuestas fraccionales usando modelos de regresión beta y regresión fraccional. Puede estimar modelos de Poisson con variables dependientes censuradas. Stata / MP permite ahora más de 2.100 millones de observaciones hasta 20 mil millones de observaciones dado el mayor equipo actual, y está listo para más una vez que el hardware de la computadora alcanza. Más CIE-10 códigos. Más pesos a nivel de escenario. Proporciones, tasas, etc. cpoisson para estimar modelos de Poisson censurados ztest y comandos ztesti para calcular la estadística z Selector de estimación de post-estimación que simplifica en gran medida el análisis de poststimación Casi todos Los comandos de estimación en Stata ahora soportan variables de factores Una multitud de mejoras en los márgenes, como la capacidad de hacer múltiples predicciones a la vez y tener las predicciones por defecto reflejan la mejor opción para el análisis marginal Varias nuevas utilidades para ayudarle a gestionar mejor los gráficos Nuevo Inicio rápido De los manuales Manual de referencia de las nuevas funciones de Stata Programación de su cosa. Estará interesado en estas nuevas características en Stata 14. Stata ahora utiliza el Twister de 64 bits de Mersenne como su generador de números aleatorios por defecto Nueva distribución estadística, de números aleatorios y funciones de cadena Todas las nuevas funciones añadidas a Stata también están disponibles en Mata There Son muchos tutoriales de vídeo en el uso de Stata. A continuación encontrará las más recientes adiciones relacionadas con Stata 14, así como una lista de todos los recursos que existen actualmente disponibles. Sugerencias rápidas Todas las versiones de Stata se ejecutan en equipos de doble núcleo, multi-núcleo y multiprocesador. Stata para Windows Windows 10 Windows 8 Windows 7 Windows Vista Windows Server 2012 Windows Server 2008 Windows Server 2003 Variedades de Windows de 64 bits y 32 bits para procesadores x86-64 y x86 hechas por Intel y AMD. Stata para Mac Stata para Mac requiere procesadores Intel de 64 bits (Core2 Duo o superior) con OS X 10.7 o más reciente Stata para Unix Linux: Cualquier ejecución de 64 bits (x86-64 o compatible) o de 32 bits (x86 o compatible) Linux. Requisitos de hardware Mínimo de 512 MB de RAM Mínimo de 900 MB de espacio en disco Stata para Unix requiere una tarjeta de vídeo que puede mostrar miles de colores o más (color de 16 bits o 24 bits) Seleccione un tipo de usuario: Stata 14 Documentación Cada La instalación de Stata incluye toda la documentación en formato PDF. La documentación de Statas consta de más de 12.000 páginas que detallan cada característica de Stata incluyendo los métodos y fórmulas y ejemplos completamente trabajados. Puede realizar la transición sin problemas entre las entradas utilizando los vínculos dentro de cada entrada. Stata 14 Manuales Manual de Referencia del Análisis Bayesiano Introducción a Stata para Mac Introducción a Stata para Unix Introducción a Stata para Windows La documentación de Stata 14 es propiedad de StataCorp LP, College Station TX, Estados Unidos y se utiliza con permiso de StataCorp LP. Los estudiantes pueden comprar Stata / MP. Stata / SE. Stata / IC y Small Stata a un precio reducido a través del programa Stata GradPlan. Para obtener más información sobre los tipos de licencia disponibles, haga clic aquí. 2016 nos ve celebrar los veinticinco años de distribuir y apoyar a Stata a los usuarios dentro del Reino Unido Irlanda. Estamos muy orgullosos de nuestra estrecha relación de trabajo con. Compra nuestro evento de fin de semana Desde la medianoche del jueves 24 de noviembre hasta la medianoche del lunes 28 de noviembre de 2016, utiliza los siguientes códigos de descuento en timberlake. co. uk. Econometría Financiera El uso de Stata por Simona Boffelli y Giovanni Urga proporciona una excelente introducción al análisis de series de tiempo y cómo hacerlo en Stata por razones financieras. La región de Oriente Medio y África del Norte (MENA) padece tanto la disponibilidad de datos como la calidad de los datos. Cualquier esfuerzo para recopilar, limpiar y presentar datos sobre la región es un bien. La 4ª Reunión del Grupo de Usuarios de Polonia Stata tendrá lugar el lunes 17 de octubre de 2016 en la Escuela de Economía de Varsovia, Polonia. El objetivo del Stata Users Group Meeti. Latest Stata Courses Our third annual Stata winter school takes place in London on 12-17 December 2016 and comprises four separate short courses. Usted puede elegir asistir a una, una combinación de, o los cuatro cursos. Este curso proporcionará a los participantes las herramientas esenciales, teóricas y aplicadas, para un uso adecuado de los modernos métodos micro-econométricos para la evaluación de políticas y el modelado contrafactual causal bajo la suposición de selección sobre observables. Nuestro curso Stata Fundamentals ofrece una introducción completa a Stata tanto para el nuevo usuario como es ideal para los usuarios principiantes o principiantes que quieren tener una ventaja y aprender a usar Stata de manera eficiente. Este curso de dos días proporciona una revisión y una guía práctica de varias metodologías econométricas principales utilizadas con frecuencia para modelar los hechos estilizados de la serie financiera a través de modelos ARMA, modelos GARCH univariados y multivariados, análisis de gestión de riesgos y contagio. La demostración de las técnicas alternativas será ilustrada usando Stata. Las sesiones prácticas dentro del curso incluyen datos de tipos de interés, precios de activos y series temporales de divisas. El curso es impartido por el Prof. Giovanni Urga, autor de Econometría Financiera con Stata - Boffelli, S y Urga, G (2016), Stata Press: TX. El curso se basa en el libro y todos los asistentes recibirán una copia gratuita. Necesita una cotización
No comments:
Post a Comment