Ir al contenido

SPSS

De Wikipedia, la enciclopedia libre
SPSS
Información general
Tipo de programa software estadístico
Desarrollador IBM
Lanzamiento inicial 1969
Licencia propietaria
Información técnica
Programado en Java
Versiones
Última versión estable 29.0 ( 29 de septiembre de 2022 (2 años, 1 mes y 23 días))
Archivos legibles
Archivos editables
Enlaces

SPSS (acrónimo en inglés de Statistical Package for the Social Sciences [Paquete Estadístico para las Ciencias Sociales]) es un programa estadístico informático que originalmente se usaba únicamente en las investigaciones de las ciencias sociales y en las ciencias aplicadas, y también se aplica ahora (con el nombre IBM SPSS) en el ámbito la de investigación de mercado (mercadotecnia).[1]

Es uno de los programas estadísticos más conocidos teniendo en cuenta su capacidad para trabajar con grandes bases de datos y una sencilla interfaz para la mayoría de los análisis. En la versión 12 de SPSS se podían realizar análisis con dos millones de registros y 250 000 variables. El programa consiste en un módulo de base y módulos anexos que se han ido actualizando constantemente con nuevos procedimientos estadísticos. Cada uno de estos módulos se compra por separado.

Por ejemplo, SPSS puede ser utilizado para evaluar cuestiones educativas.

Actualmente, compite no solo con programas licenciados como SAS, MATLAB, Statistica, Stata, sino también con software de código abierto y libre, de los cuales los más destacados son los lenguajes de programación R y Python. Recientemente ha sido desarrollado un paquete libre llamado PSPP, con una interfaz llamada PSPPire que ha sido compilada para diversos sistemas operativos como Linux, además de versiones para Windows y macOS. Este último paquete pretende ser un clon de código abierto que emule todas las posibilidades del SPSS.

Historia

[editar]

Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de su National Opinion Research Center estuvo a cargo del desarrollo, distribución y venta del programa. A partir de 1975 corresponde a SPSS Inc.

Originalmente el programa fue creado para grandes computadores. En 1970 se publica el primer manual de usuario del SPSS por Nie y Hall. Este manual populariza el programa entre las instituciones de educación superior en Estados Unidos. En 1984 sale la primera versión para computadores personales.

Desde la versión 14, pero más específicamente desde la versión 15 se ha implantado la posibilidad de hacer uso de las bibliotecas de objetos de SPSS desde diversos lenguajes de programación. Aunque principalmente se ha implementado para Python, también existe la posibilidad de trabajar desde Visual Basic, C++ y otros lenguajes.

El 28 de junio de 2009 se anunció que IBM, meses después de ver frustrado su intento de compra de Sun Microsystems, adquiere SPSS, por 1200 millones de dólares.[2]

Versiones del SPSS

SPSS Inc. desarrolla un módulo básico del paquete estadístico SPSS, del que han aparecido las siguientes versiones:

  • SPSS 1 - 1968
  • SPSSx release 2 - 1983 (para grandes servidores tipo UNIX)
  • SPSS 5.0 - diciembre de 1993
  • SPSS 6.1 - febrero de 1995
  • SPSS 7.5 - enero de 1997
  • SPSS 8.0 - 1998
  • SPSS 9.0 - marzo de 1999
  • SPSS 10.0.5 - diciembre de 1999
  • SPSS 10.0.7 - julio de 2000
  • SPSS 10.1.4 - enero de 2002
  • SPSS 11.0.1 - abril de 2002
  • SPSS 11.5.1 - abril de 2003
  • SPSS 12.0.1 - julio de 2004
  • SPSS 13.0.1 - marzo de 2005 (permite por primera vez trabajar con múltiples bases de datos al mismo tiempo).
  • SPSS 14.0.1 - enero de 2006
  • SPSS 15.0.1 - noviembre de 2006
  • SPSS 16.0.1 - noviembre de 2007
  • SPSS 17.0.1 - noviembre de 2008 (en la lista de usuarios de SPSS "SPSSX (r) Discussion [SPSSX-L@LISTSERV. UGA. EDU]" varios funcionarios de la empresa anunciaron previamente la salida de la versión 16 de este software. En ella se incorporó una interfaz basada en Java que permite realizar algunas mejoras en las facilidades de uso del sistema).
  • SPSS 16.0.2 - abril de 2008
  • SPSS Statistics 17.0.1 - diciembre de 2008 (Incorpora aportes importantes como el ser multilenguaje, pudiendo cambiar de idioma en las opciones siempre que queramos. También incluye modificaciones en el editor de sintaxis de forma tal que resalta las palabras claves y comandos, haciendo sugerencias mientras se escribe. En este sentido se aproxima a los sistemas IDE que se utilizan en programación).
  • SPSS Statistics 17.0.2 - marzo de 2009
  • PASW Statistics 17.0.3 - septiembre de 2009 (IBM adquiere los derechos y cambia su denominación de SPSS por PASW 18)...........
  • PASW Statistics 18.0 - agosto de 2009
  • PASW Statistics 18.0.1 - diciembre de 2009
  • PASW Statistics 18.0.2 - abril de 2010
  • PASW Statistics 18.0.3 - septiembre de 2010
  • IBM SPSS Statistics 19.0 - agosto de 2010 (pasa a denominarse IBM SPSS)
  • IBM SPSS Statistics 19.0.1 - diciembre de 2010
  • IBM SPSS Statistics 20.0 - agosto de 2011
  • IBM SPSS Statistics 20.0.1 - marzo de 2012
  • IBM SPSS Statistics 21.0 - agosto de 2012
  • IBM SPSS Statistics 22.0 - agosto de 2013
  • IBM SPSS Statistics 23.0 - agosto de 2014
  • IBM SPSS Statistics 24.0 - junio de 2016
  • IBM SPSS Statistics 25.0 - marzo de 2017
  • IBM SPSS Statistics 26.0 - 2019
  • IBM SPSS Statistics 27.0 - junio de 2020
  • IBM SPSS Statistics 28.0 - mayo de 2021
  • IBM SPSS Statistics 29.0 - septiembre de 2022

Módulos del SPSS

[editar]

El sistema de módulos de SPSS, como los de otros programas (similar al de algunos lenguajes de programación) provee toda una serie de capacidades adicionales a las existentes en el sistema base. Algunos de los módulos disponibles son:

  • Modelos de Regresión
  • Modelos Avanzados
    • Reducción de datos: Permite crear variables sintéticas a partir de variables colineales por medio del Análisis Factorial.
    • Clasificación: Permite realizar agrupaciones de observaciones o de variables (cluster analysis) mediante tres algoritmos distintos.
    • Pruebas no paramétricas: Permite realizar distintas pruebas estadísticas especializadas en distribuciones no normales.
  • Tablas: Permite al usuario dar un formato especial a las salidas de los datos para su uso posterior. Existe una cierta tendencia dentro de los usuarios y de los desarrolladores del software por dejar de lado el sistema original de TABLES para hacer uso más extensivo de las llamadas CUSTOM TABLES.
  • Tendencias
  • Categorías: Permite realizar análisis multivariados de variables normalmente categorías. También se pueden usar variables métricas siempre que se realice el proceso de recodificación adecuado de las mismas.
  • Análisis Conjunto: Permite realizar el análisis de datos recogidos para este tipo específico de pruebas estadísticas.
  • Mapas: Permite la representación geográfica de la información contenida en un fichero (discontinuado para SPSS 16).
  • Pruebas Exactas: Permite realizar pruebas estadísticas en muestras pequeñas.
  • Análisis de Valores Perdidos: Regresión simple basada en imputaciones sobre los valores ausentes.
  • Muestras Complejas: Permite trabajar para la creación de muestras estratificadas, por conglomerados u otros tipos de muestras.
  • SamplePower: Cálculo de tamaños muestrales.
  • Árboles de Clasificación: Permite formular árboles de clasificación y/o decisión con lo cual se puede identificar la conformación de grupos y predecir la conducta de sus miembros.
  • Validación de Datos: Permite al usuario realizar revisiones lógicas de la información contenida en un fichero ".sav" y obtener reportes de los valores considerados atípicos. Es similar al uso de sintaxis o scripts para realizar revisiones de los ficheros. De la misma forma que estos mecanismos es posterior a la digitalización de los datos.
  • SPSS Programmability Extension (SPSS 14 en adelante). Permite utilizar el lenguaje de programación Python para un mejor control de diversos procesos dentro del programa que hasta ahora eran realizados principalmente mediante scripts (con el lenguaje SAX Basic). Existe también la posibilidad de usar las tecnologías .NET de Microsoft para hacer uso de las librerías del SPSS. Aunque algunos usuarios han cuestionado sobre la necesidad de incluir otros lenguajes, la empresa no tiene esto entre sus objetivos inmediatos.

Desde el SPSS/PC hay una versión adjunta denominada SPSS Student que es un programa completo de la versión correspondiente, pero limitada en su capacidad en cuanto al número de registros y variables que puede procesar. Esta versión es para fines de enseñanza del manejo del programa.

Manejo

[editar]

SPSS tiene un sistema de ficheros en el cual el principal son los archivos de datos (extensión. SAV). Aparte de este tipo existen otros dos tipos de uso frecuente:

  • Archivos de salida (output, extensión. SPO): en estos se despliega toda la información de manipulación de los datos que realizan los usuarios mediante las ventanas de comandos. Son susceptibles de ser exportados con varios formatos (originalmente HTML, RTF o TXT, actualmente la versión 15 incorpora la exportación a PDF junto a los formatos XLS y DOC que ya se encontraban en la versión 12).
  • Archivos de sintaxis (extensión. SPS): Casi todas las ventanas de SPSS cuentan con un botón que permite hacer el pegado del proceso que el usuario desea realizar. Lo anterior genera un archivo de sintaxis donde se van guardando todas las instrucciones que llevan a cabo los comandos del SPSS. Este archivo es susceptible de ser modificado por el usuario. Muchos de los primeros usuarios del SPSS suelen escribir estos archivos en vez de utilizar el sistema de pegado del programa.

Existe un tercer tipo de fichero: el fichero de scripts (extensión. SBS). Este fichero es utilizado por los usuarios más avanzados del software para generar rutinas que permiten automatizar procesos muy largos y/o complejos. Muchos de estos procesos suelen no ser parte de las salidas estándar de los comandos del SPSS, aunque parten de estas salidas. Buena parte de la funcionalidad de los archivos de scripts ha sido ahora asumida por la inserción del lenguaje de programación Python en las rutinas de sintaxis del SPSS. Procedimientos que antes solo se podían realizar mediante scripts ahora se pueden hacer desde la sintaxis misma.

El programa cuando se instala trae un determinado número de ejemplos o utilidades de casi todos los ficheros en cuestión. Estos son usados para ilustrar algunos de los ejemplos de uso del programa.

Aquí está una pequeña lista de cosas que se pueden hacer mediante este programa:

1. Introducción de datos:

Vamos a vista de datos y se introducen en DISTINTAS columnas (porque son distintas variables) de arriba abajo.

2. Cálculos básicos:

-Para hacer operaciones: ANALIZAR>>estadísticos descriptivos>>frecuencias (para tablas de frecuencias) ahí llevas la variable que te interese al otro lado y le das a estadísticos donde marcaremos todo lo que queramos saber (media, moda, mediana, cuartiles). Nos aparecerá una pantalla nueva con los resultados. Si necesitamos saber P2,5 o P97,5 habría que hacerlo aquí.

-ANALIZAR>>estadísticos descriptivos>>explorar: ahí introducimos la variable en el primer campo (lista de dependientes) y le damos a aceptar. Aquí nos da toda la información de antes, pero ADEMÁS nos da el intervalo de confianza y estimación muestral así como el error típico de la media ENCIMA nos da las gráficas del diagrama tronco hojas y el de cajas.

-Para la ASIMETRIA y la KURTOSIS: En simetría: si es negativo está sesgada a la IZQUIERDA si es 0 es simétrica y si es positivo está sesgada a la DERECHA. En curtosis: si está rondando el 0 es mesocurtica, si es negativo platicúrtica y si es positiva leptocúrtica.

-ANALIZAR>>estadísticos descriptivos>>frecuencias>>gráficos esto es útil para ver la FORMA DE LA DISTRIBUCIÓN, ya que podemos superponer la curva de la normal. Si la curva se parece al histograma podemos decir que es simétrica.

-Si por ejemplo queremos hacer una nube de puntos o un diagrama de dispersión para ver dos variables cuantitativas, vamos a Gráficos>>cuadro de diálogos antiguos>>dispersión puntos>>dispersión simple>>definir>> OJO hay que saber cuál es la dependiente y cuál la independiente. En función de será la X (dependiente (Y) e independiente (X)[la edad por ejemplo sería independiente en la mayoría de los casos])

-Otra cosa que podemos sacar es el coeficiente de correlación lineal de Pearson ANALIZAR>>correlaciones>>bivariadas. Ahí nos aparecerá una tabla. En una diagonal siempre nos saldrá 1 (no hacer caso) en el otro te aparecerá otro valor, que será el importante.

-El coeficiente de regresión y el coeficiente de determinación: ANALIZAR>>regresión>>lineal. De todas las tablas que hay, hay que fijarse en la que pone RESUMEN DEL MODELO y fijarse en la R2 (coeficiente de determinación). Para sacar el coeficiente de regresión (b) hay que mirar en una tabla llama COEFICIENTES. Ahí vemos dos números debajo de la B. La primera se llama constante (también denominada a) y el segundo es el coeficiente B de regresión. En resumen hay que coger el SEGUNDO.

-Si queremos contrastar dos medias: ANALIZAR>> comparar medias>>prueba t para muestras independientes>>definir grupos.

-Para hacer una selección de datos de una variable: DATOS>>Seleccionar casos>>Si satisface la condición>>Pones la variable a la derecha=(lo que quieras comparar) Ahora ya vamos a ANALIZAR>>explorar.

-ANALIZAR>>Estadístico descriptivo>>tablas de contingencia>>casillas>>% en filas>> aceptar

-ANALIZAR>>Estadísticos descriptivos>>Tablas de contingencia>>Mostrar gráfico de barras agrupados Y estadísticos>>(el estadístico que se quiera)

-ANALIZAR>>Comparar medias>>Prueba T para 1 muestra>>(ponemos el valor en valor de prueba)>>Aceptar `[Miramos en Sig]

-Si queremos cambiar el nombre a las variables para que sea más cómodo, se puede en VISTA DE VARIABLES (pestaña derecha) y clickas en el nombre.


En el siguiente listado se citan algunos de los errores más frecuentes entre los usuarios al utilizar SPSS[3]​:

  • No se introduce un dato o se introduce dos veces por error.
  • El valor se introduce en un lugar que no corresponde.
  • El resultado no es legible.
  • Inconsistencias y valores extremos en el cuestionario.
  • Intercambio de un valor tras la limpieza de los datos.
  • Error de transferencia.
  • Respuestas en blanco.
  • Error de clasificación.
  • No realizar de forma correcta la limpieza de datos.
  • Patrones extraños como asimetrías.
  • No configurar de forma correcta los conjuntos de datos.
  • No declarar los datos ausentes.

Fichero de datos de SPSS

[editar]

Los ficheros de datos en formato SPSS tienen en Windows la extensión. SAV. Al abrir un fichero de datos con el SPSS, vemos la vista de datos, una tabla en la que las filas indican los casos y las columnas las variables. Cada celda corresponde al valor que una determinada variable adopta en un cierto caso.

Además de esta vista de datos, en las últimas versiones del programa existe una vista de variables en la que se describen las características de cada una. En esta vista las filas corresponden a cada variable y las columnas nos permiten acceder a sus características:

  • Nombre, limitado a 8 caracteres.
  • Tipo de variable (compárese este listado de opciones con los tipos de variables estadísticas existentes)
    • Numérico, número en formato estándar)
    • Coma decimal, número con comas cada tres posiciones y con un punto como delimitador de los decimales
    • Punto decimal, número con puntos cada tres posiciones y con una coma como límite delimitador de los decimales.
    • Notación científica, número que se expresa con un formato tal que se sigue de una E y un número que expresa la potencia de 10 a la que se multiplica la parte numérica previa
    • Fecha
    • Moneda dólar, formato numérico con el que se expresan cantidades en dólares
    • Moneda del usuario, formato numérico con el que se expresan cantidades en la moneda definida en la pestaña de monedas del cuadro de diálogo "Opciones"
    • Cadena de caracteres o variable alfanumérica
  • Tamaño total
  • Tamaño de la parte decimal
  • Etiqueta de la variable
  • Etiquetas para los valores
  • Valores perdidos
  • Espacio que ocupa en la vista de datos
  • Alineación de la variable en la vista de datos
  • Escala de medición.

Algunos usuarios pasan por alto las características de las variables cuando se trabaja en la base de datos. Sin embargo, cuando se utilizan scripts o Python las características de las variables pueden tomar gran relevancia en la construcción de procedimientos ad hoc.

Fichero de sintaxis de SPSS

[editar]

Se pueden generar estos archivos de sintaxis con la ayuda del programa mismo, pues en casi todas las ventanas donde se realizan tareas en el SPSS existe un botón "Pegar". Este botón cierra la ventana en cuestión y guarda la sintaxis de las acciones seleccionadas en dicha ventana. Una vez salvado este archivo es susceptible de modificación.

La sintaxis tal cual se presenta a continuación fue producida directamente con el SPSS. Este programa le da un formato legible a la sintaxis, formato que el software en algunos casos no requiere para su correcto uso.

Otra peculiaridad de las sintaxis del SPSS es que no son "case sensitive". Ante lo cual es común ver sintaxis escritas solo en mayúsculas, solo en minúsculas o bien una combinación propia de cada usuario. Esta situación se modifica para aquellas personas que hacen uso de Python dentro de sus sintaxis, pues éste es un lenguaje sensitivo a las variaciones entre mayúsculas y minúsculas. Esto obliga a estos usuarios a escribir sintaxis con mayor cuidado.

El siguiente ejemplo ilustra como abrir un fichero de datos mediante sintaxis y como llevar a cabo una frecuencia y una tabla de contingencia con datos de uno de los archivos de ejemplo que instala el programa.

*Este es un comentario, debe ir precedido por un asterisco y finalizado por un punto.
*Abre el archivo Tomato.sav.
GET
  FILE='C:\Program Files\SPSS\Tomato.sav'.
*Genera una tabla con las frecuencias de la variable fertilizante.
FREQUENCIES
  VARIABLES=fert
  /ORDER=  ANALYSIS.
*Genera una tabla de contingencia con las variables altura inicial y fertilizante.
CROSSTABS
  /TABLES=initial  BY fert
  /FORMAT= AVALUE TABLES
  /CELLS= COUNT
  /COUNT ROUND CELL.

Observaciones

[editar]

Siempre debe considerarse la anchura, que determina el número de caracteres máximos que contiene la variable.

Véase también

[editar]

Referencias

[editar]

Bibliografía

[editar]
  • Pardo, A. y Ruiz, M. A. (2002). SPSS 11. Guía para el análisis de datos. Madrid: McGraw-Hill. ISBN 9788448137502. 

Enlaces externos

[editar]