Emilio López Cano, Estadístico: 2010

jueves, 9 de diciembre de 2010

Minería de Datos y Estadística Sexy

Me llama la atención el uso una vez más del calificativo sexy para referirse a la estadística, por eso comparto la entrada de un blog que acabo de conocer y es muy interesante:

The three sexy skills of data geeks

Está escrito por Michael E. Driscoll en Dataspora Blog, sobre "Big Data, open source analytics, and data visualization".

Resumiendo, las cualidades sexy son:

Aprender estadística
Sufrir el Data Munging (sic)
Contárselo a alguien (visualización)

Termina diciendo que con las tres cualidades juntas, somos sexy.

En esta entrada y en otra de Barrapunto he visto también enlaces a tres libros sobre sobre Data Mining disponibles para descargar, y que reproduzco aquí:

Elements of Statistical Learning

Mining of Massive Datasets

Introduction to Statistical Thought

Por cierto no busquéis munging en los diccionarios, que no está. Yo lo traduciría libremente como Masticar los datos, y hay varias referencias por ahí:

Hay un libro de Manning titulado "Data Munging with Perl", donde dice que " 'munging' is a common term in the programmer's world. Many computing tasks require taking data from one computer system, manipulating it in some way, and passing it to another. Munging can mean manipulating raw data to achieve a final form. It can mean parsing or filtering data, or the many steps required for data recognition"
En el propio artículo de Driscoll, dice que " this refers to the painful process of cleaning, parsing, and proofing one’s data before it’s suitable for analysis"

sábado, 27 de noviembre de 2010

Primer Congreso de Jóvenes Investigadores en Estadística

Esta semana he tenido la suerte de participar en el Primer Congreso de Jóvenes Investigadores en Estadística. Aunque no he presentado ningún trabajo por falta de tiempo, me ha sido muy útil por varias razones.
La primera, el haber conocido a una serie de profesionales del más alto nivel en la investigación en Bioestadística y Diseño de Experimentos, tanto de España como de fuera de España. Además, he conocido más de cerca cómo funciona el mundo de la Investigación, al que intento acercarme día a día para encontrar mi hueco. Y por último, he conocido algunos trabajos del más alto nivel en el área del Diseño Óptimo de Experimentos, y de la Bioestadística.
Como dijo Raúl Martín, presidente del Comité Científico Organizador, espero que haya un Segundo Congreso, y el devenir de los acontecimientos me permita acudir y presentar alguno de mis trabajos.

El congreso en los medios:
http://www.lacerca.com/noticias/universidad/escuela_arquitectura_jovenes_investigadores-72317-1.html
http://dclm.es/news/172/ARTICLE/82255/2010-11-25.html
http://www.uclm.es/gabinete/ver_noticias.asp?id_noticia=7754

miércoles, 17 de noviembre de 2010

Libro leído: Una nueva manera de ver el mundo

La Geometría Fractal
Acabo de terminarme este libro de la colección de RBA "El mundo es matemático".

Resumen:
Muchos fenómenos naturales presentan formas irregulares, incluso caóticas, que la geometría tradicional es incapaz de analizar: la esponjosidad de las nubes, la ramificación de los árboles, el zigzag de los relámpagos... la solución a este problema la hallamos en un concepto matemático revolucionario, el de fractal, y en una nueva forma de ver el mundo, basada en la máxima "el todo contiene la parte y la parte, el todo".

Valoración:
A mí me ha gustado mucho, como todos los de la colección. Este además lleva una serie de láminas a color en el interior, con imágenes de objetos fractales y ejemplos de la naturaleza. El tema es de lo más actual, y desde el enfoque histórico de la colección, la diferencia con otros volúmenes es que son personajes en muchos casos vivos todavía, o fallecidos recientemente (como Benoit Mandelbrot que ha fallecido este mismo año).

El siguiente: Prisioneros con dilemas y estrategias dominantes (Teoría de Juegos) Después de cursar la Asignatura Ingeniería de la Decisión en el Master en Ingeniería de sistemas de la Decisión, y haber visto "Una mente maravillosa" que narra la historia de uno de los genios de esta disciplina, me apetece leer este libro.

lunes, 1 de noviembre de 2010

La pasión de los matemáticos en el cine

sábado, 23 de octubre de 2010

Curso Práctico de Técnicas de Investigación

He asistido al Curso Práctico de Técnicas de Investigación que organiza el área de teoría económica de la Facultad de Ciencias Económicas y Empresariales de Albacete de la Universidad de Castilla la Mancha.

El curso ha constado de cuatro sesiones, que van a servir mucho en mi próximo trabajo y que espero pronto poder escribir sobre él en esta bitácora.

Los contenidos han sido:

El objeto de la Investigación Científica y otros aspectos generales, por el doctor Óscar de Juan. Sobre todo me ha servido para recordarme que tengo que leerme La lógica de la Investigación Científica, de Karl Popper (en la foto), del que tengo una buena edición en casa y será el próximo libro que me lea. También he aprendido cosas que desconocía o no les daba importancia para el día que empiece con mi tesis.
Las Fuentes y el proceso de búsqueda, por el doctor Luis Antonio López Santiago. Muy interesante para saber dónde buscar, y nociones sobre clasificación, aunque tendré que profundizar más.
Las Formas Científicas, por la Doctora Carmen Córcoles. Me ha ayudado mucho a interpretar las distintas formas, y a darme cuenta de errores pasados.
Nuevos métodos de aprendizaje en el sistema ECTS, a cargo de M. Angeles Tobarra, que además es la coordinadora del curso. Aunque en principio era la sesión más alejada de mi interés "investigador", me resultó muy interesante y de refresco de muchos conceptos adquiridos en el pasado, y aprendiendo nuevos métodos y consejos para el Curriculum y las presentaciones en público.

Me quedo con una frase comentada por el profesor de Juan, algo así como:

Dedicar tantas horas a la reflexión como a la lectura y experimentación

viernes, 22 de octubre de 2010

Día Mundial de la Estadística

El día 20 de octubre se ha celebrado el Día Mundial de la Estadística. Se han organizado en multitud de Universidades e Instituciones diversos eventos y actividades que han dado visibilidad a esta disciplina. Parece que se va imponiendo la idea de que en esta época que nos está tocando vivir, cada vez es más importante el adecuado tratamiento de la información, y la formación en esta disciplina para desenvolvernos en el bombardeo de información diaria, sacar nuestras propias conclusiones, y detectar posibles manipulaciones. También sirve para que se conozca más la profesión (ya comenté que es el nuevo sexy job para google).

Por mi parte he asistido a unas charlas de la Universidad Rey Juan Carlos, donde estoy cursando on-line el Master Universitario en Ingeniería de Sistemas de Decisión, a cargo de Simon Wilson, del Trinity College (Dublín, Irlanda). En ellas explicó dos proyectos en los que están trabajando aplicando estimación bayesiana. En uno de ellos, se utiliza para realizar búsquedas de imágenes en bases de datos, basadas en el contenido(CBIR). En el otro, separa las imágenes del cosmos para detectar los distintos niveles de microondas (CBR), mediante técnicas y modelos estadísticos, utilizado para probar teorías del Big-Bang.

Después explicó a los alumnos de informática una tesis que dirigió aplicando técnicas estadísticas de Análisis de Decisiones para estimar el tiempo que se deben probar las aplicaciones antes de su entrega a los clientes, o puesta a la venta. En esta sesión también se explicó el funcionamiento del robot Aisoi por parte de uno de los responsables del proyecto, y el profesor David Ríos que ha implementado los métodos matemáticos de Análisis de Decisiones para este prodigio:

También la Escuela Universitaria de Estadística organizó interesantes actividades, a las que hubiera asistido de haber estado en Madrid el día 20, pero me era imposible.

viernes, 17 de septiembre de 2010

La noche de los investigadores en Madrid

El día 24 de septiembre, se celebra en Madrid el evento "La Noche de los Investigadores", con el lema "Creatividad para el avance de Europa". Un total de 18 actividades, entre ellas Trivial de Estadística que organiza la Universidad Carlos III de Madrid.

Algunos enlaces con información:

http://www.uc3m.es/portal/page/portal/actualidad_cientifica/publi/noche_investigadores

http://www.madrimasd.org/lanochedelosinvestigadores/

http://www.facebook.com/madrimasd#!/event.php?eid=138609226165382&index=1

Si estuviera en Madrid ese día, sin duda asistiría a varias de las actividades.

miércoles, 30 de junio de 2010

Seminario Técnicas Avanzadas de Investigación

Del 1 al 4 de junio de 2010, he asistido a un interesante seminario sobre Técnicas Avanzadas de Investigación, en la Facultad de Ciencias Económicas de la Universidad de Castilla la Mancha en Albacete, dirigido por el Catedrático Juan J. Jiménez Moreno.

El seminario ha estado a cargo de Ana Mª Legato, profesora de la Universidad Nacional del Centro de Buenos Aires. Las explicaciones de Ana han sido claras y amenas, la documentación muy completa y útil, y salvo un pequeño problema informático (siempre los hay) con una de las prácticas, para mí el seminario fue muy satisfactorio.

Los temas abordados en esta edición, ha sido Regresión PLS, Modelos de Ecuaciones Estructurales, y el Modelo Logístico. Los dos primeros se vieron con mayor profundidad.

Ya aparece en la web del profesor Jiménez la siguiente edición (y van 13) del seminario, al que asistiré si no me lo impiden otros compromisos, ya que cada año se tratan temas diferentes y actuales.

lunes, 7 de junio de 2010

Estadística Espacial

El pasado 28 de mayo tuve la oportunidad de asistir a una charla organizada por la Escuela Politécnica de Albacete de la UCLM, en el marco del curso propio de Especialista en análisis de datos.

Agradezco la invitación que me hicieron, y me gustó mucho la explicación de Lola Ugarte, sobre Modelización espacio-temporal de la mortalidad con splines penalizados, técnica que están utilizando en el grupo de investigación al que pertenece de Estadística Espacial.

Esta "rama" de la estadística, que intenta explicar los datos desde la dimensión espacial, se puede aplicar a cualquier investigación, ya que todo dato se genera en algún "sitio", y está poniéndose muy en boga ya que tenerlo en cuenta o no tenerlo en cuenta, puede variar el resultado de una investigación, y por otra parte los resultados son más ricos.

En cuanto a la modelización con splines penalizados, aconsejo leer su trabajo de investigación para más detalles, y comprobar cómo llega a aproximar un modelo lineal más "accesible" a partir del inicial dinámico y no lineal:

"Spatio-temporal modelling of mortality risks using penalized splines". Environmetrics, 21, pp. 270-289 (2010). Autores: Ugarte, M. D., Goicoa, T.and Militino A. F.

También muy recomendable su libro sobre R

martes, 1 de junio de 2010

Cómo lo hago en Linux: Convertir ficheros de audio entre distintos formatos

Es muy usual disponer de una gran colección de música en nuestro ordenador, proveniente de distintas fuentes (descargas, grabaciones, ripeos, etc.)

Uno de los problemas con los que me he encontrado, es que los archivos de wma o wav, me dan problemas al intentar etiquetarlos correctamente desde el reproductor Rythmbox, por lo que una de las tareas que realizo para organizar mi biblioteca musical, es convertir todos los archivos en formato mp3, que es el más universal y no da problemas en ningún sitio.

Esta tarea la he conseguido realizar de forma muy sencilla con el programa "Sound Converter". La instalación, la he llevado a cabo desde el gestor de paquetes de Synaptic, desde la consola sería así:

sudo apt-get install soundconverter

Crea una entrada en el grupo de programas de Sonido y vídeo como "Conversor de Sonido", con una interfaz súper sencilla.

Lo primero será ajustar nuestras preferencias, yo he elegido convertir a MP3, en la misma carpeta en la que se encuentre el archivo, y eliminando el archivo original. Las opciones son muy intuitivas:

Una vez hecho esto, añadimos los archivos que queremos convertir. Podemos buscar los archivos uno por uno, o pegar la ruta en la caja "lugar", con lo que añade todos los archivos de la carpeta:

Por último, en la ventana principal del programa, hacemos clic en Convertir, y listo. El tiempo lógicamente dependerá del número y duración de los archivos de audio:

martes, 11 de mayo de 2010

Revista recomendada: redes para la ciencia

Últimamente parece que me persiguen los Fractales. Es una especie de atracción que no sé de dónde me está viniendo, seguro que significa algo pero aún no sé el qué.

El caso es que, después de leer el primer libro de la colección El Mundo es Matemático (a la que me suscribí inmediatamente), me llamó la atención el capítulo de los fractales, de los que no había oído hablar siquiera.

Ahora estoy leyendo la obra "germen" de este campo, Los objetos Fractales, de Benoît Mandelbrot, que tenía en casa en una edición de Círculo de Lectores y todavía no me había leído. Otro día recomendaré este libro, cuando lo acabe de leer.

El caso es que compré la revista que os recomiendo, buscando el artículo "Fractales, ¡QUÉ ARTE!". El artículo en sí no es gran cosa una vez que los has estudiado un poco, pero es muy ameno para quien no los conozca. Sin embargo la revista en conjunto me ha gustado tanto, que he osado recomendarla en este foro, porque trata temas muy variados, con entrevistas muy interesantes, reportajes, relatos de ficción, ...

En fin, os aconsejo humildemente que la leáis, a mí me ha gustado. De paso he conocido la web de Punset, que es un genio más por cómo explica las cosas que por lo que sabe.

La revista se puede hojear en la siguiente dirección:
http://www.youkioske.com/ciencia/redes-para-la-ciencia-mayo-2010/

miércoles, 5 de mayo de 2010

Control de Calidad con R: Muestreos de Aceptación

Para el diseño y verificación de muestreos de aceptación, disponemos en R del paquete AcceptanceSampling.

Paquete AcceptanceSampling

Disponible para instalar de los repositorios

Documentación

Artículo en Journal of Statistical Software

Uso del paquete AcceptanceSampling

Muestreo simple

Primero tenemos que cargar la librería, en el intérprete de comandos, o alguna de las interfaces gráficas (RCommander o RKWard):

> library(AcceptanceSampling)

Crear un plan de muestreo (ejemplo: n=300, c=5, distribución binomial):

> x <- OC2c(300, 5, type="b")

Mostrar el plan de muestreo:

> x

Mostrar el plan de muestreo detallado (muchos puntos OC):

> summary(x, full=TRUE)

Mostrar gráfico de la curva OC:

> plot(x, xlim = c(0, 0.3))

Encontrar un plan, dada OC (alfa=0.05, p1=0.05, beta=0.15, p2=0.10, distribución binomial):

> find.plan(PRP = c(0.05, 0.95), CRP = c(0.15, 0.10), type = "binom")

Muestreo doble y múltiple

Se procede igual que para el muestreo simple, pero indicando los valores de n, c y r como vectores:

> x <- OC2c(n=c(50, 100), c=c(0, 1), r=(2, 2))

Otros recursos

En la siguiente página se pueden calcular automáticamente muestreos de aceptación utilizando las normas MIL-STD y otras:

www.sqconline.com/

Gracias por el aporte María.

martes, 4 de mayo de 2010

Redes Neuronales con R

Introducción

Para empezar, existen distintos modelos de redes neuronales, siendo uno de los más utilizados el del "Perceptron".

Esta red se basa en una "caja negra", donde lo importante es la predicción, y no cómo se hace.

El proceso incluye una fase de entrenamiento (training) para la optimización de las predicciones.

Los elementos de la red son:

Las neuronas o nodos
Las capas

De entrada
De salida
Oculta (puede tener a su vez varias capas)

Los pesos
La función de combinación
La función de activación
El objetivo (target)

Una descripción "grosso modo" podría ser: Los nodos (neuronas) de la capa de entrada, se combinan con los nodos de la capa oculta mediante la función de combinación, que suele ser una combinación lineal de los nodos de entrada mediante los pesos. A las neuronas de las capas ocultas, se aplica una función de activación, que suele ser la tangente hiperbólica de la anterior combinación más un parámetro por nodo oculto, con la que estimamos las neuronas de la capa de salida, y sus errores.

Recursos:

En Wikipedia: RNA, Perceptrón.

En este documento de la Universidad Carlos III de Madrid hay una introducción bastante bien explicada, con ejemplos en R:
Introducción a las redes neuronales aplicadas uc3m)

Paquete nnet
Se puede instalar desde los repositorios
Documentación

Paquete RWeka
Se puede instalar desde los repositorios
Documentación

Paquete neural
Documentación

neural no está en los repositorios, para instalar:

Descargar de http://cran.r-project.org/src/contrib/Archive/neural/
Instalar desde ubicación local

Paquete AMORE
Se puede instalar desde los repositorios. Es un paquete desarrollado en la Universidad de León, con abundante documentación.
Documentación
Wiki

Ejemplo
Próximamente

Paquete estadístico "R": Uso de Rcommander

Notas
">" : Ejecutar desde el intérprete de comandos de R
"~$": Ejecutar en la consola de Linux

Para instalar:
~$ sudo R
> install.packages("Rcmdr", dependencies=TRUE)

Para iniciar desde la consola:
~$ R
> library(Rcmdr)

Para iniciar desde la consola cuando ya hemos cerrado Rcmdr:
> Commander()

En Windows
Se puede arrancar también desde la consola de R, pero para evitar errores tenemos que abrir R en modo SDI. Si no elegimos esta opción al instalar R, podemos forzar este tipo de ejecución, añadiendo al comando del acceso directo que abre la aplicación la opción --r (Propiedades del acceso directo, caja de texto "Destino", quedaría algo así: "C:\Program Files\R\R-2.11.0\bin\Rgui.exe" --sdi

sábado, 1 de mayo de 2010

La Estadística, "sexy job" para los próximos 10 años, según Google

Esta es una de las afirmaciones que se hacen en un artículo del New York Times, nada menos que por el economista jefe de Google:

"I keep saying that the sexy job in the next 10 years will be statisticians,” said Hal Varian, chief economist at Google. “And I’m not kidding".

Según otro economista, del MIT, el reto es la capacidad de los humanos para usar, analizar, y dar sentido a los datos, en un mundo en que todo puede ser medido y monitorizado.

Los Datos son simplemente el material en bruto del conocimiento.

La propia IBM ha creado un grupo de análisis y optimización, contratanto a más de 200 analistas (matemáticos, estadísticos, ...) y tienen previsto contar con más de 4.000 en toda la compañía.

Pues nada, a ver si es verdad.

Enlaces:
http://www.nytimes.com/2009/08/06/technology/06stats.html?_r=2

http://www.newser.com/story/66223/todays-sexy-job-statistician.html

http://www.conversion-rate-experts.com/the-datarati/

NOTA: el artículo del NYT es de agosto del 2009, pero como los americanos nos llevan varios años de adelanto en estos temas, tiene absoluta vigencia.

viernes, 30 de abril de 2010

Paquete estadístico "R": Uso de la consola

Convenciones
> Ejecutar en la consola de R
~$ Ejecutar en la consola de Linux
cursiva Identificador variable

Arrancar la consola
~$ R

Arrancar la consola con derechos de superusuario (para instalación)
~$ sudo R

Instalar paquete descargado

> install.packages ("ruta archivo .gz")

Instalar paquete de repositorios

> install.packages ("paquete", dependencies=TRUE)

Actualizar paquetes

> update.packages()

Exportar gráfico generado

Antes de ejecutar el gráfico, debemos dar la instrucción con el tipo de gráfico que queremos guardar:

> jpeg("archivo.jpg")

Después ejecutamos el gráfico, por ejemplo:

> plot(x)

Y por último, para que se guarde el gráfico:

> dev.off()

En vez de jpeg, se puede utilizar png, bmp o tiff.

lunes, 26 de abril de 2010

San Isidoro de Sevilla, patrón de Estadística

Ahora que vuelvo a estar en contacto con la Estadística, aprovecho el día del patrón de la Escuela Universitaria de Estadística de la Universidad Complutense de Madrid para conocer más del personaje, y recordar alguna cosa curiosa.

Lo primero que me viene a la cabeza, sin contar que en los tres años de Universidad era un día sin clase, es que posteriormente por motivos de trabajo pasé un día en León. Yo no había estado nunca, pero el compañero de trabajo con el que viajaba sí, y me habló de la colegiata de San Isidoro de Sevilla. Yo le dije "¡Pero si ese es mi patrón!", y nos fuimos a visitar el monumento.

Ya me había advertido mi compañero y amigo Pedro Orihuela que al panteón le llaman "La Capilla Sixtina del Románico", y la verdad es que me encantó. Os aconsejo que visitéis los enlaces a la visita virtual, y si vais a León no dejéis de visitarla.

Era el año 2001, y acababa de celebrarse el año mundial de las Matemáticas. Tuve la ocasión de comprar en el propio museo de la colegiata una edición de su principal obra sobre matemáticas: el libro III de las Etimologías (de Mathematica). El libro incluye la obra en facsímil, y una traducción de Manuel Antonio Marcos-Casquero. Es curioso ver cómo se entendían las matemáticas en la Edad Media, donde no se había avanzado nada desde la época de Pitágoras, y se trataban de explicar las matemáticas desde un punto de vista Divino (por ejemplo para establecer las medidas aproximadas de las estancias del Cielo). En todo caso está considerado uno de los grandes erudidos de la Edad Media.

Yo no voy a escribir más, pero os aconsejo visitar los enlaces que he puesto por el texto. Buceando por la red me han sorprendido dos cosas: la primera, que proponen a San Isidoro como patrón de Internet. La segunda, que en la web de la EU de Estadística no se hace referencia alguna a la festividad.

domingo, 25 de abril de 2010

Instalación de R

Voy a empezar a relatar mi experiencia con el software estadístico de libre distribución y código abierto "R". R es un entorno de software para el análisis y gráficos estadísticos. Hay versiones para Unix/Linux, Windows y Mac/OS.

Instalación en Windows
Lo primero que tenemos que hacer, es ir a la página del proyecto, y seguir el enlace download R. Aparece una lista de direcciones (CRAN Mirrors), y debemos elegir una cercana a nuestra ubicación.
A continuación, tenemos los enlaces para descargar los archivos binarios o el código fuente.
Seguimos el enlace de Windows, y tenemos dos "carpetas": base y contrib. Entramos en base, y tenemos el enlace a descargar el archivo de instalación para Windows. Si entramos en Contrib, tenemos una lista de directorios, podemos entrar en la versión que estemos instalando y descargar los paquetes adicionales que necesitemos.
La instalación se realiza mediante un asistente, como cualquier otro programa de Windows, que nos crea los accesos directos, y después de la instalación podemos arrancarlo. Para evitar errores posteriores con algunos paquetes, es mejor elegir la opción SDI cuando nos lo solicita. La versión para Windows incluye un GUI (Interfaz gráfico de usuario) desde el que utilizar el sistema. Esta es la pantalla principal del programa:

Una vez instalado, se pueden cargar paquetes adicionales. Por ejemplo, para cargar el paquete "survival", vamos al menú "paquetes", y seleccionamos el paquete survival.

También podemos instalar paquetes nuevos. En el menú paquetes, seleccionamos "Instalar paquetes". Primero nos pide seleccionar un "CRAN Mirror", de donde descargar. Debe ser próximo a nuestra ubicación. Al hacer clic en oq, obtenemos la lista de paquetes disponibles. Si por ejemplo queremos instalar el paquete qcc para control de calidad, lo buscamos, seleccionamos y hacemos clic en ok. La primera vez que instalamos un paquete, nos pregunta si queremos crear una carpeta para los paquetes, a lo que contestamos que sí.

Otra forma de instalar paquetes, es desde la consola, como se describe a continuación.

La interfaz gráfica nos va a permitir utilizar la consola del programa para ejecutar comandos, y también instalar paquetes y configurar el sistema. Pero si queremos utilizar realmente una interfaz gráfica e interactiva para el análisis, necesitaremos instalar el paquete "RCommander".

Para instalarlo, instalamos el paquete desde la consola con el comando:
install.packages("Rcmdr", dependencies=TRUE)

Instalación en Linux
Para la instalación en Linux, podemos elegir varios caminos:

Para los más expertos, se puede descargar el código fuente, para compilarlo. No voy a explicar esta modalidad porque (aún) no me cuento entre los expertos.
Los más comodones, pueden utilizar el gestor de paquetes de Synaptic (para distribuciones que incluyan esta opción, como Ubuntu o Molinux). Podemos instalar el paquete base (r-base), o bien un conjunto de paquetes recomendados, incluido el base (r-recommended)
La instalación más utilizada, es mediante la consola. Abrimos la consola y tecleamos la orden:

sudo apt-get install r-recommended

En el caso de Linux, no se instala de forma predeterminada ningún interfaz de usuario, para empezar a utilizarlo tenemos que abrir una consola y ejecutar el comando R.

Desde la consola podemos instalar paquetes nuevos mediante el comando install igual que se ha descrito en Windows.

Podemos instalar el paquete rkward como interfaz gráfica de usuario, que sirve tanto para utilizar la consola directamente, como para realizar análisis de datos, importación, etc. al estilo de SPSS.

De nuevo, podemos utilizar el gestor de paquetes, o la consola:

sudo apt-get install rkward

Esta es la ventana principal de rkward, desde la que se pueden realizar los análisis y también configurar el entorno e instalar paquetes adicionales:

También podemos instalar el paquete correspondiente para Linux de R-Commander, desde el gestor de paquetes, o la consola:

sudo apt-get install r-cran-rcmdr

También se puede instalar desde el intérprete de comandos de R, con la instrucción:

install.packages("Rcmdr", dependencies=TRUE)

Si se obtiene algún mensaje que falta algún paquete, instalarlo de la misma forma y repetir el comando.

En el próximo post entraré en el uso de la consola de comandos para las operaciones básicas.

miércoles, 21 de abril de 2010

Linux, Software libre, Estadística y más ...

En octubre de 2009, escribí mi primer post aprovechando que acababa de visitar SIMO NETWORK 2010.

Ahora que ya tenemos fecha para el próximo SIMO (5-7 de octubre de 2010), voy a cumplir mi promesa de escribir sobre Linux. Por cierto que en SIMO no hubo prácticamente nada de Linux, espero que en esta próxima edición no tengamos que decir lo mismo.

En los últimos meses me he puesto al día en cuanto a Linux y tecnologías libres en general. Tengo que decir que siempre he sido escéptico, pero después de varios meses probando cosas, he llegado a la conclusión de que no hay nada de lo que hago con Windows que no pueda hacer con Linux.

En esta primera incursión, voy a resumir mi experiencia de los últimos meses para después profundizar en cada tema.

Mi experiencia

Lo primero era elegir una distribución. En mi caso, elegí la distribución Molinux, proyecto de la Junta de Castilla la Mancha, que realmente es una "adaptación" de la distribución Ubuntu. La gran ventaja de Molinux es que dispone de soporte telefónico, además de otros recursos gratuitos de ayuda. También he probado el propio Ubuntu en el portátil, siendo la experiencia igual de satisfactoria.

La instalación es sencilla para el usuario "novato", y con amplias posibilidades de personalización para el experto.

Me han sido de gran ayuda los recursos del Centro de Excelencia de Software Libre de Castilla la Mancha, donde se puede uno inscribir en los cursos gratuitos y aprender todo lo necesario para manejar linux, tanto a nivel de usuario como de administrador.

Aplicaciones

En cuanto a las aplicaciones que he utilizado, paso a resumirlas para desarrollarlas en posteriores posts:

Diseño gráfico.- Para la edición de imágenes, he pasado a utilizar GIMP en sustitución de Photoshop. Sólo se trata de acostumbrarse a usarlo, porque se puede hacer de todo, sobre todo instalando los plugins que uno necesite.
Edición de vídeo.- En windows he utilizado Pinnacle Studio, Nero Visión, y otros. Ahora utilizo KINO, que una vez conoces cómo funciona es la mar de sencillo, y rápido (una vez tenemos los archivos en formato DV)
Multimedia.- VLC me ha enamorado desde que lo conocí, y a todas mis amistades se lo instalo en Windows. Brasero es otro imprescindible.
Ofimática.- De sobra conocido es el proyecto OpenOffice.org. No echo de menos nada de MS.
Internet.- Aunque el navegador por excelencia de Linux es Firefox (ya lo usaba en Windows) utilizo principalmente Chrome. Otras aplicaciones para Internet, como Transmission, Evolution o Tucan, cumplen con sus cometidos a la perfección. El cliente de Terminal Server, es muy útil y funciona perfectamente para conectar a equipos Windows que tengamos que controlar.
Programación.- A efectos de aprendizaje, he utilizado simplemente el editor de textos GEdit, que reconoce la sintaxis de cantidad de lenguajes de programación, y compiladores libres (g++, gcc, fpc), con lo que uno puede seguir bibliografía o asignaturas de programación sin necesidad de aplicaciones propietarias, como Turbo Pascal o Turbo C++. Existen también IDE con muy buenas prestaciones, como Lazarus (Pascal), o Anjuta. Incluso es posible desarrollar aplicaciones para plataformas Windows con el Proyecto Mono. Para el diseño de páginas web al estilo WYSIWYG, la aplicación Amaya es la indicada, aunque yo prefiero menos automatización y escribir código directamente.
Servicios de Internet.- La configuración de un servidor básico de Internet con Apache, php y mySql me resultó realmente sencilla.
Otras utilidades que me son muy útiles son pyRenamer (renombrado de archivos), VirtualBox (Máquinas virtuales), XMind (mapas mentales).
Educación.- La distribución de Molinux versión educativa viene con gran cantidad de aplicaciones educativas y lúdicas que se agradecen mucho para los pequeños de la casa.
Análisis estadístico. Por último, y este es el campo donde más quiero profundizar posteriormente, me ha sorprendido la existencia del "Proyecto R". Después de unos años apartado en parte de mi profesión de Estadístico, he vuelto a "La Complu" para estudiar el Grado en Estadística Aplicada para Diplomados en Estadística, y se han despertado en mí las ganas de aunar la filosofía del software libre con el análisis estadístico, para beneficio especialmente de la Investigación, pero también de la industria y la docencia. Ya lo he instalado, y espero ponerme al día con esta herramienta gracias al libro libre de la Universidad de Cádiz. Algunos de los puntos fuertes son: La cantidad de información disponible sobre el proyecto, la cantidad de paquetes adicionales para ampliar funcionalidad (p.ej. qcc para control de Calidad), y la existencia de GUI's, como RKWard, para hacer la vida más fácil al investigador/analista.

Lo que aún no he probado

Tengo ganas de meterle mano a aplicaciones de Gestión de Proyectos, me consta que hay muy buenas aportaciones que quiero probar.

Quiero aprender a programar en Java y php, mi asignatura pendiente. También para programar aplicaciones móviles. A mi ipaq hw6815 ya se le está poniendo cara de pingüino.

El lado oscuro

Hay que decir que no todo es un camino de rosas. Lo que más me ha costado es la configuración de determinado hardware. Con cierto esfuerzo, he podido configurar una impresora de red HP, y todavía me estoy "peleando" con los drivers la tarjeta gráfica ATI.

Aunque en las versiones de Molinux y Ubuntu todo es muy sencillo, para ciertas tareas hay que tener algo de idea de informática, y el "gran público" aún no está preparado para prescindir de su Windows. Pero cada día hay nuevas iniciativas para salvar estos inconvenientes, y sólo es cuestión de tiempo una implantación mayor.

De todas formas merece la pena, y pienso seguir progresando en este nuevo (para mí) paradigma de las tecnologías de la información.

Conclusión

Lo mejor de todo, creo que se resume en que podemos elegir. El que prefiera Windows, que siga con él (no se trata de estar a favor o en contra). Pero ya no hay excusas para no probar Linux.