Durante los últimos años ha habido una explosion de producción de datos. El crecimiento exponencial de la capacidad de almacenamiento, procesamiento y memoria en sistemas de cómputo y de bases de datos ha permitido no sólo producir y analizar cada vez más cantidades superiores y diferentes de datos. Pero qué tipo de datos hay: Los datos pueden ser estructurados (SQL, XSL), semi-estructurados (encuestas) y no estructurados (los tuits que se comparten en Twitter, por ejemplo).
Por otro lado, un dato es una representación de algo que puede ser traducido a números o letras (datos numéricos y alfabéticos) y que tiene un valor asignado. Los datos que nos son útiles se caracterizan por ser:
- Válidos, es decir que sean relevantes
- Verificables, es decir que se puedan contrastar
Los datos que nos interesan, siempre están en el pasado: Solo son útiles los datos que se han generado en el pasado, los llamados datos históricos. Al almacenar grandes cantidades de datos historicos, como por ejemplo historias de compras de los clientes en una cadena de supermercados, o la historia de las transacciones de una empresa telecom o un banco grande, es posible hacer análisis predictivos para entender como van a actuar los clientes en el futuro.
De esta manera podemos predecir qué productos comprarán diferentes segmentos de clientes de una cadena de supermercados, y así dirigir campañas de marketing hechas “medida de sastre”. O podemos predecir cuáles son los clientes individuales que están en peligro de dejar un servicio de telecomunicaciones; o usar datos de las transacciones de clientes de un banco para integrarlos con otras fuentes de información y predecir niveles de pago o riesgo de impagos.
Lo importante es entender que hoy por efecto de la digitalización de procesos, todas las organizaciones ya cuentan con algún nivel de datos relevantes a los que es conveniente “hacer hablar”. Y eso puede ser relativamente simple, como explicaremos en las siguientes entradas.
DPS