Contar con la máxima calidad de la información es vital en el mundo de las Apuestas Deportivas.

Las casas de apuestan obtienen su casi total hegemonía en el mercado gracias a un poder de información que no está al alcance del inversor particular. Eso ya lo sabemos. Lo interesante aquí es saber que la información es el producto de la organización de los datos. Concretamente, el flujo es el siguiente: de los datos sacamos la información, de la información obtenemos el conocimiento y con el conocimiento tomamos las acciones que se necesitas para la consecución de nuestros objetivos. Esto es así en prácticamente todos los procesos de toma de decisión y, a grandes rasgos, esta es la forma en la que las casas de apuestas fijan los precios (cuotas). Por lo tanto, de lo que hablamos, en origen, es de los datos.

Los datos son las unidades mínimas de información que manejamos en nuestra toma de decisiones. Por si solos carecen de mucha importancia. Por ejemplo, el nombre de un equipo no nos da valor, pero si lo unimos con el número de goles de media que obtiene podemos empezar a inferir su comportamiento futuro, y esto sí es valioso. Manejar unos datos íntegros y que sean fieles a la realidad es crucial para tomar buenas decisiones.

El trabajo de los datos comienza con su obtención. Para ello existen muchas técnicas, pero detallarlas excedería el objetivo de este tema. A modo ilustrativo, podemos hablar de que la captura de los datos puede venir de fuentes como dispositivos de sensorización, redes sociales, bases de datos administradas, etc.

En este punto, podemos diferenciar los datos en dos grandes categorías: los datos estructurados y los datos no estructurados.

  • Datos estructurados: los datos estructurados son los que, típicamente, podemos encontrar en bases de datos estructuradas o relacionales (RDBMS). Éstos se organizan en tabla con filas y columnas. Las tablas se organizan con un esquema de bases de datos. Ejemplos de esta tipología serían las bases de datos SQL como Oracle, MySQL, SQL Server, PostgreSQL, o incluso documentos de Access y Excel. También podemos encontrar dentro de los datos no estructurados ficheros de texto plano, como los CSV.
  • Datos no estructurados: los datos no estructurados hacen referencia a todos esos datos que no siguen un esquema predefinido. Suponen el 80% de la totalidad de los datos que se generan en mundo. Estos datos son muy difíciles de tratar, pero presentan un altísimo potencial de valor. Ejemplos de estos datos serían videos, audios, correos electrónicos, mensajes de redes sociales, etc.

También se suele hablar de una tercera categoría que serían los datos semiestructurados. Éstos hacen referencia a formatos que no tienen un esquema definido con anterioridad, pero que sí siguen un orden o jerarquía que permite ordenarlos y trabajarlos. Dentro de esta categoría podríamos encontrar ficheros de tipo XML, JSON o las bases de datos NOSQL.

Una vez disponemos de los datos, y más allá de su categoría, es capital entender y diseñar un plan para garantizar la máxima calidad de los mismos. Para ello, no sólo hay que prestar atención a las características que presentan los datos, sino también a los procesos en los que intervienen.

Comúnmente se diseñan planes estratégicos para la garantía de calidad de los datos en torno a dimensiones como la disponibilidad, la usabilidad, la confiabilidad, la pertinencia y la calidad de presentación.

A continuación, exponemos varios elementos relativos a las estrategias de gestión de la calidad de los datos:

  • Accesibilidad: representa la facilidad, o falta de ella, con la que se pueden obtener esos datos. ¿Son gratuitos o de pago? ¿Tienen algún tipo de licencia de uso? Este tipo de barreras harán que los datos sean más o menos accesibles y esto tendrá un impacto directo en el negocio.
  • Oportunidad: este requisito engloba nociones como si el dato va a llegar a tiempo, si la frecuencia de actualización de los datos es la correcta o si las necesidades de tratamiento de los datos van a permitirnos realizar el análisis objetivo.
  • Credibilidad: es importante también atender al origen del dato. No es lo mismo que el emisor sea una entidad de renombre o que sea una fuente anónima. Siempre que podamos, miraremos si el autor está auditado o si goza de suficiente renombre como para estar cómodos con él.
  • Exactitud: importancia de que los datos representen fielmente una realidad, sin ambigüedades. Los datos tienen que ser precisos.
  • Consistencia: los datos tienen que ser verificables a lo largo del tiempo. Los conceptos que representan tienen que mantenerse inmutables a pesar de su procesamiento.
  • Integridad: necesidad de que los datos presente una conformidad con las reglas definidas.
  • Completitud: todos los atributos de los datos tienen que estar presentes en él.
  • Coherencia: un dato representa el mismo valor a través de diversos grupos o fuentes.
  • Validez: los datos que se contienen son los correcto.
  • Legibilidad: los datos tienen que ser comprensibles y claros. Se tiene que adecuar a su descripción, clasificación y contenido. Los datos tienen que ser fáciles de entender, en la medida de los posible.
  • Auditabilidad: los cambios que se realicen a los datos han de ser rastreables y replicables. Tenemos que ser capaces de identificar datos que han sido alterados respecto a su origen.

Posibles problemas de calidad de datos

Conociendo ya las categorías o variables que hay que analizar para una correcta gestión de la calidad de nuestros datos, vamos a ver que posibles problemas nos podemos encontrar.

En el siguiente listado podemos ver más concretamente algunos problemas que nos podemos encontrar:

  1. Datos erróneos: puede ocurrir cuando tenemos datos que no se ajustan a la realidad. Por ejemplo, podríamos tener cuotas de eventos incorrectas que no son las que ofertaron las bookies en su momento. Este tipo de errores se puede dar por distintas causas, como que la información ha podido cambiar y la que tenemos se ha quedado obsoleta o debido a errores humanos o por una ambigüedad derivada de la falta de entendimiento del dato.
  2. Datos duplicados: podría darse el caso de que estuviéramos almacenando en nuestra base de datos la misma información más de una vez. Por ejemplo, podríamos estar guardando el mismo partido de fútbol dos veces. A la hora de realizar nuestros análisis, este registro sobreponderaría la media de victorias del equipo ganador de ese evento, distorsionando nuestra toma de decisiones.
  3. Datos incompletos: también nos podríamos encontrar con datos en blanco. Estos errores son especialmente sensibles porque es difícil conocer que se están cometiendo. Si, por ejemplo, se nos olvidase informar en nuestra base de datos todos los partidos que finalizaron en empate para un determinado equipo, no identificaríamos la propensión al empate de éste, excluyéndolo de nuestros modelos o análisis futuros.
  4. Formatos incoherentes: éste es otro de los típicos errores que se pueden encontrar en los datos: tener los datos en de diferentes formas y que esto conlleve errores de interpretación. Por ejemplo, podríamos tener la fecha en uno u otro formato y confundir los días con los meses.
  5. Falta de dependencias: la falta de algunos datos podría ocasionar un incompleto conocimiento o análisis de la situación que estamos trabajando. Por ejemplo, si no tenemos informada la liga de un determinado encuentro, cuando agrupemos por liga para sacar la media de empates de ésta no sumaremos el encuentro, desvirtuando la realidad de la información generada.
  6. Diferentes magnitudes de medida: si, por ejemplo, guardamos en un campo la cuota de un evento en euros y en otro campo en céntimos de euro cuando las comparemos o sumemos estaremos cometiendo un error grave.

En AlphaPicks, conscientes de la importancia de la calidad de los datos, prestamos especial atención a los conceptos descritos en este post para ofrecer un servicio con las máximas garantías posibles.