¿Cuál es el alcance de los datos y hasta dónde puedo llegar con ellos? Quizá es una pregunta que te has hecho al lado de tu equipo para plantear nuevos proyectos o tus líderes te lo han cuestionado. La respuesta depende de hasta qué punto se desea llegar y bajo qué estándares.
El aprendizaje automático es, uno de los objetivos que puede pretender un área, departamento u organización, y es mejor conocido como machine learning (ML), término que utilizaremos a lo largo de este blog. Sin embargo, para llegar a esa meta, previamente deben optimizarse ciertos pasos, y que éstos a su vez sean llevados a cabo cumpliendo ciertos lineamientos.
Uno de esos pasos es la calidad de datos, primordial para que un proyecto de machine learning alcance el éxito, ¿por qué? El diseño y construcción de un plan de tal impacto tecnológico e informativo puede analizarse de una forma sencilla si te colocas en la posición de un auténtico chef.
Imagina que eres un as de la cocina y decides hacer un platillo el cual ya dominas y estás listo para preparar. Para comenzarlo, te encargas de tener una área para cocinar con ciertas características, utensilios y lo más importante, los ingredientes adecuados.
Al contar con lo necesario, más tú conocimiento, el platillo quedará listo para degustar y en un futuro podrás mejorarlo a partir de tu experiencia, pero ¿qué pasaría si tus ingredientes están podridos o no son de calidad? definitivamente el platillo no saldrá tan delicioso por más experto que seas en la cocina y por más condimentos que agregues; incluso se vuelve un riesgo de enfermedad consumir el resultado. Esto mismo pasa con el machine learning y los datos; si tus ingredientes, que son los datos, no son confiables, precisos y no tienen propiedades que cumplan ciertos requisitos, por más que tengas al equipo perfecto, el proyecto final será igual de inconsistente o simplemente no funcionará, situación que se traduce en pérdida de tiempo y recursos.
Si un proyecto de machine learning falla, las exploraciones de datos, respuestas a tendencias o patrones y proyecciones, serán inexactas; lo cual provocará que una decisión de negocio no cuente con las bases suficientes para ser ejecutada.
Es una realidad que con el paso del tiempo, tecnologías y herramientas como la inteligencia artificial y el machine learning comienzan a consolidarse más en el mercado con el fin de impulsar el desarrollo de diversas industrias.
Hablando de machine learning, es importante subrayar que, por la naturaleza de sus objetivos, como el análisis o proyecciones, éste requiere de un desarrollo constante para mejorar su velocidad de respuesta o la perfección de resultados y pronósticos, y esto solo es realizable si se cuenta con datos de buena calidad; la relación entre la precisión de información y el progreso de un modelo de aprendizaje es simultánea, pues el último solo será tan bueno como lo sean los datos.
Un eslabón más a considerar en esta cadena tecnológica es el algoritmo, que alimenta los modelos de aprendizaje a partir de patrones de datos. Es por ello que es relevante hablar del papel de la calidad en áreas tan costosas como el machine learning.
¿Cómo afectan los datos incorrectos a un proceso de machine learning? Existen formas distintas en que la información altera un modelo de aprendizaje:
La calidad de datos impacta directamente en cómo puede desempeñarse o trascender un modelo de machine learning, por lo que es deseable que atiendas sus problemas a detalle.
Aplicar un modelo de machine learning, si bien no es simple, sí es posible seguir ciertos pasos para garantizar que este se aplicará bajo estándares respecto a la calidad de datos con los que se trabajará, que en esta ocasión dividiremos en 7:
Asegurar que los datos cuentan con buena calidad tiene efectos positivos como lo desglosan los 7 puntos anteriores, pero más allá de ellos, hay acciones indispensables que le dan un sentido a la calidad de datos. A continuación lo especificamos.
A lo largo de este contenido hemos compartido el impacto sobre un modelo de machine learning a partir de la calidad de datos, pero si te preguntas cómo mantenerla, en seguida se desglosan las mejores prácticas, las cuales no solo funcionan, sino que son indispensables.
Uno de los errores iniciales que se podría tener es el no controlar la entrada de la información a una empresa, ésta puede provenir de diferentes fuentes que no tienen control o incluso de terceros. Es crucial una práctica y herramienta eficaz de perfilado de datos que detecte patrones, formatos, valores e inconsistencias1.
Haber realizado previamente un proceso de limpieza que estandarice los datos, además de mejorar el desempeño, suprime los riesgos o comportamientos inadecuados en el modelo de aprendizaje automatizado.
Tener una visualización ayuda a comprender de mejor forma los patrones, tendencias y el rendimiento de un modelo de machine learning.
Establecer políticas o reglas para el uso que se le dará a una base de datos favorece al filtrado de los mismos para su posterior recolección y usabilidad.
La calidad de datos por sí misma impulsa la estrategia de machine learning, sin embargo, la selección de información y apartados de una base de datos funge como filtro para determinar con lo que trabaja un algoritmo. Con ello, hay que conocer a profundidad el rol de estas características en estos procesos.
La ingeniería de características o feature engineering es un elemento que le da vida a un proceso de machine learning, se encarga de extraer y usar los datos para hacer funcionar los algoritmos efectivamente. Bajo esa premisa, hay 3 pasos que involucran al feature engineering2:
Las 3 características, a pesar de tener un proceso independiente, no pueden desentenderse de la calidad de datos pues ambos procesos son co-dependientes.
Finalmente, el crecimiento del machine learning hoy en día abre muchas puertas tanto para las experiencias de clientes como para una mejora competitiva de las empresas. Derivado de lo anterior, mantener alta calidad en datos se vuelve más relevante.
Podría pensarse que cuando los datos ya sirvieron para la fase de entrenamiento o para la creación de un modelo de machine learning hay que olvidarnos de ellos, no obstante, cuidar su calidad aún es importante, tanto en la fase intermedia como en la de despliegue o ejecución. Para cumplir con esto último hay que poner especial atención en fallas graves que pueden mermar tu desarrollo en este tipo de proyectos tecnológicos.
Las fallas a las que hacemos referencia son:
El mercado y el avance tecnológico cada vez exige más al uso de los datos, y si este es el camino a seguir nos debemos de asegurar que el tratamiento de los mismos busque la perfección. Una forma de hacerlo es mediante el tratamiento de la calidad debido a que este proceso beneficiará y aportará a la implementación de tecnologías como la inteligencia artificial y el machine learning.
En Arkon Data buscamos esa calidad, misma que obtenemos a partir de estrategias como la limpieza, estandarización y validación de datos. Contamos con la capacidad para que las empresas obtengan soluciones en la gestión de altos volúmenes de datos y brindamos un acompañamiento para quienes desean adoptar nuevas tecnologías para tomar decisiones de negocio y evolucionar sus empresas.
1 Stephanie Shen, 2019.2 Sanidhya Agrawal, 2020.