Arkon Data Blog: Raise organizational intelligence.

7 pasos para asegurar lograr un proyecto de machine learning exitoso

Escrito por Aarón Mancera | 22/03/2023 01:11:17 AM

¿Cuál es el alcance de los datos y hasta dónde puedo llegar con ellos? Quizá es una pregunta que te has hecho al lado de tu equipo para plantear nuevos proyectos o tus líderes te lo han cuestionado. La respuesta depende de hasta qué punto se desea llegar y bajo qué estándares.

El aprendizaje automático es, uno de los objetivos que puede pretender un área, departamento u organización, y es mejor conocido como machine learning (ML), término que utilizaremos a lo largo de este blog. Sin embargo, para llegar a esa meta, previamente deben optimizarse ciertos pasos, y que éstos a su vez sean llevados a cabo cumpliendo ciertos lineamientos.

Uno de esos pasos es la calidad de datos, primordial para que un proyecto de machine learning alcance el éxito, ¿por qué? El diseño y construcción de un plan de tal impacto tecnológico e informativo puede analizarse de una forma sencilla si te colocas en la posición de un auténtico chef.

Imagina que eres un as de la cocina y decides hacer un platillo el cual ya dominas y estás listo para preparar. Para comenzarlo, te encargas de tener una área para cocinar con ciertas características, utensilios y lo más importante, los ingredientes adecuados.

Al contar con lo necesario, más tú conocimiento, el platillo quedará listo para degustar y en un futuro podrás mejorarlo a partir de tu experiencia, pero ¿qué pasaría si tus ingredientes están podridos o no son de calidad? definitivamente el platillo no saldrá tan delicioso por más experto que seas en la cocina y por más condimentos que agregues; incluso se vuelve un riesgo de enfermedad consumir el resultado. Esto mismo pasa con el machine learning y los datos; si tus ingredientes, que son los datos, no son confiables, precisos y no tienen propiedades que cumplan ciertos requisitos, por más que tengas al equipo perfecto, el proyecto final será igual de inconsistente o simplemente no funcionará, situación que se traduce en pérdida de tiempo y recursos.

Si un proyecto de machine learning falla, las exploraciones de datos, respuestas a tendencias o patrones y proyecciones, serán inexactas; lo cual provocará que una decisión de negocio no cuente con las bases suficientes para ser ejecutada.

 

Influencia de la calidad de datos en los modelos y rendimiento del machine learning

Es una realidad que con el paso del tiempo, tecnologías y herramientas como la inteligencia artificial y el machine learning comienzan a consolidarse más en el mercado con el fin de impulsar el desarrollo de diversas industrias.

Hablando de machine learning, es importante subrayar que, por la naturaleza de sus objetivos, como el análisis o proyecciones, éste requiere de un desarrollo constante para mejorar su velocidad de respuesta o la perfección de resultados y pronósticos, y esto solo es realizable si se cuenta con datos de buena calidad; la relación entre la precisión de información y el progreso de un modelo de aprendizaje es simultánea, pues el último solo será tan bueno como lo sean los datos.

Un eslabón más a considerar en esta cadena tecnológica es el algoritmo, que alimenta los modelos de aprendizaje a partir de patrones de datos. Es por ello que es relevante hablar del papel de la calidad en áreas tan costosas como el machine learning.

¿Cómo afectan los datos incorrectos a un proceso de machine learning? Existen formas distintas en que la información altera un modelo de aprendizaje:

  • Procesos deficientes: Si los datos de referencia para detectar patrones contienen errores o valores inexactos, será más difícil que la etapa de pruebas funcione adecuadamente.
  • Análisis incompleto: Un modelo de ML requiere de volumen de datos; entre más información, mejor será el análisis, y si este no cuenta con información, su tarea será ineficiente.
  • Alteración predictiva: El mal comportamiento de los datos en un proceso de aprendizaje también puede ser el no deseado, lo que afecta en comprender cómo predecir.

La calidad de datos impacta directamente en cómo puede desempeñarse o trascender un modelo de machine learning, por lo que es deseable que atiendas sus problemas a detalle.

 

El rol de la calidad de datos en un proceso de machine learning

Aplicar un modelo de machine learning, si bien no es simple, sí es posible seguir ciertos pasos para garantizar que este se aplicará bajo estándares respecto a la calidad de datos con los que se trabajará, que en esta ocasión dividiremos en 7:

  1. Perfila tus datos: El descubrimiento de tu información será un indicador acerca de lo que tienes disponible para así comenzar a explotar tus datos.
  2. Establece garantías: Una vez que conoces los datos a disposición, establece lineamientos para segmentar qué sí cumple con estándares de calidad y qué no.
  3. Valida la calidad: La revisión de la calidad de tus datos debe ser un proceso contínuo, hazlo constantemente para minimizar los errores.
  4. Limpia y transforma: La limpieza de datos te ayudará a dejar fuera duplicados, errores, e inconsistencias.
  5. Elige correctamente: El desempeño de un modelo de machine learning se relaciona directamente con los datos disponibles; elige el que más se alinee a tus recursos.
  6. Explota tu conocimiento: Aplica la ingeniería adecuada para potencializar, aprender y pronosticar a través de los datos.
  7. Prueba y aplica: Antes de ejecutar un modelo, prueba hasta el más mínimo detalle. Así sabrás si está listo o no para aplicarse.

Asegurar que los datos cuentan con buena calidad tiene efectos positivos como lo desglosan los 7 puntos anteriores, pero más allá de ellos, hay acciones indispensables que le dan un sentido a la calidad de datos. A continuación lo especificamos.

 

¿Cómo mantener la calidad de datos adecuada?

A lo largo de este contenido hemos compartido el impacto sobre un modelo de machine learning a partir de la calidad de datos, pero si te preguntas cómo mantenerla, en seguida se desglosan las mejores prácticas, las cuales no solo funcionan, sino que son indispensables.

 

Riguroso control y perfilado de datos

Uno de los errores iniciales que se podría tener es el no controlar la entrada de la información a una empresa, ésta puede provenir de diferentes fuentes que no tienen control o incluso de terceros. Es crucial una práctica y herramienta eficaz de perfilado de datos que detecte patrones, formatos, valores e inconsistencias1

Procesamiento y limpieza de datos

Haber realizado previamente un proceso de limpieza que estandarice los datos, además de mejorar el desempeño, suprime los riesgos o comportamientos inadecuados en el modelo de aprendizaje automatizado.

Visualización de datos

Tener una visualización ayuda a comprender de mejor forma los patrones, tendencias y el rendimiento de un modelo de machine learning.

Lineamientos de uso de datos

Establecer políticas o reglas para el uso que se le dará a una base de datos favorece al filtrado de los mismos para su posterior recolección y usabilidad.

La calidad de datos por sí misma impulsa la estrategia de machine learning, sin embargo, la selección de información y apartados de una base de datos funge como filtro para determinar con lo que trabaja un algoritmo. Con ello, hay que conocer a profundidad el rol de estas características en estos procesos.

 

El rol de la ingeniería de características en machine learning

La ingeniería de características o feature engineering es un elemento que le da vida a un proceso de machine learning, se encarga de extraer y usar los datos para hacer funcionar los algoritmos efectivamente. Bajo esa premisa, hay 3 pasos que involucran al feature engineering2:

  • Selección de características: es útil para reducir las variables o descartar características que no aportan lo suficiente al modelado.
  • Extracción de características: este paso tiene como meta combinar características ya existentes con otras nuevas y así darle un impulso al algoritmo.
  • Creación de nuevas características: Adoptar nuevos features también es posible una vez que se recopilan datos, así se amplia el panorama sobre tu información.

Las 3 características, a pesar de tener un proceso independiente, no pueden desentenderse de la calidad de datos pues ambos procesos son co-dependientes.

 

Monitoreo de datos en machine learning

Finalmente, el crecimiento del machine learning hoy en día abre muchas puertas tanto para las experiencias de clientes como para una mejora competitiva de las empresas. Derivado de lo anterior, mantener alta calidad en datos se vuelve más relevante.

Podría pensarse que cuando los datos ya sirvieron para la fase de entrenamiento o para la creación de un modelo de machine learning hay que olvidarnos de ellos, no obstante, cuidar su calidad aún es importante, tanto en la fase intermedia como en la de despliegue o ejecución. Para cumplir con esto último hay que poner especial atención en fallas graves que pueden mermar tu desarrollo en este tipo de proyectos tecnológicos.

Las fallas a las que hacemos referencia son:

  • Cardinality shifts. Se refiere a la mala categorización de datos, por ejemplo, si eres un vendedor de neumáticos, no puedes darle al modelo datos tanto de motocicletas como de automóviles, pues esto arrojaría pronósticos erróneos sobre su consumo.
  • Discrepancia en datos. Para no tener resultados con discrepancias a partir de diferencias entre el modelo y los datos, se debe trabajar sobre la confiabilidad de la información y si hubo cambios en ella, alinear los datos.
  • Datos faltantes: ¿Imaginas que durante un proceso de machine learning se detecte que falta información? Eso podría alterar todo lo trabajado y la solución radica en no reiniciar el proceso, sino detectar dónde está el campo faltante o hacerse de variables como la media, el promedio o alguna otra métrica.
  • Datos fuera de rango: Se refiere a qué tanto los datos proporcionados al modelo como los de la base de datos son los mismos, hay que cuidar que si se especifica un año de ventas, como por ejemplo el 2010, la base no brinde una venta del 2011.

Conclusión

El mercado y el avance tecnológico cada vez exige más al uso de los datos, y si este es el camino a seguir nos debemos de asegurar que el tratamiento de los mismos busque la perfección. Una forma de hacerlo es mediante el tratamiento de la calidad debido a que este proceso beneficiará y aportará a la implementación de tecnologías como la inteligencia artificial y el machine learning.

En Arkon Data buscamos esa calidad, misma que obtenemos a partir de estrategias como la limpieza, estandarización y validación de datos. Contamos con la capacidad para que las empresas obtengan soluciones en la gestión de altos volúmenes de datos y brindamos un acompañamiento para quienes desean adoptar nuevas tecnologías para tomar decisiones de negocio y evolucionar sus empresas.

1 Stephanie Shen, 2019.

2 Sanidhya Agrawal, 2020.