Introducing G2.ai, the future of software buying.Try now

La importancia de la calidad de los datos y la comoditización de los algoritmos

15 de Marzo de 2022
por Matthew Miller

Algoritmos. Algorítmico. Aprendizaje automático. Aprendizaje profundo. Si estás leyendo este artículo, hay una buena probabilidad de que te hayas encontrado con estos términos en algún momento. Probablemente un algoritmo te recomendó este artículo. El término general para todo lo anterior es inteligencia artificial (IA), que toma datos de diferentes tipos y te proporciona predicciones o respuestas basadas en eso. Hay una buena probabilidad de que te hayas beneficiado de esta tecnología de alguna manera, ya sea en una aplicación de mapas, búsqueda de imágenes de tu minorista favorito o autocompletado inteligente.

Sin embargo, te voy a contar un pequeño secreto. A veces, quizás la mayoría de las veces, el éxito de cualquier proyecto de IA no reside en el algoritmo que elijas. Más bien, la clave está en los datos que tienes, el estado en el que se encuentran y las etiquetas que tienen.

En G2, hemos visto dos tendencias que destacan esto:

  • Aumento de herramientas centradas en la etapa de datos del viaje de IA
  • Aumento de soluciones de IA sin código y de bajo código

Datos impecables son clave

Los datos son el cerebro de tu organización. Dan vida y significado a tu negocio, ya sea a través del análisis de datos de la empresa o con el uso de datos en IA.

Sin embargo, el dicho "basura entra, basura sale" (o "rubbish in, rubbish out" para nuestros amigos británicos) debe ser tenido en cuenta. Un algoritmo es tan bueno como los datos con los que se entrena. Supongamos que los datos son de baja calidad, es decir, no están etiquetados correctamente, están llenos de errores, desajustes de tipo de datos, etc. En ese caso, probablemente no hará predicciones precisas o útiles.

Con eso en mente, el software de calidad de datos y el software de preparación de datos pueden ayudar a las empresas a tomar el control de sus datos y asegurarse de que estén impecables.

Desbloqueando el poder de los datos

Una vez que la empresa ha reconocido el poder y la potencia de los datos, puede y debe empezar a pensar en grande. Incluso si no tienen el conjunto de datos más grande de la ciudad, si es propietario, aún pueden tener una ventaja competitiva. Cuando se trata de conjuntos de datos, la empresa impulsada por datos de 2022 tiene acceso a una serie de conjuntos de datos abiertos y fácilmente disponibles, como los disponibles en Dataset list. Sin embargo, dado que cualquiera tiene acceso a estos datos, no proporciona una ventaja competitiva. Si una empresa tiene acceso a datos propietarios, puede garantizar su calidad y tenerlos todos para sí misma. 

Los datos no son como una mascota de chía, en el sentido de que no puedes echarles agua para que crezcan. Sin embargo, lo que puedes hacer es explorar varios recursos para expandir tus datos ya impecables, tales como:

  • Datos sintéticos son útiles ya que son falsos pero estadísticamente idénticos al conjunto de datos original, lo que permite el análisis de datos y el aprendizaje automático sin preocupaciones de privacidad.
  • Enriquecimiento de datos ayuda a las empresas a encontrar datos o conjuntos de datos relacionados a través de software de intercambio de datos y algunas plataformas de ciencia de datos y aprendizaje automático. Este enriquecimiento de datos puede ayudar a mejorar la precisión de los modelos, ya que el conjunto de datos enriquecido contiene datos nuevos y ampliados.
  • Etiquetado de datos es clave para entrenar modelos en datos no estructurados. Los datos no estructurados, como imágenes, audio y texto, son esencialmente como un misterio envuelto en un enigma sin etiquetas. Como se ve a continuación, ¿cómo puede una computadora obtener el contexto necesario para entender la diferencia entre un chihuahua y un muffin? La respuesta está en el etiquetado de datos. A través de este proceso, se puede construir un conjunto de datos de miles de imágenes etiquetadas definitivamente como chihuahua y muffin. Esto, a su vez, ayudará al algoritmo a determinar entre las dos imágenes ingresadas.
Galería de fotos llena de imágenes de chihuahuas y muffins

Fuente: Twitter

Amamos los modelos, pero…

El enfoque en el paso de los datos en el viaje del aprendizaje automático es prudente y está en aumento. Históricamente, especialmente al observar datos estructurados, había mucho enfoque en el entrenamiento real de modelos, utilizando métodos probados como la regresión lineal. Esto incluía la selección de características (elegir qué características son esenciales para el modelo) y la selección de modelos. Estas tareas eran críticas para asegurar que las predicciones fueran precisas y que los mejores modelos pudieran ser elegidos y puestos en producción.

Sin embargo, estamos viendo el auge de la tecnología más fácil de usar, como aprendizaje automático de bajo código y sin código y tecnología relacionada como el aprendizaje automático automatizado (AutoML).

Leer más: Democratizando la IA con plataformas de aprendizaje automático de bajo código y sin código

Como señala el analista asociado de investigación de mercado de G2 Amal Joby:

Con esta proliferación viene la comoditización de los algoritmos, ya que los científicos de datos y los desarrolladores ciudadanos pueden tomar un algoritmo de la estantería y desplegarlo rápidamente. En G2, hemos visto la importancia de los algoritmos preconstruidos. Los revisores en el Informe Grid® de G2 para Plataformas de Ciencia de Datos y Aprendizaje Automático para el invierno de 2022 calificaron altamente los productos principales en el Grid® por sus algoritmos preconstruidos. El producto número uno, basado en la puntuación de G2, obtuvo un 9 de 10 por sus algoritmos preconstruidos. Esto muestra que para que un producto de ciencia de datos sea altamente calificado, debe tener algoritmos preconstruidos.

Los algoritmos preconstruidos pueden usarse tanto para realizar un análisis rápido de datos como para usar esos datos para hacer predicciones. Por ejemplo, un gerente de producto en un minorista de zapatos puede usar estas herramientas para optimizar fácilmente su aplicación móvil, cambiando dinámicamente el banner en una página de producto según el comportamiento del usuario.

Este cambio de enfoque de los modelos (pasos 3 y 4 en el viaje de ciencia de datos a continuación) también conduce a una tendencia diferente: la colisión de análisis e IA. 

Los 5 pasos en el viaje de ciencia de datos-ingesta de datos, preparación y construcción de modelos, entrenamiento, despliegue

Por ejemplo, en G2, el ex director de marketing de producto de Kraken (ahora Qlick AutoML) dijo:

 "Kraken es principalmente una plataforma construida para analistas de datos o analistas de negocios sin un profundo entendimiento de la ciencia de datos. Como tal, tratamos de automatizar tanto como sea posible el trabajo de ciencia de datos y actualmente no soportamos características de nivel experto como la afinación de hiperparámetros." 

A medida que las herramientas de análisis proporcionan a los usuarios modelos predictivos listos para usar, los analistas de datos y los científicos de datos de diferentes niveles de experiencia pueden colaborar en el uso de esos datos para derivar ideas y construir aplicaciones impulsadas por datos. Esto es algo que se intensificará en el futuro cercano.

Editado por Sinchana Mistry

¿Quieres aprender más sobre Plataformas de Ciencia de Datos y Aprendizaje Automático? Explora los productos de Plataformas de Ciencia de Datos y Aprendizaje Automático.

Matthew Miller
MM

Matthew Miller

Matthew Miller is a research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.