Algorithmen. Algorithmisch. Maschinelles Lernen. Deep Learning. Wenn Sie diesen Artikel lesen, besteht eine gute Chance, dass Sie diese Begriffe schon einmal gehört haben. Ein Algorithmus hat Ihnen wahrscheinlich diesen Artikel empfohlen. Der Oberbegriff für all das ist künstliche Intelligenz (KI), die Daten verschiedener Art nimmt und Ihnen darauf basierend Vorhersagen oder Antworten liefert. Es ist sehr wahrscheinlich, dass Sie in irgendeiner Weise von dieser Technologie profitiert haben, sei es in einer Kartenanwendung, bei der Bildersuche Ihres Lieblingshändlers oder bei der intelligenten Autovervollständigung.
Ich werde Ihnen jedoch ein kleines Geheimnis verraten. Manchmal, vielleicht sogar die meiste Zeit, liegt der Erfolg eines KI-Projekts nicht im gewählten Algorithmus. Vielmehr liegt der Schlüssel in den Daten, die Sie haben, ihrem Zustand und den Labels, die sie haben.
Bei G2 haben wir zwei Trends beobachtet, die dies verdeutlichen:
- Aufstieg von Tools, die sich auf die Datenphase der KI-Reise konzentrieren
- Aufstieg von No-Code- und Low-Code-KI-Lösungen
Blitzsaubere Daten sind der Schlüssel
Daten sind das Gehirn Ihrer Organisation. Sie geben Ihrem Unternehmen Leben und Bedeutung, sei es durch Unternehmensdatenanalyse oder durch die Nutzung von Daten in der KI.
Allerdings sollte das Sprichwort „Garbage in, garbage out“ (oder „Rubbish in, rubbish out“ für unsere britischen Freunde) beachtet werden. Ein Algorithmus ist nur so gut wie die Daten, auf denen er trainiert wird. Angenommen, die Daten sind von niedriger Qualität, d.h. sie sind nicht richtig gelabelt, voller Fehler, Datentypen passen nicht zusammen usw. In diesem Fall werden sie höchstwahrscheinlich keine genauen oder nützlichen Vorhersagen machen.
Mit diesem Wissen können Datenqualitäts- und Datenvorbereitungssoftware Unternehmen dabei helfen, die Kontrolle über ihre Daten zu übernehmen und sicherzustellen, dass sie blitzsauber sind.
Datenqualitätssoftware ermöglicht es Unternehmen, hohe Standards für die Datenintegrität zu etablieren und aufrechtzuerhalten. Diese Lösungen sind auch hilfreich, um sicherzustellen, dass Daten diesen Standards gemäß den erforderlichen Branchen-, Markt- oder internen Vorschriften entsprechen.
Datenvorbereitungssoftware hilft bei der Entdeckung, Mischung, Kombination, Bereinigung, Anreicherung und Transformation von Daten, sodass große Datensätze leicht integriert, konsumiert und mit Business-Intelligence- und Analyselösungen analysiert werden können.
Die Macht der Daten freisetzen
Sobald das Unternehmen die Macht und Potenz der Daten erkannt hat, kann und sollte es größer denken. Auch wenn sie nicht den größten Datensatz in der Stadt haben, können sie, wenn er proprietär ist, immer noch einen Wettbewerbsvorteil haben. Wenn es um Datensätze geht, hat das datengesteuerte Unternehmen von 2022 Zugang zu einer Vielzahl von offenen, leicht zugänglichen Datensätzen, wie sie auf Dataset list verfügbar sind. Da jedoch jeder Zugang zu diesen Daten hat, bieten sie keinen Wettbewerbsvorteil. Wenn ein Unternehmen Zugang zu proprietären Daten hat, kann es deren Qualität sicherstellen und sie ganz für sich behalten.
Daten sind nicht wie ein Chia-Haustier, insofern als man kein Wasser darauf gießen kann, um sie wachsen zu lassen. Was man jedoch tun kann, ist, verschiedene Ressourcen zu erkunden, um die bereits blitzsauberen Daten zu erweitern, wie zum Beispiel:
- Synthetische Daten sind nützlich, da sie gefälscht, aber statistisch identisch mit dem Originaldatensatz sind, was eine Datenanalyse und maschinelles Lernen ohne Datenschutzbedenken ermöglicht.
- Datenanreicherung hilft Unternehmen, verwandte Daten oder Datensätze über Datenaustauschsoftware und einige Datenwissenschafts- und maschinelles Lernen-Plattformen zu finden. Diese Datenanreicherung kann die Genauigkeit von Modellen verbessern, da der angereicherte Datensatz neue und erweiterte Daten enthält.
- Datenlabeling ist entscheidend für das Training von Modellen mit unstrukturierten Daten. Unstrukturierte Daten, wie Bilder, Audio und Text, sind im Wesentlichen wie ein Rätsel, das ohne Labels in einem Rätsel verpackt ist. Wie unten zu sehen ist, wie kann ein Computer den notwendigen Kontext gewinnen, um den Unterschied zwischen einem Chihuahua und einem Muffin zu verstehen? Die Antwort liegt im Datenlabeling. Durch diesen Prozess kann man einen Datensatz mit Tausenden von Bildern erstellen, die definitiv als Chihuahua und Muffin gelabelt sind. Dies wird wiederum dem Algorithmus helfen, zwischen den beiden eingegebenen Bildern zu unterscheiden.
Quelle: Twitter
Wir lieben euch, Modelle, aber…
Der Fokus auf den Daten-Schritt in der maschinellen Lernreise ist klug und im Aufschwung. Historisch gesehen, insbesondere bei der Betrachtung von strukturierten Daten, lag viel Fokus auf dem eigentlichen Training von Modellen, unter Verwendung bewährter Methoden wie der linearen Regression. Dazu gehörten die Merkmalsauswahl (die Auswahl, welche Merkmale für das Modell wichtig sind) und die Modellauswahl. Diese Aufgaben waren entscheidend, um sicherzustellen, dass die Vorhersagen genau waren und die besten Modelle ausgewählt und in Produktion gebracht werden konnten.
Wir sehen jedoch den Aufstieg von benutzerfreundlicheren Technologien, wie Low-Code- und No-Code-Maschinelles Lernen und verwandte Technologien wie automatisiertes maschinelles Lernen (AutoML).
Weiterlesen: Demokratisierung der KI mit Low-Code- und No-Code-Maschinelles Lernen-Plattformen → |
Wie G2s Associate Market Research Analyst Amal Joby feststellt:
- AutoML-Tools automatisieren die manuellen und monotonen Aufgaben, die Datenwissenschaftler ausführen müssen, um maschinelle Lernmodelle zu erstellen und zu trainieren. Merkmalsauswahl und -engineering, Algorithmusauswahl und Hyperparameter-Optimierung sind Beispiele für solche Aufgaben.
- No-Code-Maschinelles Lernen-Plattformen ermöglichen es Unternehmen, die Macht des maschinellen Lernens durch einfache, Drag-and-Drop-Grafikbenutzeroberflächen zu nutzen. Sie ermöglichen es Benutzern ohne Programmierkenntnisse oder Codierungswissen, maschinelle Lernanwendungen zu erstellen.
- Low-Code-Maschinelles Lernen-Plattformen sind ähnlich wie ihre No-Code-Gegenstücke, aber sie erlauben es Benutzern, ein paar Zeilen Code zu schreiben oder denselben zu manipulieren. Der Prozentsatz des bearbeitbaren Codes hängt vom Tool ab. Ähnlich wie No-Code-Plattformen sind Low-Code-Maschinelles Lernen-Tools hilfreich für Unternehmen, denen Fachleute mit KI-Spezialisierung fehlen.
Mit dieser Verbreitung kommt die Kommodifizierung von Algorithmen, da Datenwissenschaftler und Bürgerentwickler einen Algorithmus aus dem Regal nehmen und schnell einsetzen können. Bei G2 haben wir die Bedeutung von vorgefertigten Algorithmen gesehen. Rezensenten im Grid® Report von G2 für Datenwissenschafts- und maschinelles Lernen-Plattformen für den Winter 2022 bewerteten die Top-Produkte im Grid® hoch für ihre vorgefertigten Algorithmen. Das Produkt Nummer eins, basierend auf dem G2-Score, erzielte eine 9 von 10 für vorgefertigte Algorithmen. Dies zeigt, dass ein Datenwissenschaftsprodukt, um hoch bewertet zu werden, vorgefertigte Algorithmen haben muss.
Vorgefertigte Algorithmen können sowohl zur schnellen Analyse von Daten als auch zur Nutzung dieser Daten zur Vorhersage verwendet werden. Zum Beispiel kann ein Produktmanager bei einem Schuhhändler diese Tools verwenden, um ihre mobile Anwendung einfach zu optimieren, indem sie das Banner auf einer Produktseite dynamisch basierend auf dem Benutzerverhalten ändern.
Diese Abkehr von Modellen (Schritte 3 und 4 in der Datenwissenschaftsreise unten) führt auch zu einem anderen Trend: der Kollision von Analytik und KI.
Zum Beispiel sagte der ehemalige Direktor für Produktmarketing von Kraken (jetzt Qlick AutoML) auf G2:
"Kraken ist in erster Linie eine Plattform, die für Datenanalysten oder Business-Analysten ohne tiefes Verständnis für Datenwissenschaft gebaut wurde. Daher versuchen wir, so viel wie möglich von der Datenwissenschaftsarbeit zu automatisieren und unterstützen derzeit keine fortgeschritteneren Funktionen wie die Hyperparameter-Tuning."
Da Analysetools den Benutzern vorgefertigte Vorhersagemodelle bieten, können Datenanalysten und Datenwissenschaftler mit unterschiedlichem Fachwissen zusammenarbeiten, um diese Daten zu nutzen, um Erkenntnisse zu gewinnen und datengetriebene Anwendungen zu erstellen. Dies wird in naher Zukunft zunehmen.
Bearbeitet von Sinchana Mistry
Möchten Sie mehr über Datenwissenschafts- und maschinelles Lernen-Plattformen erfahren? Erkunden Sie Datenwissenschafts- und maschinelles Lernen-Plattformen Produkte.

Matthew Miller
Matthew Miller is a research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.