Der Schlüssel zur Überwindung von Hindernissen bei der KI-Entwicklung

Zuverlässigere Daten

Einleitung / Intro
Schlüssel zur Überwindung von KI-Hindernissen?
Die Herausforderung einer inkonsistenten Datenqualität
Umgang mit komplexen Compliance-Anforderungen
Hindernisse bei der KI-Entwicklung überwinden
Lass uns reden

Einleitung

Künstliche Intelligenz begann die Fantasie zu beflügeln, als 1939 der Blechmann aus „Der Zauberer von Oz“ auf die Kinoleinwand kam, und hat seitdem nur noch fester im Zeitgeist Fuß gefasst. In der Anwendung haben KI-Produkte jedoch regelmäßige Boom-and-Bust-Zyklen durchlaufen, die bisher die einflussreichsten Adoptionen verhindert haben.

Während des Booms haben Ingenieure und Forscher enorme Fortschritte gemacht, aber als ihre Bestrebungen die damals verfügbaren Computerkapazitäten unweigerlich übersteigen, folgte eine Zeit der Ruhe. Glücklicherweise hat sich der exponentielle Anstieg der Rechenleistung, der 1965 durch das Mooresche Gesetz prophezeit wurde, größtenteils als richtig erwiesen, und die Bedeutung dieses Anstiegs ist schwer zu überschätzen.

Lesen Sie das eBook: Der Schlüssel zur Überwindung von Hindernissen bei der KI-Entwicklung, oder Laden Sie eine PDF-Version des eBooks herunter.

Inhaltsverzeichnis

Einleitung

Schlüssel zur Überwindung von KI-Hindernissen?

Die Herausforderung einer inkonsistenten Datenqualität

Umgang mit komplexen Compliance-Anforderungen

Hindernisse bei der KI-Entwicklung überwinden

Lass uns reden

Der Schlüssel zur Überwindung von Hindernissen bei der KI-Entwicklung: Zuverlässigere Daten

Heute hat der Durchschnittsmensch millionenfach mehr Rechenleistung in der Tasche, als die NASA 1969 bei der Mondlandung durchziehen musste. Das gleiche allgegenwärtige Gerät, das praktischerweise eine Fülle an Rechenleistung demonstriert, erfüllt auch eine weitere Voraussetzung für das goldene Zeitalter der KI: eine Fülle von Daten. Nach Erkenntnissen der Information Overload Research Group wurden 90 % der weltweiten Daten in den letzten zwei Jahren erstellt. Nachdem sich das exponentielle Wachstum der Rechenleistung nun endlich mit einem ebenso rasanten Wachstum der Datengenerierung konvergiert hat, explodieren die KI-Dateninnovationen so stark, dass einige Experten glauben, dass sie eine vierte industrielle Revolution in Gang setzen werden.

Daten der National Venture Capital Association zeigen, dass der KI-Sektor im ersten Quartal 6.9 Rekordinvestitionen in Höhe von 2020 Milliarden US-Dollar verzeichnete. Es ist nicht schwer, das Potenzial von KI-Tools zu erkennen, da es bereits überall um uns herum erschlossen wird. Einige der sichtbareren Anwendungsfälle für KI-Produkte sind die Empfehlungsmaschinen hinter unseren Lieblingsanwendungen wie Spotify und Netflix. Obwohl es Spaß macht, einen neuen Künstler zum Anhören oder eine neue TV-Show zum Binge-Watching zu entdecken, sind diese Implementierungen eher gering. Andere Algorithmen bewerten Testergebnisse – zum Teil bestimmen sie, wo Studenten ins College aufgenommen werden – und wieder andere durchsuchen die Lebensläufe der Kandidaten und entscheiden, welche Bewerber einen bestimmten Job bekommen. Einige KI-Tools können sogar Auswirkungen auf Leben oder Tod haben, wie zum Beispiel das KI-Modell, das auf Brustkrebs untersucht (das Ärzte übertrifft).

Trotz des stetigen Wachstums sowohl bei den realen Beispielen der KI-Entwicklung als auch bei der Zahl der Startups, die um die Entwicklung der nächsten Generation von Transformationstools kämpfen, bleiben die Herausforderungen für eine effektive Entwicklung und Implementierung bestehen. Insbesondere ist die KI-Ausgabe nur so genau, wie es die Eingabe zulässt, was bedeutet, dass Qualität von größter Bedeutung ist.

Die Herausforderung der inkonsistenten Datenqualität in KI-Lösungen

Tatsächlich werden täglich unglaubliche Datenmengen generiert: 2.5 Trillionen Bytes, laut Social Media Today. Aber das bedeutet nicht, dass es alles wert ist, Ihren Algorithmus zu trainieren. Einige Daten sind unvollständig, andere von geringer Qualität und andere sind einfach ungenau. Die Verwendung dieser fehlerhaften Informationen führt also zu den gleichen Merkmalen Ihrer (teuren) KI-Dateninnovation. Laut einer Studie von Gartner werden etwa 85 % der KI-Projekte, die bis 2022 erstellt werden, aufgrund verzerrter oder ungenauer Daten zu ungenauen Ergebnissen führen. Während Sie eine Song-Empfehlung, die nicht Ihrem Geschmack entspricht, leicht überspringen können, gehen andere ungenaue Algorithmen mit erheblichen finanziellen Kosten und Reputationsverlusten einher.

Im Jahr 2018 begann Amazon mit der Verwendung eines KI-gestützten Einstellungstools, das seit 2014 in Produktion ist und eine starke und unverkennbare Voreingenommenheit gegenüber Frauen hatte. Es stellte sich heraus, dass die dem Tool zugrunde liegenden Computermodelle anhand von Lebensläufen trainiert wurden, die dem Unternehmen über ein Jahrzehnt lang vorgelegt wurden. Da die meisten Tech-Bewerber Männer waren (und es immer noch sind, vielleicht aufgrund dieser Technologie), beschloss der Algorithmus, Lebensläufe mit „Frauen“ zu bestrafen, die überall enthalten waren – zum Beispiel Frauenfußballkapitäninnen oder Frauengeschäftsgruppen. Sie beschloss sogar, die Bewerberinnen von zwei Frauenhochschulen zu bestrafen. Amazon behauptet, dass das Tool nie als alleiniges Kriterium für die Bewertung potenzieller Kandidaten verwendet wurde, dennoch haben Recruiter bei der Suche nach neuen Mitarbeitern auf die Empfehlungsmaschine geschaut.

Das Einstellungstool von Amazon wurde nach jahrelanger Arbeit letztendlich verworfen, aber die Lektion bleibt bestehen und unterstreicht die Bedeutung der Datenqualität beim Training von Algorithmen und KI-Tools. Wie sehen „hochwertige“ Daten aus? Kurz gesagt, es überprüft diese fünf Kästchen:

1. Relevant

Um als qualitativ hochwertig zu gelten, müssen Daten etwas Wertvolles in den Entscheidungsprozess einbringen. Gibt es einen Zusammenhang zwischen dem Status eines Bewerbers als Stabhochspringer-Staatsmeister und seiner Leistung im Beruf? Es ist möglich, aber es scheint sehr unwahrscheinlich. Durch das Aussortieren nicht relevanter Daten kann sich ein Algorithmus darauf konzentrieren, die Informationen zu sortieren, die sich tatsächlich auf die Ergebnisse auswirken.

2. Genau

Die von Ihnen verwendeten Daten müssen die von Ihnen getesteten Ideen genau wiedergeben. Wenn nicht, lohnt es sich nicht. Amazon hat beispielsweise seinen Einstellungsalgorithmus anhand von 10-Jahres-Lebensläufen von Bewerbern trainiert, aber es ist unklar, ob das Unternehmen die Informationen in diesen Lebensläufen zuerst bestätigt hat. Untersuchungen des Referenzprüfungsunternehmens Checkster zeigen, dass 78 % der Bewerber bei einer Stellenbewerbung lügen oder in Betracht ziehen würden, zu lügen. Wenn ein Algorithmus beispielsweise anhand des GPA eines Kandidaten Empfehlungsentscheidungen trifft, ist es eine gute Idee, zuerst die Authentizität dieser Zahlen zu bestätigen. Dieser Vorgang würde Zeit und Geld kosten, würde aber zweifellos auch die Genauigkeit Ihrer Ergebnisse verbessern.

3. Richtig organisiert und kommentiert

Bei einem Einstellungsmodell auf Basis von Lebensläufen ist die Annotation relativ einfach. In gewisser Weise wird ein Lebenslauf mit Anmerkungen versehen, obwohl es zweifellos Ausnahmen geben würde. Die meisten Bewerber führen ihre Berufserfahrung unter der Rubrik „Erfahrung“ und relevante Fähigkeiten unter „Fähigkeiten“ auf. In anderen Situationen, wie zum Beispiel bei der Krebsvorsorge, werden die Daten jedoch viel unterschiedlicher sein. Informationen können unter anderem in Form einer medizinischen Bildgebung, der Ergebnisse einer körperlichen Untersuchung oder sogar eines Gesprächs zwischen Arzt und Patient über die Familienanamnese und Krebsfälle erfolgen. Damit diese Informationen zu einem genauen Erkennungsalgorithmus beitragen können, müssen sie sorgfältig organisiert und kommentiert werden, um sicherzustellen, dass das KI-Modell lernt, anhand der richtigen Schlussfolgerungen genaue Vorhersagen zu treffen.

4. Aktuell

Amazon versuchte, ein Tool zu entwickeln, das Zeit und Geld spart, indem es die gleichen Einstellungsentscheidungen, die Menschen treffen, in viel kürzerer Zeit reproduziert. Um die Empfehlungen so genau wie möglich zu gestalten, müssten die Daten auf dem neuesten Stand gehalten werden. Wenn ein Unternehmen einmal eine Vorliebe für Kandidaten mit der Fähigkeit zum Reparieren von Schreibmaschinen gezeigt hätte, hätten diese historischen Einstellungen wahrscheinlich keinen großen Einfluss auf die Eignung der heutigen Bewerber für irgendeine Art von Position. Daher ist es ratsam, sie zu entfernen.

5. Entsprechend vielfältig

Die Ingenieure von Amazon haben sich entschieden, einen Algorithmus mit einem überwiegend männlichen Bewerberpool zu trainieren. Diese Entscheidung war ein schwerwiegender Fehler und wird nicht weniger gravierend durch die Tatsache, dass dies die Lebensläufe waren, die dem Unternehmen zu dieser Zeit zur Verfügung standen. Amazon-Ingenieure hätten mit angesehenen Organisationen mit ähnlichen Geschäftspartnern zusammenarbeiten können freie Stellen, die mehr Bewerberinnen bekommen hatten, um den Mangel auszugleichen, oder es hätte sein können die Zahl der Lebensläufe von Männern künstlich reduzieren, um der Zahl der Frauen und der ausgebildeten Personen zu entsprechen, und führte den Algorithmus mit einer genaueren Darstellung der Population. Der Punkt ist, dass Daten Vielfalt ist der Schlüssel, und wenn keine konzertierten Anstrengungen unternommen werden, um Verzerrungen bei den Eingaben zu beseitigen, werden die Ausgaben verzerrt herrschen.

Qualitativ hochwertige Daten entstehen natürlich nicht aus dem Nichts. Stattdessen muss es sorgfältig unter Berücksichtigung der beabsichtigten Ergebnisse kuratiert werden. Im KI-Bereich wird oft gesagt, dass „Müll rein heißt Müll raus“. Diese Aussage ist wahr, aber sie unterschätzt die Bedeutung der Qualität etwas. KI kann unglaubliche Mengen an Informationen verarbeiten und in alles umwandeln, von der Aktienauswahl über Einstellungsempfehlungen bis hin zu medizinischen Diagnosen. Diese Fähigkeit übertrifft die Fähigkeiten des Menschen bei weitem, was auch bedeutet, dass sie die Ergebnisse vergrößert. Ein voreingenommener menschlicher Recruiter könnte nur eine begrenzte Anzahl von Frauen übersehen, aber ein voreingenommener KI-Recruiter könnte sie alle übersehen. In diesem Sinne bedeutet Garbage In nicht nur Garbage Out – es bedeutet, dass aus einer kleinen Menge „Müll“-Daten eine ganze Deponie werden kann.

Umgang mit komplexen Compliance-Anforderungen

Als ob es nicht schon schwierig genug wäre, qualitativ hochwertige Daten zu finden, sind einige der Branchen, die am meisten von KI-Dateninnovationen profitieren, auch die am stärksten regulierten. Das Gesundheitswesen ist vielleicht das beste Beispiel, und während eine Umfrage von HIT Infrastructure ergab, dass 91 % der Brancheninsider glauben, dass die Technologie den Zugang zur Gesundheitsversorgung verbessern könnte, wird der Optimismus durch die Tatsache gedämpft, dass 75 % sie als Bedrohung für die Patientensicherheit und den Datenschutz sehen — und Patienten sind nicht die einzigen gefährdeten Personen.

Die weitreichenden Vorschriften, die durch den Health Insurance Portability and Accountability Act erlassen wurden, überschneiden sich nun mit verschiedenen lokalen Hürden bei der Einhaltung von Daten, wie der europäischen Datenschutz-Grundverordnung, dem California Consumer Privacy Act in den Vereinigten Staaten und dem Personal Data Protection Act in Singapur. Zu diesen lokalen Vorschriften werden noch viele weitere hinzukommen, und da die Telemedizin zu einer wichtigeren Quelle für Gesundheitsdaten wird, ist es wahrscheinlich, dass die Vorschriften die Patientendaten beim Transport noch stärker in den Griff bekommen. Infolgedessen wird sich die sichere und konforme Cloud-Plattform von Shaip als noch wertvolleres Mittel erweisen, Gesundheitsdaten zu sammeln und darauf zuzugreifen, um KI-Produkte zu trainieren.

Persönlich identifizierbare Informationen können eine erhebliche Bedrohung für Ihre KI-Entwicklung darstellen, aber selbst eine vollständig konforme Implementierung ist gefährdet, wenn sie keine genauen Ergebnisse liefern kann, die nur mit unterschiedlichen Trainingsdaten erzielt werden. Eine Studie aus dem Jahr 2020 im Journal of the American Medical Association zeigte, dass maschinelle Lernalgorithmen im medizinischen Bereich am häufigsten mit Daten von Patienten in Kalifornien, New York und Massachusetts trainiert werden. Angesichts der Tatsache, dass diese Patienten weniger als ein Fünftel der US-Bevölkerung ausmachen, ganz zu schweigen vom Rest der Welt, ist es schwer vorstellbar, wie diese Modelle zu etwas anderem als voreingenommenen Ergebnissen führen könnten.

In Anbetracht der Schwierigkeit, konforme, geografisch vielfältige Informationen zu sichern, bietet Shaip lizenzierte Gesundheitsdaten aus einer Vielzahl von Regionen an, die speziell mit dem Ziel kuratiert wurden, genaue Algorithmen zu entwickeln. Diese Daten liegen in Form von Text vor, z. B. Krankenakten oder Anspruchsinformationen, medizinisch-diagnostischer Bildgebung wie CT-Scans, Audio wie gesprochenen Notizen von Ärzten oder Gesprächen zwischen Ärzten und Patienten und sogar Video von MRT-Ergebnissen. Es ist außerdem vollständig anonymisiert und schützt Ihr Unternehmen sowohl vor ethischen als auch vor finanziellen Folgen, die durch einen Verstoß gegen die zunehmende Zahl von Vorschriften für Daten nationaler und internationaler Herkunft entstehen können.

Hindernisse bei der KI-Entwicklung überwinden

Die KI-Entwicklungsbemühungen beinhalten erhebliche Hindernisse, unabhängig davon, in welcher Branche sie tätig sind, und der Weg von einer umsetzbaren Idee zu einem erfolgreichen Produkt ist mit Schwierigkeiten verbunden. Zwischen den Herausforderungen, die richtigen Daten zu beschaffen, und der Notwendigkeit, sie zu anonymisieren, um alle relevanten Vorschriften einzuhalten, kann es sich anfühlen, als wäre die eigentliche Konstruktion und das Training eines Algorithmus der einfache Teil.

Um Ihrem Unternehmen alle Vorteile zu bieten, die bei der Entwicklung einer bahnbrechenden neuen KI-Entwicklung erforderlich sind, sollten Sie eine Partnerschaft mit einem Unternehmen wie Shaip in Betracht ziehen. Chetan Parikh und Vatsal Ghiya gründeten Shaip, um Unternehmen bei der Entwicklung von Lösungen zu unterstützen, die das Gesundheitswesen in den USA verändern könnten. Nach mehr als 16 Jahren im Geschäft ist unser Unternehmen auf mehr als 600 Teammitglieder angewachsen und wir haben mit Hunderten von Mitarbeitern zusammengearbeitet Kunden, um überzeugende Ideen in KI-Lösungen zu verwandeln.

Wenn unsere Mitarbeiter, Prozesse und Plattformen für Ihr Unternehmen arbeiten, können Sie sofort die folgenden vier Vorteile nutzen und Ihr Projekt zu einem erfolgreichen Abschluss katapultieren:

1. Die Fähigkeit, Ihre Datenwissenschaftler zu befreien

Es führt kein Weg daran vorbei, dass der KI-Entwicklungsprozess viel Zeit in Anspruch nimmt, aber Sie können immer die Funktionen optimieren, die Ihr Team am meisten aufwendet. Sie haben Ihre Datenwissenschaftler eingestellt, weil sie Experten in der Entwicklung fortschrittlicher Algorithmen und Modelle für maschinelles Lernen sind, aber die Forschung zeigt immer wieder, dass diese Mitarbeiter tatsächlich 80 % ihrer Zeit damit verbringen, die Daten zu beschaffen, zu bereinigen und zu organisieren, die das Projekt antreiben. Mehr als drei Viertel (76 %) der Datenwissenschaftler geben an, dass diese alltäglichen Datenerfassungsprozesse zufällig auch ihre am wenigsten bevorzugten Teile ihrer Arbeit sind, aber der Bedarf an hochwertigen Daten lässt nur 20 % ihrer Zeit für die eigentliche Entwicklung übrig die interessanteste und intellektuell anregendste Arbeit für viele Datenwissenschaftler. Durch die Beschaffung von Daten über einen Drittanbieter wie Shaip kann ein Unternehmen seine teuren und talentierten Dateningenieure ihre Arbeit als Datenpfleger auslagern lassen und stattdessen ihre Zeit mit den Teilen von KI-Lösungen verbringen, in denen sie den größten Nutzen erzielen können.

2. Die Fähigkeit, bessere Ergebnisse zu erzielen

Viele Führungskräfte in der KI-Entwicklung entscheiden sich, Open-Source- oder Crowdsourcing-Daten zu verwenden, um die Kosten zu senken, aber diese Entscheidung kostet auf lange Sicht fast immer mehr. Diese Datentypen sind leicht verfügbar, können jedoch nicht mit der Qualität sorgfältig kuratierter Datensätze mithalten. Insbesondere Crowdsourcing-Daten sind voller Fehler, Auslassungen und Ungenauigkeiten, und obwohl diese Probleme manchmal während des Entwicklungsprozesses unter den wachsamen Augen Ihrer Ingenieure behoben werden können, sind zusätzliche Iterationen erforderlich, die nicht erforderlich wären, wenn Sie mit höheren Werten beginnen -Qualitätsdaten von Anfang an.

Das Vertrauen auf Open-Source-Daten ist eine weitere häufige Abkürzung, die mit ihren eigenen Fallstricken verbunden ist. Mangelnde Differenzierung ist eines der größten Probleme, da ein mit Open-Source-Daten trainierter Algorithmus leichter repliziert werden kann als einer, der auf lizenzierten Datensätzen basiert. Wenn Sie diesen Weg gehen, laden Sie die Konkurrenz von anderen Marktteilnehmern ein, die Ihre Preise unterbieten und jederzeit Marktanteile gewinnen könnten. Wenn Sie sich auf Shaip verlassen, greifen Sie auf die hochwertigsten Daten zu, die von einer geschickten, verwalteten Belegschaft zusammengestellt wurden, und wir können Ihnen eine exklusive Lizenz für einen benutzerdefinierten Datensatz erteilen, der verhindert, dass Konkurrenten Ihr hart erkämpftes geistiges Eigentum einfach neu erstellen können.

3. Zugang zu erfahrenen Fachleuten

Auch wenn Ihr interner Dienstplan qualifizierte Ingenieure und talentierte Datenwissenschaftler umfasst, können Ihre KI-Tools von der Weisheit profitieren, die nur durch Erfahrung entsteht. Unsere Fachexperten haben zahlreiche KI-Implementierungen in ihren Bereichen angeführt und dabei wertvolle Lektionen gelernt. Ihr einziges Ziel ist es, Ihnen zu helfen, Ihre Ziele zu erreichen.

Da Domänenexperten Daten für Sie identifizieren, organisieren, kategorisieren und kennzeichnen, wissen Sie, dass die zum Trainieren Ihres Algorithmus verwendeten Informationen die bestmöglichen Ergebnisse erzielen können. Außerdem führen wir eine regelmäßige Qualitätssicherung durch, um sicherzustellen, dass die Daten den höchsten Standards entsprechen und nicht nur im Labor, sondern auch in der Praxis wie gewünscht funktionieren.

4. Eine beschleunigte Entwicklungszeitleiste

Die KI-Entwicklung geschieht nicht über Nacht, aber sie kann schneller gehen, wenn Sie mit Shaip zusammenarbeiten. Die interne Datenerfassung und Annotation führt zu einem erheblichen betrieblichen Engpass, der den Rest des Entwicklungsprozesses aufhält. Durch die Zusammenarbeit mit Shaip haben Sie sofortigen Zugriff auf unsere umfangreiche Bibliothek mit gebrauchsfertigen Daten, und unsere Experten können mit unserem fundierten Branchenwissen und unserem globalen Netzwerk jede Art von zusätzlichem Input beschaffen, den Sie benötigen. Ohne die Belastung durch Sourcing und Anmerkungen kann Ihr Team sofort mit der eigentlichen Entwicklung beginnen, und unser Schulungsmodell kann dabei helfen, frühzeitig Ungenauigkeiten zu erkennen, um die zum Erreichen der Genauigkeitsziele erforderlichen Iterationen zu reduzieren.

Wenn Sie nicht bereit sind, alle Aspekte Ihres Datenmanagements auszulagern, bietet Shaip auch eine Cloud-basierte Plattform, die Teams hilft, verschiedene Arten von Daten effizienter zu produzieren, zu ändern und zu kommentieren, einschließlich Unterstützung für Bilder, Video, Text und Audio . ShaipCloud umfasst eine Vielzahl intuitiver Validierungs- und Workflow-Tools, wie eine patentierte Lösung zum Verfolgen und Überwachen von Arbeitslasten, ein Transkriptionstool zum Transkribieren komplexer und schwieriger Audioaufnahmen und eine Qualitätskontrollkomponente, um eine kompromisslose Qualität zu gewährleisten. Das Beste daran ist, dass es skalierbar ist, sodass es mit den unterschiedlichen Anforderungen Ihres Projekts mitwachsen kann.

Das Zeitalter der KI-Innovation steht erst am Anfang und wir werden in den kommenden Jahren unglaubliche Fortschritte und Innovationen erleben, die das Potenzial haben, ganze Branchen oder sogar die Gesellschaft insgesamt umzugestalten. Bei Shaip möchten wir unsere Expertise nutzen, um als transformative Kraft zu dienen und den revolutionärsten Unternehmen der Welt zu helfen, die Leistungsfähigkeit von KI-Lösungen zu nutzen, um ehrgeizige Ziele zu erreichen.

Wir verfügen über umfassende Erfahrung in Gesundheitsanwendungen und dialogorientierter KI, verfügen aber auch über die notwendigen Fähigkeiten, um Modelle für fast jede Art von Anwendung zu trainieren. Für weitere Informationen darüber, wie Shaip Ihr Projekt von der Idee bis zur Umsetzung unterstützen kann, werfen Sie einen Blick auf die vielen Ressourcen auf unserer Website oder kontaktieren Sie uns noch heute.

diskutieren

Vorname *
Nachname*
E-Mail*
Telefon*
Firma*
Land*
Land
Ihre Nachricht*
Mit der Registrierung stimme ich Shaip zu Datenschutzbestimmungen und Nutzungsbedingungen und erteile meine Zustimmung zum Erhalt von B2B-Marketingkommunikation von Shaip.
CAPTCHA