Abschlussprojekte unseres 11. Data Science Bootcamps

von Badru Stanicki

header hintergrund
Bei Constructor Academy legen wir grossen Wert auf die Vermittlung praxisrelevanter Fertigkeiten und möchten, dass unsere Studenten ihr neu erworbenes Wissen direkt anwenden können. Aus diesem Grund arbeitet jeder Data Science Student von Constructor Academy 3,5 Wochen lang an einem Projekt, das in der Regel von Firmen aus unserem Netzwerk zur Verfügung gestellt wird.

Dies ist unseres Wissens einzigartig in der Welt der Bootcamps und hat sich als sehr lohnend erwiesen - sowohl für unsere Studenten als auch für die Unternehmen, die Projekte bereitstellen.

Constructor Academy's Data-Science-Batch #11 (11. Mai 2020 - 31. Juli 2020) arbeitete an fünf Projekten, die von unseren Industriepartnern, wie Nispera, Intelligencia.ai, Sentifi und Advertima, bereitgestellt wurden. Lies unten mehr über jedes einzelne Projekt.
 

Entscheidungen in der Arzneimittelentwicklung durch Data Science verbessern - Intelligentcia.ai

Die Entwicklung eines Medikaments kann bis zu zwei Milliarden Dollar kosten und 15 Jahre dauern, ohne dass der Markteintritt garantiert ist. Aus diesem Grund ist es für Pharmaunternehmen sehr wichtig, zu verstehen, welche Krankheit mit dem Medikament behandelt und getestet werden soll. Marie Bocher, Mariana Zorkina und Seamus Dines haben ein Tool entwickelt, das Pharmaunternehmen bei dieser Entscheidung unterstützen soll, indem es die notwendigen medizinischen Informationen zusammenfasst und die Trends der klinischen Studien prognostiziert. Eine ausführlichere Erklärung und die Anwendung selbst findest du hier.
 

Vorhersage von Aktienmarktrenditen mit Alternative Data - Sentifi

Unter Alternative Data im Finanzbereich versteht man alle Arten von Daten, die dazu verwendet werden können, Einblick in Investitionen ausserhalb der traditionellen Marktdaten und Finanzindikatoren zu geben - Daten wie Social Media Posts, Web-Aktivitäten oder sogar Satellitenbilder. Sentifi ist ein Anbieter von Alternative Data, der sich darauf spezialisiert hat, Social-Media-Aktivitäten in numerische Scores umzuwandeln, die darstellen, wie der Markt jede einzelne Aktie oder jeden Sektor beurteilt. Valentine Herzl und Amine Chbani standen vor der Herausforderung, aus den von Sentifi gelieferten Daten Erkenntnisse abzuleiten und zu versuchen, diese Erkenntnisse zu nutzen, um einen Handelsalgorithmus zu entwickeln, der bessere Renditen als der S&P 500-Index erzielt. Indem sie sich auf langfristige Renditen konzentrierten und individuelle Aktien-Scores mit Sektor-Scores kombinierten, gelang es ihnen, zwei Modelle - ein statistisches Modell und ein Regressionsmodell - zu erstellen, die beide die Renditen des S&P 500 für die Jahre 2017-2020 übertreffen. Während der S&P 500 in dieser Zeitspanne um etwa 40% zulegte, gelang es ihnen, ein Modell zu erstellen, das - basierend auf Preis- und Stimmungsdaten - eine Rendite von 108% generierte.
 

Vorhersage von Kundenpräsenz, -position und -aufmerksamkeit in physischen Geschäften - Advertima

Advertima ist ein Unternehmen für Computer Vision und maschinelles Lernen, das sich auf die visuelle Echtzeit-Interpretation des menschlichen Verhaltens in der physischen Welt konzentriert. Es bietet in Geschäften Monitore an, die mit Sensoren ausgestattet sind, die die Anzeige von Werbung ermöglichen, die sich an die Verbraucher richtet und den Verkauf ankurbelt.

Sarah Kurmulis, Olena Levchun und Matthieu Bornet wurden mit der Aufgabe betraut, die Daten von mehreren Geschäften und Gebäudemodellen zu verstehen, zu säubern und zu konstruieren, wobei Machine Learning und Deep Learning eingesetzt wurde, um vorherzusagen, ob Kunden in den Geschäften anwesend sein werden, ihre physische Position und ihre Aufmerksamkeit auf den Anzeigemonitor in den nächsten Sekunden. Ihre Modelle erreichten einen hohen Grad an Genauigkeit bei der Vorhersage der Anwesenheit (86% mittlere Genauigkeit bei 5 Sekunden) und der Position in den Geschäften (8cm mittlere Positionsgenauigkeit für eine 1s-Prognose, 112cm für eine 5s-Prognose) sowie wertvolle Einblicke in Zonen der Aufmerksamkeit auf dem Bildschirm. Diese Ergebnisse werden es dem Unternehmen ermöglichen, sein gezieltes Anzeigesystem weiter zu verbessern.
 

Klassifikation von MR-Bildern des Gehirns - MRI Paul Windisch

Dieses Projekt war eine Zusammenarbeit mit Paul Windisch, Arzt am Kantonsspital Winterthur und ehemaliger Data Science Student der Constructor Academy. Um Hirntumore in MR-Bildern (Kernspintomografie des Gehirns) leichter erkennen zu können, bauten Cornelia Schmitz und Norbert Bräker ein Klassifikationsnetzwerk auf, um die Bilder anhand von zwei Eigenschaften zu gruppieren: der Perspektive und der MR-Sequenz, die zur Erzeugung jedes Bildes verwendet wurde. Es wurden zwei Ansätze verwendet, von denen der eine eine neuere Architektur namens Siamesische Netzwerke implementiert und der andere die eher standardisierte Methode anwendet, bei der ein vortrainiertes Netzwerk als Basis verwendet wird. Die Studenten erreichten eine Klassifikationsgenauigkeit von ~94%-98% für Perspektive und Sequenz. Die in diesem Projekt geleistete Arbeit wird Paul Windisch bei seiner eigenen Forschung zur automatischen Erkennung von Hirntumoren helfen, einem Projekt, das er zusammen mit Pascal Weber während seiner Zeit als Student der Constructor Academy begann und das nun vom SNSF (Schweizerischer Nationalfonds) und Innosuisse (Schweizerische Agentur für Innovationsförderung) finanziert wird.
 

Quantifizierung der Verschmutzungsverluste für eine Photovoltaik-Anlage im industriellen Massstab - Nispera

Nispera ist ein in Zürich ansässiges Unternehmen, das weltweit Datenaufklärungsdienste für erneuerbare Energieanlagen anbietet. Dave Lonsdale, Daniel Gisler und Konstantinos Kirtsonis standen vor der Frage, ob sie die Energieverluste einer grossen Photovoltaik (PV)-Anlage aufgrund von Verschmutzungen (der langsamen Ansammlung von Schmutz auf den Paneelen) anhand von Standardbetriebsdaten der Anlage identifizieren konnten. Die untersuchten Anlagen befanden sich in der Atacama-Wüste in Chile, wo ein relativ geringer Verschmutzungsgrad auftritt (~3% pro Jahr). Sie setzten verschiedene statistische und ML-Clustering-Techniken ein, um festzustellen, ob die Daten ein ausreichendes Signal enthalten. Das von ihnen entwickelte Toolkit bietet eine Pipeline, die eine sehr lärmintensive Umgebung säubert und auf Datensätze aus anderen Anlagen angewendet werden kann. Sie wandten die Pipeline auf zwei Anlagen an und machten mehrere wichtige Beobachtungen zur Betriebsleistung: Die PV-Sättigung im Sommer negierte die Verschmutzungseffekte, es gab eine nichtlineare Leistungsverbesserung im Winter, die weitere Untersuchungen erfordert, und bei der zweiten Anlage eine bemerkenswerte Leistungsverbesserung (vielleicht ein Regenereignis oder eine Reinigung), die mit dem Anlagenbesitzer weiterverfolgt wird. Obwohl es nicht möglich war, den geringen Verschmutzungsgrad dieser Anlagen festzustellen, ist Nispera sehr daran interessiert, das Projekt fortzusetzen, da es keine bekannte Lösung auf dem Markt gibt.

Wir danken allen Firmen, die an den Projekten beteiligt waren, für ihre Unterstützung. Sie geben unseren Studenten eine einzigartige Gelegenheit, ihr Wissen und ihre Fähigkeiten zu erweitern.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog