Data Science Abschlussprojekte Batch #18

von Ekaterina Butyugina

daten-wissenschaft-stadt-und-daten

In diesem Blogbeitrag stellen wir die Projekte vor, die von den Teilzeit- und Vollzeitstudenten der Data Science am Ende des Programms abgeschlossen wurden. Wirf einen Blick auf die Ergebnisse, die sie in so kurzer Zeit erzielt haben.

 

Cortexia: Nachhaltige saubere Stadt - Darkzones Analytics

Studenten: Dominik Bacher, Valeriia Rutskaia


Cortexia bietet eine weltweit führende Lösung für die effiziente Reinigung von Städten, die gleichzeitig Ressourcen spart, die Qualität des Abwassers erhält und die Landschaft schont. Es nutzt ein Computer-System, das auf Kehrmaschinen und anderen Fahrzeugen montiert ist, um verschiedene Arten von Müll auf den Strassen zu erkennen und zu zählen. Die Messungen werden jeden Tag in verschiedenen Regionen der Stadt durchgeführt. Die räumliche und zeitliche Abdeckung durch bewegliche Kameras ist jedoch eher gering und liegt bei etwa 30 bis 40 % in der gesamten Stadt. Um die Menge des Mülls in übersehenen Gebieten vorherzusagen und die Reinigungspläne effizienter zu gestalten, wurden Algorithmen des Maschinenlernens eingesetzt. Da die Menge des Mülls von gemeinsamen Merkmalen abhängt, besteht die Idee darin, einen Teil der Stadt zu erfassen und die verbleibenden unbedeckten Strassen, die so genannten "Dark-zones", vorherzusagen.


Ergebnisse der Prognosen

 
Die Studenten Dominik und Valeria erhielten die Messungen von verschiedenen Kehrmaschinen und entwickelten dann neue Parameter wie Wetterbedingungen, die Nähe einer Bar oder eines Restaurants usw., um die Menge des Mülls auf den Strassen zu bestimmen. Sie wählten und trainierten verschiedene Modelle des maschinellen Lernens für die Vorhersage von Abfällen und bauten eine einsatzbereite Data-Science-Pipeline, die Datenaggregation und Modelltraining umfasste. Anhand von Vorhersagen für gemessene Daten und gängigen Metriken wie D-Quadrat und R-Quadrat konnten sie die Modelle bewerten.
 
Da die vorhergesagten Daten sehr unrein waren, bietet das Modell eine bessere Genauigkeit bei einer grösseren Anzahl von Strassenabschnitten, was zu einer besseren Bewertung einer Kehrmaschinenroute führt als bei einem einzelnen Strassenabschnitt.

Das nachstehende Diagramm zeigt, dass die Fehlermarge umso geringer ist, je mehr Strassenabschnitte berücksichtigt werden.


Irrtumswahrscheinlichkeit


Die Vision für die Zukunft ist, dass dieses Projekt der erste Schritt zu einer effizienteren und nachhaltigeren Reinigung der Städte sein wird.
 

Talmis: Makroökonomische Prognosen mit Methoden des maschinellen Lernens

Studenten: Hussam Al-Homsi, Patrizia Will


Talmis bietet Beratungs- und Serviceleistungen in den Bereichen Treasury, ALM, Kapitalmärkte, Risiko und Finanzen sowohl auf strategischer als auch auf operativer Ebene an und ist dafür verantwortlich, Banken zu beraten, wie sie unter Stressbedingungen reagieren sollten. Patrizia und Hussam wurden ausgewählt, um Talmis bei der Bewältigung dieser Herausforderung zu unterstützen.  

Um die Widerstandsfähigkeit der Banken in schwierigen wirtschaftlichen Situationen zu testen, werden Stresstests durchgeführt. Diese Stresstests werden anhand verschiedener hypothetischer Zukunftsszenarien durchgeführt, darunter optimistische bis pessimistische globale Wirtschaftsprognosen. 

Die Prognosefähigkeit der Stresstests beruht auf qualitativ hochwertigen Datensätzen, die zwei Arten von Daten umfassen: a) bankinterne Finanzausweise; b) externe Wirtschaftsdaten - MEV (makroökonomische Variable) einschliesslich BIP, VPI, Arbeitslosenquote, Immobilienpreisindex. Die internen Bankunterlagen sind zwar jederzeit verfügbar, aber qualitativ hochwertige Wirtschaftsdaten, d. h. die Projektionen der MEV, sind oft schwer zu beschaffen.

Daher testeten Hussam und Patrizia verschiedene Ansätze zur Anreicherung der MEV-Vorhersage für ein Land durch Ausnutzung von Korrelationen zwischen verschiedenen MEVs innerhalb eines Landes und weltweit.    

Für diese Arbeit wurde der vom Internationalen Währungsfonds (IWF) bereitgestellte Datensatz verwendet. Dieser Datensatz enthält jährliche Einträge der wichtigsten MEVs von 196 Ländern, die bis ins Jahr 1980 zurückreichen. 

Um das beste Modell für ihre Aufgabe zu finden, testeten sie zahlreiche Algorithmen und bewerteten die Anwendbarkeit anhand von Leistungskennzahlen. 

Der folgende Ansatz ergab die besten Leistungskennzahlen und wird für dieses Projekt verwendet:
 
  • Zunächst wurde ein Clustering der Datenreihen durchgeführt, um die 196 Länder in Gruppen mit ähnlichen historischen Trends bzw. Formen des jeweiligen MEV zu gruppieren. 
  • Dann wurde eine statistische Filterung mit Hilfe des Granger-Kausalitätstests durchgeführt, um Länder mit einer höheren Vorhersagekraft für das Zielland pro MEV auszuwählen (wir haben p < 0,05 verwendet). 
  • Durch die Anwendung einer Kombination des additiven Modells "Prophet" von Facebook und des multivariaten vektorautoregressiven Modells (VAR) konnten sie schliesslich die MEVs Jahr für Jahr schrittweise vorhersagen.

Auf der Grundlage des BIP definierten sie vier Cluster. Sie stellten eine ungleichmässige Verteilung der Länder fest, die auf die inhärenten Ähnlichkeiten ihrer BIP-Trends zurückzuführen war und zusätzlich durch die Clusterungsmethode selbst beeinflusst wurde. Daher wählten sie ein Cluster aus und wendeten das Granger-Kriterium von p < 0,05 an, um die am stärksten korrelierten Länder für die weitere Arbeit auszuwählen. 

Die BIPs dieser Länder wurden zusammen mit dem vorgegebenen prognostizierten BIP des Vereinigten Königreichs als Input für die Pipeline des maschinellen Lernens (Prophet und VAR) verwendet. Da das Modell sogenannte " Stösse " auf das BIP ausübte, "erholten" sich die vorhergesagten Werte schnell von den "Stössen", ähnlich wie die wirtschaftlichen Trends aufgrund der Covid-Krise.


Zielland Kanada gegenüber unterstellten Daten aus dem Vereinigten Königreich  Zielland BIP Niederlande vs. imputierte Daten


Zusammenfassend war ihr Modell in der Lage, den MEV von Ländern desselben Clusters auf der Grundlage des historischen MEV und der öffentlich verfügbaren Daten aus dem UK vorherzusagen:
  • Auf der Grundlage ihrer Arbeit schlugen sie die folgenden zusätzlichen Entwicklungen des Modells vor: Zusätzliche Algorithmen sollten getestet werden, um das Verständnis der Widerstandsfähigkeit der Banken zu erweitern und zu vertiefen.
  • Der globale MEV-Datensatz sollte erweitert werden und vierteljährliche Daten enthalten, um präzisere Prognosen zu ermöglichen.
  • Der Ansatz beinhaltet keine Berücksichtigung der Handelsbeziehungen zwischen den Ländern. So sollten Länder mit stärkeren Verflechtungen im Welthandel in dem Modell stärker gewichtet werden als Länder mit einem geringeren gegenseitigen Handelsvolumen. Dieser Faktor sollte als nächster Schritt in künftige Modelle aufgenommen werden.
 

CancerDataNet: Zeitprognosen für die Nachbehandlung von Krebspatienten

Studenten: Muchun Zhong, Jacques Stimolo, Ernest Mihelj


CancerDataNet konzentriert sich auf die Entwicklung und Pflege eines Rahmens digitaler Tools zur Förderung der Präzisionsmedizin und der patientenorientierten Arzneimittelentwicklung in der Onkologie.

Durch die Nutzung seiner Erfahrung mit zahlreichen Interessengruppen aus dem Gesundheitswesen konzipiert und gestaltet CancerDataNet Lösungen zur Maximierung des Transformationspotenzials von Daten aus der realen Welt in reale Erkenntnisse. 

Ziel dieses Projekts war es, die Vorhersagegenauigkeit der Dauer von zwei Krebstherapien für Patienten mit Multiple Myelom zu verbessern.

Die grösste Herausforderung des Projekts war der hohe Anteil an fehlenden Werten in den Rohdaten, der bei einigen Patienten bis zu 85 % betrug. Daher war es zwingend erforderlich, Daten vorsichtig aus dem Datensatz zu entfernen. 

Die Studenten unterteilten den Arbeitsablauf in drei Teile:
  • Im ersten Teil recherchierten sie in den medizinischen Studiendokumentationen und den Daten, um ein besseres Verständnis der Daten zu erlangen und somit Anomalien in ihnen zu finden. 
  • Der zweite Schritt war die Bereinigung der Daten, bei der sie die anomalen Daten entfernten und die Daten auf der Grundlage der Fehlquote bereinigten. 
  • Der letzte Schritt bestand darin, die endgültige Version des Datensatzes zu nehmen und einen synthetischen Ersatz für die fehlenden Werte zu erstellen (Imputation). Muchun, Jacques und Ernest setzten verschiedene Strategien zur Imputation der Daten ein und verglichen die Leistung/Genauigkeit der prognostischen Modelle.


Prognosemodelle



Somit erhöhte die Imputation der Daten die Modellleistung. Es wurde festgestellt, dass die Imputationsstrategien die Leistung des Prognosemodells in einem ähnlichen Bereich verbessern. Die Kombination von Imputationsverfahren führte jedoch zur stärksten Verbesserung der prognostischen Modellleistung.


Leistung des prognostischen Modells


Für die Zukunft ist geplant, die Genauigkeit für eine bessere Vorhersage der Remission zu verbessern, indem verschiedene Imputationsstrategien für verschiedene Merkmale verwendet werden, mit medizinischen Fachleuten zusammengearbeitet wird, um einen vollständigeren Datensatz zu erhalten, und die Anomalien minimiert werden. 
 

360°-Aktien-Prognose: Berechnung der weltweit renditestärksten Aktien anhand robuster KPIs und des wahrgenommenen Vertrauens in das Unternehmen

Studenten: Karim Khalil, Fernando Beato, Lukas Doboczky, Rafael Zack


Da die Finanzmärkte weltweit ständig wachsen und immer mehr Menschen Zugang zu ihnen suchen, um zu investieren, werden sich sowohl erfahrene Anleger als auch Neueinsteiger bei ihren Entscheidungen auf ihre Intuition verlassen. Mit der zunehmenden Verfügbarkeit und Menge von Finanzdaten werden Anlagestrategien stärker datengesteuert als je zuvor, aber es gibt immer noch eine Menge von Daten, die nicht ausreichend genutzt werden. Daher hat sich das Team daran gesetzt, ein Machine-Learning-Modell zu entwickeln, um die vielversprechendsten Aktien zu finden, die über den S&P 500 hinausgehen.

Nach der Auswertung von mehr als zwei Jahrzehnten vierteljährlicher Finanzdaten, die über 35.000 Unternehmen in 84 Ländern repräsentieren, wurden die Renditen berechnet, wobei bemerkenswerte Ausreisser entfernt wurden. Um die Modelle zuverlässiger zu machen, wurden verschiedene Finanzkennzahlen (die zu den insgesamt ca. 200 wichtigsten Leistungsindikatoren gehören) berechnet, um die finanzielle Leistung jedes Unternehmens darzustellen, darunter auch solche, die ihre Leistung im Vergleich zum Weltmarkt, zu ihrem spezifischen Markt und zu ihrer jeweiligen Branche und ihrem Sektor vergleichen.


Länderverteilung
Bild 1. Die beteiligten Unternehmen stammen überwiegend aus den USA und China, aber die wichtigsten Sektoren waren ziemlich gleichmässig verteilt.

Ein weiteres wichtiges Merkmal des Modells war die Verwendung eines "Stimmungs-Scores", der mit Hilfe von VADER (Valence-Aware Dictionary and Sentiment Reasoner) für die Transkripte der vierteljährlichen Gewinnmitteilungen berechnet wurde. Die Sentiment-Analyse wurde an den Transkript-Texten durchgeführt, um anhand der Sprache, die die Führungskräfte des Unternehmens in ihren Gesprächen mit den Anlegern verwenden, auf die Aussichten der einzelnen Unternehmen zu schliessen.


Beispiel für eine Mitschrift eines Gewinnspiels
Bild 2. Eine stark positive Sprache in Bezug auf die Unternehmensleistung führt zu einem Stimmungswert wie dem obigen, der zusammen mit den Finanzdaten des Unternehmens ein weiteres Merkmal für eine genauere Vorhersage der künftigen Leistung darstellt.

Es wurden verschiedene Regressionsmodelle verglichen, wobei ein XGBoost-Modell besser abschnitt als die anderen. Das Modell war in der Lage, die Unternehmensleistung (in Form von Renditen) für das nächste Finanzquartal mit einem relativ geringen mittleren absoluten Fehler (~10 %) vorherzusagen.


Prozentsatz des Fehlers
Bild 3. Nach der Vorhersage der künftigen Renditen können die Nutzer die vielversprechendsten Aktien ermitteln, um eine fundiertere Entscheidung treffen zu können.

Die nächsten Schritte für das Projekt sind der Aufbau einer benutzerfreundlichen App, die es den Nutzern ermöglicht, die Performance von Unternehmen zu verfolgen und auf einfache Weise diversifizierte, optimierte Portfolios im Hinblick auf ihr akzeptables Risiko und die Märkte, die sie interessieren, aufzubauen. Eine weitere ungenutzte Möglichkeit der Gewinnmitteilungen ist die direkte Nutzung der aufgezeichneten Audiodateien zusätzlich zu den Transkripten. Dies würde den Einsatz von Stimmungsanalysen ermöglichen, um die Emotionen und die Zuversicht des Sprechers zu ermitteln, was z. B. das Aufzeigen von Widersprüchen in der verwendeten Sprache im Vergleich zur Art und Weise, wie die Rede gehalten wird, ermöglicht.


Vielen Dank an alle für eine fantastische Zeit und eine tolle Projektphase! Die Constructor Academy wünscht allen unseren Data-Science-Absolventen das Beste für ihre Zukunft.


 
 

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog