Data Science Abschlussprojekte Batch #17

von Ekaterina Butyugina

Data Science Projekt
In diesem Blog-Beitrag stellen wir die Projekte unserer Data Science-Studenten aus Batch #17 vor, die sie innerhalb des letzten Monats der dreimonatigen Ausbildung umgesetzt haben. Sehe dir die Ergebnisse an, die sie in so kurzer Zeit erzielt haben.
 

Cortexia: Nachhaltig saubere Stadt - Abfalldetektor 

Studenten: Satanei Zhinova, Jeremy Choppe, Martin Erhardt
 
Cortexia ist ein Technologieunternehmen, das eine weltweit führende Lösung für die effiziente Reinigung von Städten anbietet und dabei Ressourcen spart und die Qualität des Abwassers und der Landschaft bewahrt. Es stellt öffentliche Verwaltungen - den Reinigungsdienst von Städten wie Basel, Genf und der Region Paris (GPSO) - digitale Werkzeuge zur Verfügung.
 
Eine Kamera ist mit einer Edge-Computing-Einheit verbunden, die auf Kehrmaschinen und anderen Fahrzeugen montiert ist, die in der Stadt unterwegs sind und die Strassen reinigen. Mit Hilfe der Objekterkennung werden die Verschmutzungen gezählt und ein Mass für die Sauberkeit ermittelt. Diese Informationen werden auf einer Benutzeroberfläche angezeigt, um die Kunden bei der Entscheidungsfindung zu unterstützen.
 
Die Qualität der Erkennung hat einen grossen Einfluss auf die Optimierung und Verwaltung der Reinigungsressourcen.  Ein gutes Mass für die Qualität sind die Genauigkeit und der Wiedererkennungswert für verschiedene Klassen von Abfällen. 
 
Ziel des Projekts war es, das Cortexia-Objekterkennungsmodell, das das Transfer-Lernen mit einer neuen Implementierung in TensorFlow 2 bereitstellt, zu vergleichen. 
 
Satanei, Jeremy und Martin wählten und trainierten verschiedene vor-trainierte Modelle für die Bilderkennung, wobei sie von Tensorflow 1 auf Tensorflow 2 übergingen; sie erstellten eine gebrauchsfertige Data-Science-Pipeline einschliesslich Datenformatierung und Modelltraining; sie bewerteten die Modelle anhand visueller Überprüfungen sowie gängiger Metriken, nämlich der mittleren durchschnittlichen Präzision. 
 
Insgesamt hatten sie eine Basis von etwa 10K Bildern mit ~200K Tags, die 61 Wurfarten repräsentieren. Die besten Ergebnisse wurden durch die Verwendung von MobileNet V2 erzielt, da dieses Modell leicht und effizient genug für diese Art von Daten ist. Es wurde festgestellt, dass das Modell bei mittelgrossen/grossen Objekten besser funktioniert.

Cortexia
Um ein kommerziell nutzbares Niveau zu erreichen, ist jedoch deutlich mehr Rechenleistung für eine viel höhere Anzahl von Trainingsiterationen erforderlich. Zu den künftigen Aufgaben gehören auch das Training des Modells mit Klassenausgleich, Datenerweiterung, Einfriertechniken und die Überwachung der Lernkurve. 
 

NxGen Medizinische Dienstleistungen: Schweizer Spitäler Assistentin

Studenten: Zuzana Dostalova und Ansam Zedan

NXGEN Medical Services ist ein Startup-Unternehmen, das sich auf Datenerfassung, maschinelles Lernen und prädiktive Analysen im Gesundheitsbereich spezialisiert hat. 

Ziel dieses Projekts war es, eine Anwendung zu entwickeln, die Patienten und die Verteilung von Krankheiten in bestimmten Kantonen analysieren kann, um Schweizer Krankenhäuser bei der Verbesserung ihrer Behandlungsmöglichkeiten zu unterstützen. 

Der Arbeitsablauf umfasste drei wichtige Schritte: das Sammeln von realen Daten aus verschiedenen Quellen, deren Verarbeitung und das Hochladen in die Datenbank des Unternehmens. Die gesammelten Daten enthielten Informationen auf Deutsch, Französisch und Italienisch, so dass das Team Deep Learning einsetzte, um sie ins Englische zu übersetzen. Der nächste Schritt war die Erstellung einer Pipeline unter Verwendung von Textverarbeitungstechniken mit dem Ziel, das einfache Einfügen zukünftiger Daten in die Unternehmensdatenbank zu ermöglichen. 

Darüber hinaus wurden die vorliegenden Daten mit statistischen Tools, Visualisierung und maschinellem Lernen analysiert. Diese Werkzeuge waren die wesentlichen Bestandteile der interaktiven App, die Zuzana und Ansam mit Streamlit erstellt haben. 
 
Die untenstehende Grafik enthält zum Beispiel folgende Informationen: die Anzahl der Patienten pro Spital nach Krankheitskategorie, die Stadt und den Kanton, in dem sich das Spital befindet, und die Bevölkerungszahl. In unserer Anwendung kannst du mit dem Mauszeiger über die Städte fahren, um weitere Daten anzuzeigen:

nxgen
Wir hoffen, dass dieses Wissen den Patienten in Zukunft helfen wird, die beste und nächstgelegene medizinische Einrichtung zur Behandlung ihrer Krankheit zu finden. Darüber hinaus könnte es bei der Entwicklung eines Algorithmus helfen, der die Qualität von Krankenhäusern auf der Grundlage der Sterblichkeit, der Verlegung von Patienten in ein anderes Krankenhaus aufgrund des Mangels an spezialisierten Ärzten oder Geräten, der Dauer des Aufenthalts im Krankenhaus usw. analysiert und bewertet.

Wir hoffen, dass diese App die Qualität der medizinischen Versorgung, insbesondere in Randgebieten, verbessern und die Verfügbarkeit von medizinischer Ausrüstung erhöhen wird.
        

Nispera: KI-basierte Erkennung von Anomalien an Windkraftanlagen    

Studenten: Franco Pallitto und David Peculić

In den letzten zehn Jahren und insbesondere nach dem Pariser Abkommen wurde viel Wert auf die Verhinderung des Klimawandels und der Zerstörung der Erde gelegt. Eine der Antworten auf dieses beunruhigende Problem ist die vollständige Umstellung von fossilen Brennstoffen auf erneuerbare Energiequellen.

Nispera, ein 2015 gegründetes Unternehmen mit Sitz in Zürich, ist ein schnell wachsendes Unternehmen, das Datenlösungen für die Branche der erneuerbaren Energien anbietet. Ihre aus Daten gewonnenen Erkenntnisse und Lösungen haben sich für ihre Kunden als wertvoll erwiesen, um die Energieproduktion zu optimieren. 

Nispera befasst sich mit allen relevanten erneuerbaren Energiequellen, aber in Bezug auf dieses Projekt konzentrierten wir uns in erster Linie auf die Windenergie und die Optimierung der Leistung von Windkraftanlagen. 

Ziel des Projekts war es, Anomalien in Windkraftanlagen zu erkennen und zu kategorisieren, um ineffiziente Betriebszustände von Windkraftanlagen zu vermeiden. Die beiden Anomalien, die das Team erkennen wollte, waren Leistungskurvenverschiebungen und Leistungseinschränkungen. Die Anomalie der Leistungskurvenverschiebung ist wichtig, weil sie die Frage beantwortet, ob die Windturbine falsch kalibriert ist oder ob Herstellungsfehler vorliegen, und die Anomalie der Leistungsreduzierung ist wichtig, weil sie für die Analyse der Stromerzeugung im Zeitverlauf von entscheidender Bedeutung ist. 

Nispera
In der oberen Abbildung siehst du die Erkennung von Leistungseinschränkungen und in der unteren Abbildung die Erkennung von Leistungskurvenverschiebungen:

Nispera
Franco und David wandten statistische Ansätze und Techniken des maschinellen Lernens an, um zu ihrer Lösung zu gelangen, die in der Lage ist, eindeutig zwischen den beiden zuvor beschriebenen Anomalien von Windkraftanlagen zu unterscheiden. 

Abschliessend lässt sich sagen, dass die Lösung den Kunden enorme Ressourcen sparen kann, da sie kostspielige Fehlfunktionen von Windkraftanlagen erkennen und kategorisieren kann.
 

South Pole: Superauflösung für Satellitenbilder

Studenten: Elena Gronskaya und Özgün Haznedar

South Pole ist ein Unternehmen, das mit Unternehmen und Regierungen auf der ganzen Welt zusammenarbeitet, um Projekte zur Reduzierung von Kohlenstoffemissionen, zum Klimaschutz und zur Nachhaltigkeit durchzuführen. Eines der Ziele ist die Entwaldung, eine Praxis, die die Kapazität zur Kohlenstoffbindung in Ökosystemen auf der ganzen Welt drastisch reduziert. 

Um die Auswirkungen dieser Massnahmen, wie z. B. die Einrichtung von geschützten Nationalparks/Safari-Reservaten, die Einführung effektiver landwirtschaftlicher Techniken in den Gemeinden usw., zu bewerten, muss South Pole Satellitenbilder verwenden, um die Menge des in einer bestimmten geografischen Region gebundenen Kohlenstoffs vor und nach einer Massnahme (in der Regel über einen Zeitraum von 7-10 Jahren) zu vergleichen. Da es seit vielen Jahren keine hochauflösenden Satellitenbilder mehr gibt und für den Ausgangszeitraum nur Bilder mit mittlerer Auflösung zur Verfügung stehen, ist es oft schwierig, ausreichend genaue Analysen für den historischen Ausgangszeitraum zu erstellen, was mit viel Handarbeit verbunden ist.

Um dieses Problem zu lösen, nutzten Elena und Özgün Deep Learning-Modelle für Image Super-Resolution: Sie trainierten ein neuronales Faltungsnetzwerk, um Satellitenbilder mit mittlerer Auflösung herunterskalieren zu können, damit sie besser mit hochauflösenden Bildern vergleichbar werden. 

Um einen Datensatz zu erhalten, nutzten sie die Python-API für Google Earth Engine und erwarben Bilder von Lansdat 8 (30 m/pixel Auflösung) und Sentinel-2 (10 m/pixel Auflösung). Die geografischen Standorte wurden aus Regionen mit hoher Entwaldungsrate ausgewählt. Nachdem wolkige und fehlerhafte Bilder herausgefiltert und die Landsat-Sentinel-Paare zeitlich so abgestimmt wurden, dass sie innerhalb von maximal 7 Tagen aufgenommen wurden, ergab sich ein Datensatz von 800 hochwertigen Bildpaaren.  

SouthPole
Zu den implementierten Netzwerken gehören: Residual Dense Network (RDN), Residual in Residual Dense Network (RRDN1, RRDN2), EDSR, Super Resolution GAN (SRGAN1, SRGAN2). 

Nach dem Training ihrer Modelle auf dem Goldstandard-DIV2K-Datensatz sowie auf ihren eigenen Landsat-Sentinel-Satellitenbildpaardaten, dem Testen verschiedener Hyperparameter und der Feinabstimmung erzielte das Team superauflösende Bilder, die die Vergleichsbilder übertrafen. 

Modelle mit kontradiktorischen Komponenten (RRDN und SRGAN EDSR) lieferten die besten Ergebnisse. Zur Bewertung der Vorhersagen der Modelle wurde ein gradientenbasierter Schärfeindex als Metrik verwendet.  

SouthPole
Zusammenfassend lässt sich sagen, dass sie erfolgreich einen PoC für die Verwendung von Deep-Learning-basierten Bild-Super-Resolution-Modellen zur Hochskalierung von Satellitenbildern mit geringer Auflösung entwickelt haben. Die resultierenden Bilder können die Bewertung der Auswirkungen von Massnahmen auf die Kohlenstoffbindung in den geografischen Regionen erleichtern, in denen Klimaschutzprojekte durchgeführt wurden. 
 
In Zukunft sollen diese Modelle mit weiteren Daten aus verschiedenen Regionen trainiert und neuere Super-Resolution-Modellarchitekturen auf der Grundlage von Transformatoren getestet werden.
 

Vielen Dank an alle für die grossartige Zusammenarbeit und für die spannende Projektphase! Im Namen der Constructor Academy wünschen wir unseren Data Science-Absolventen alles Gute.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog