Projelere dön
Yolcu Davranış Analizi Pipeline
Büyük ölçekli telemetri verisinden yolcu davranışı analizi. CPU (Dask) ve GPU (RAPIDS cuDF/cuSpatial) karşılaştırması.
Data ScienceDaskRAPIDSGPUPython
Detaylar
Proje hakkında
Büyük ölçekli telemetri verilerinden yolcu davranışlarını analiz etmek için uçtan uca bir veri işleme hattı geliştirdim. Ölçeklenebilirlik ve performans optimizasyonuna odaklanarak hem CPU paralel hem de GPU hızlandırmalı versiyonlar oluşturdum.
Hat; veri temizleme, konum/zaman bazlı filtreleme ve kullanıcı bazlı metrik hesaplama adımlarını içeriyor. Aynı işlem mantığını farklı altyapılarda çalıştırarak performans karşılaştırması yaptım.
Öne Çıkanlar
Önemli noktalar
- ~42 milyon satır veri işledim
- CPU paralel (Dask) ve GPU hızlandırmalı (RAPIDS) uygulamalar
- cuSpatial ile GPU üzerinde konum bazlı filtreleme
- CPU'dan GPU'ya geçişle önemli hız artışı elde ettim
Teknolojiler
Kullanılan araçlar
PythonDaskNVIDIA RAPIDScuDFcuSpatialPandasGeoPandas