Projelere dön

Yolcu Davranış Analizi Pipeline

Büyük ölçekli telemetri verisinden yolcu davranışı analizi. CPU (Dask) ve GPU (RAPIDS cuDF/cuSpatial) karşılaştırması.

Data ScienceDaskRAPIDSGPUPython

Detaylar

Proje hakkında

Büyük ölçekli telemetri verilerinden yolcu davranışlarını analiz etmek için uçtan uca bir veri işleme hattı geliştirdim. Ölçeklenebilirlik ve performans optimizasyonuna odaklanarak hem CPU paralel hem de GPU hızlandırmalı versiyonlar oluşturdum.

Hat; veri temizleme, konum/zaman bazlı filtreleme ve kullanıcı bazlı metrik hesaplama adımlarını içeriyor. Aynı işlem mantığını farklı altyapılarda çalıştırarak performans karşılaştırması yaptım.

Öne Çıkanlar

Önemli noktalar

  • ~42 milyon satır veri işledim
  • CPU paralel (Dask) ve GPU hızlandırmalı (RAPIDS) uygulamalar
  • cuSpatial ile GPU üzerinde konum bazlı filtreleme
  • CPU'dan GPU'ya geçişle önemli hız artışı elde ettim

Teknolojiler

Kullanılan araçlar

PythonDaskNVIDIA RAPIDScuDFcuSpatialPandasGeoPandas