Projelere dön

Amazon Kitap Yorumu Benzerlik Tespiti

MinHash ve LSH ile ~3 milyon Amazon kitap yorumunda benzerlik tespiti.

Big DataLSHMinHashPython

Detaylar

Proje hakkında

Amazon Kitap Yorumları veri setinden benzer yorumları tespit etmek için MinHash ve LSH kullanarak sıfırdan ölçeklenebilir bir sistem geliştirdim.

Shingling ile metin temsili, MinHash ile Jaccard benzerliği tahmini ve banding ile verimli aday çıkarımı yaptım. Ön filtreleme ile gereksiz karşılaştırmaları azalttım.

Öne Çıkanlar

Önemli noktalar

  • ~3 milyon yorum üzerinde benzerlik tespiti
  • Sıfırdan MinHash ve LSH uygulaması
  • Banding ile verimli aday çıkarımı
  • Çalışma süresi ve doğruluk metrikleriyle analiz

Teknolojiler

Kullanılan araçlar

PythonNumPyPandasGoogle Colab