Projelere dön
Amazon Kitap Yorumu Benzerlik Tespiti
MinHash ve LSH ile ~3 milyon Amazon kitap yorumunda benzerlik tespiti.
Big DataLSHMinHashPython
Detaylar
Proje hakkında
Amazon Kitap Yorumları veri setinden benzer yorumları tespit etmek için MinHash ve LSH kullanarak sıfırdan ölçeklenebilir bir sistem geliştirdim.
Shingling ile metin temsili, MinHash ile Jaccard benzerliği tahmini ve banding ile verimli aday çıkarımı yaptım. Ön filtreleme ile gereksiz karşılaştırmaları azalttım.
Öne Çıkanlar
Önemli noktalar
- ~3 milyon yorum üzerinde benzerlik tespiti
- Sıfırdan MinHash ve LSH uygulaması
- Banding ile verimli aday çıkarımı
- Çalışma süresi ve doğruluk metrikleriyle analiz
Teknolojiler
Kullanılan araçlar
PythonNumPyPandasGoogle Colab