İngiliz üniversitelerinden bir araştırma ekibi, mikrofon kullanılarak kaydedilen klavye tuş vuruşlarından %95 doğrulukla veri çalabilen bir derin öğrenme modeli eğitti.
Ses sınıflandırma algoritmasını eğitmek için Zoom kullanıldığında, tahmin doğruluğu %93’e düştü ki bu hala tehlikeli derecede yüksek ve bu ortam için bir rekor.
Böyle bir saldırı, insanların şifrelerini, tartışmalarını, mesajlarını veya diğer hassas bilgilerini kötü niyetli üçüncü taraflara sızdırabileceğinden, hedefin veri güvenliğini ciddi şekilde etkiler.
Ayrıca, özel koşullar gerektiren ve veri hızı ve mesafe sınırlamalarına tabi olan diğer yan kanal saldırılarının aksine, akustik saldırılar, yüksek kaliteli ses yakalayabilen mikrofon taşıyan cihazların bolluğu nedeniyle çok daha basit hale gelmiştir.
Bu durum, makine öğrenimindeki hızlı ilerlemelerle birleştiğinde, ses tabanlı yan kanal saldırılarını uygulanabilir ve önceden tahmin edilenden çok daha tehlikeli hale getirmektedir.
Tuş vuruşlarını dinleme
Saldırının ilk adımı hedefin klavyesindeki tuş vuruşlarını kaydetmektir, çünkü bu veriler tahmin algoritmasını eğitmek için gereklidir. Bu, yakındaki bir mikrofon veya mikrofonuna erişimi olan kötü amaçlı yazılım bulaşmış olabilecek hedefin telefonu aracılığıyla gerçekleştirilebilir.
Alternatif olarak tuş vuruşları, sahte bir toplantı katılımcısının hedef tarafından yazılan mesajlar ile ses kayıtları arasında korelasyon kurduğu bir Zoom görüşmesi aracılığıyla kaydedilebilir.
Araştırmacılar, modern bir MacBook Pro’daki 36 tuşa 25’er kez basarak ve her basışta çıkan sesi kaydederek eğitim verilerini topladı.
Ardından, kayıtlardan her tuş için tanımlanabilir farklılıkları görselleştiren dalga formları ve spektrogramlar ürettiler ve tuş vuruşlarını tanımlamak için kullanılabilecek sinyalleri artırmak için belirli veri işleme adımları gerçekleştirdiler.
Spektrogram görüntüleri, bir görüntü sınıflandırıcı olan ‘CoAtNet’i eğitmek için kullanılırken, süreç, en iyi tahmin doğruluğu sonuçları elde edilene kadar epok, öğrenme oranı ve veri bölme parametreleri ile bazı deneyler yapılmasını gerektirmiştir.
Araştırmacılar deneylerinde, klavyesi son iki yıldır tüm Apple dizüstü bilgisayarlarda kullanılan aynı dizüstü bilgisayarı, hedeften 17 cm uzağa yerleştirilmiş bir iPhone 13 mini ve Zoom kullandılar.
CoANet sınıflandırıcısı akıllı telefon kayıtlarından %95, Zoom aracılığıyla çekilenlerden ise %93 doğruluk elde etmiştir. Skype daha düşük ancak yine de kullanılabilir %91,7 doğruluk oranı üretmiştir.
Olası hafifletmeler
Makale, akustik yan kanal saldırılarından aşırı endişe duyan kullanıcılar için, yazma stillerini değiştirmeyi veya rastgele şifreler kullanmayı deneyebileceklerini önermektedir.
Diğer potansiyel savunma önlemleri arasında tuş seslerini yeniden üretmek için yazılım kullanmak, beyaz gürültü veya yazılım tabanlı tuş ses filtreleri yer alıyor.
Unutmayın, saldırı modeli çok sessiz bir klavyeye karşı bile oldukça etkili olduğunu kanıtladı, bu nedenle mekanik klavyelere ses sönümleyiciler eklemek veya membran tabanlı klavyelere geçmek pek yardımcı olmayacaktır.
Sonuç olarak, mümkün olan yerlerde biyometrik kimlik doğrulama kullanmak ve hassas bilgileri manuel olarak girme ihtiyacını ortadan kaldırmak için şifre yöneticilerinden yararlanmak da hafifletici faktörler olarak hizmet eder.
Güncelleme 8/16 – Bir Zoom sözcüsü BleepingComputer’a yukarıdaki konuyla ilgili aşağıdaki yorumu gönderdi:
Zoom, kullanıcılarımızın gizliliğini ve güvenliğini ciddiye almaktadır.
Araştırmacılar tarafından önerilen azaltma tekniklerine ek olarak, Zoom kullanıcıları bilgilerini daha güvenli tutmaya yardımcı olmak için arka plan gürültüsü bastırma özelliğimizi daha yüksek bir ayara ayarlayabilir, bir toplantıya katılırken varsayılan olarak mikrofonlarını sessize alabilir ve bir toplantı sırasında yazarken mikrofonlarını sessize alabilir.