Yeni bir analize göre, cilt sorunlarını saptamak için algoritmaları eğitmek için kullanılan herkese açık cilt görüntüsü veri kümeleri cilt tonu hakkında yeterli bilgi içermiyor. Ve cilt tonu bilgisinin mevcut olduğu veri kümelerinde, yalnızca çok az sayıda görüntü daha koyu tenlidir – bu nedenle bu veri kümelerini kullanarak oluşturulan algoritmalar beyaz olmayan insanlar için o kadar doğru olmayabilir.
Bugün The Lancet Digital Health’de yayınlanan çalışma, cilt koşullarına ilişkin görüntülerin serbestçe erişilebilen 21 veri kümesini inceledi. Kombine olarak, 100.000’den fazla görüntü içeriyorlardı. Bu görüntülerin 1.400’ünden biraz fazlası hastanın etnik kökenine ilişkin bilgi içeriyordu ve yalnızca 2.236’sı ten rengi hakkında bilgi içeriyordu. Bu veri eksikliği, araştırmacıların görüntüler üzerinde eğitilmiş algoritmalardaki önyargıları tespit etme becerisini sınırlandırıyor. Ve bu tür algoritmalar çok iyi önyargılı olabilir: Cilt tonu bilgisine sahip görüntülerden sadece 11’i, ten rengini sınıflandıran Fitzpatrick ölçeğinde en koyu iki kategoriye sahip hastalardandı. Afrikalı, Afro-Karayipli veya Güney Asya kökenli hastalardan hiçbir görüntü yoktu.
Sonuçlar, Eylül ayında yayınlanan ve çoğu veri setinin eğitim için kullanıldığını da ortaya koyan bir çalışmanın sonuçlarına benzer dermatoloji algoritmaları, etnik köken veya cilt tonu hakkında bilgi sahibi değildir. Bu çalışma, algoritmalar geliştiren veya test eden 70 çalışmanın arkasındaki verileri inceledi ve kullanılan görüntülerde sadece yedi kişinin cilt tiplerini tanımladığını buldu.
Stanford Üniversitesi’nde dermatoloji alanında klinik araştırmacı olan Roxana Daneshjou, “Cilt tonu dağılımlarını bildiren az sayıdaki makaleden gördüğümüz şey, bunların daha koyu ten tonlarının yeterince temsil edilmediğidir” ve Eylül gazetesinde yazar. Makalesi, yeni Lancet araştırması ile aynı veri kümelerinin çoğunu analiz etti ve benzer sonuçlara vardı.
Bir veri kümesindeki görüntüler herkese açık olduğunda, araştırmacılar hangi cilt tonlarının mevcut olduğunu gözden geçirebilir ve inceleyebilir. Ancak bu zor olabilir, çünkü fotoğraflar gerçek hayatta cilt tonunun nasıl göründüğüne tam olarak uymayabilir. Daneshjou, “En ideal durum, klinik ziyaret sırasında cilt tonunun not edilmesidir” diyor. Ardından, o hastanın cilt probleminin görüntüsü bir veri tabanına girmeden önce etiketlenebilir.
Görüntüler üzerindeki etiketler olmadan, araştırmacılar, farklı cilt tiplerine sahip yeterli sayıda insan örneği içeren veri kümeleri kullanılarak oluşturulup oluşturulmadıklarını görmek için algoritmaları kontrol edemezler.
Bu görüntü kümelerini dikkatle incelemek önemlidir, çünkü bunlar genellikle doktorların cilt rahatsızlıkları olan hastaları teşhis etmesine yardımcı olan algoritmalar oluşturmak için kullanılır; bunlardan bazıları (cilt kanseri gibi) erken yakalanmazlarsa daha tehlikelidir . Algoritmalar yalnızca açık ten üzerinde eğitilmiş veya test edilmişse, diğer herkes için o kadar doğru olmayacaktır. Yeni makalenin ortak yazarlarından David Wen, “Araştırmalar, yalnızca daha açık ten tipine sahip kişilerden alınan görüntüler üzerinde eğitilen programların, daha koyu tenli insanlar için doğru olmayabileceğini ve bunun tersi olduğunu göstermiştir” diyor. Oxford Üniversitesi.
Herkese açık veri kümelerine her zaman yeni görüntüler eklenebilir ve araştırmacılar daha koyu cilt koşullarıyla ilgili daha fazla örnek görmek ister. Veri kümelerinin şeffaflığını ve netliğini geliştirmek, araştırmacıların daha adil AI araçlarına yol açabilecek daha çeşitli görüntü kümelerine yönelik ilerlemeyi izlemelerine yardımcı olacaktır. Daneshjou, “Daha fazla açık veri ve daha iyi etiketlenmiş veri görmek istiyorum” diyor.