ImageNet zawiera 14 milionów opatrzonych adnotacjami obrazów z 21 841 kategorii pochodzących z bazy WordNet. Fei-Fei Li zainicjowała ten projekt w 2006 roku, angażując użytkowników serwisu Mechanical Turk ze 167 krajów do oznaczania obrazów. Konkurs ILSVRC rozpoczął się w 2010 roku i obejmował 1000 klas do klasyfikacji i wykrywania. W 2012 roku sieć CNN AlexNet osiągnęła 15,3% błędu w pierwszej piątce, czyli o 10,8 punktu procentowego lepiej niż druga w kolejności sieć, co wywołało boom na sztuczną inteligencję. Sukces w szkoleniu sieci CNN umożliwiły procesory graficzne (GPU). Do 2015 roku sieć ResNet przewyższyła ludzkie wyniki w ImageNet-1K. Błąd w pierwszej piątce spadł do 2,251% do 2017 roku, kiedy to zwyciężyła sieć SENet. Wyzwanie zakończyło się w 2017 roku, gdy benchmark osiągnął nasycenie. Ludzie szacowali maksymalny błąd na 2,4%. Ponad 6% etykiet walidacyjnych było błędnych. 10% etykiet było niejednoznacznych lub błędnych. 17% obrazów ImageNet-1K zawiera twarze, które później zostały zamazane przy minimalnej utracie wydajności. W 2021 r. usunięto 2702 kategorie osób, aby ograniczyć problematyczne zachowania modeli. 1593 z 2832 synsetów osób uznano za obraźliwe. Obrazy zebrane z wyszukiwarek w wielu językach. Każdy obraz oznaczony jednym identyfikatorem synsetu WordNet. Ramki ograniczające na 1 milionie obrazów. Pełny ImageNet-21K ma nierówne rozmiary klas, niektóre zawierają 1–10 obrazów. Podzbiór ImageNet-1K zawiera 1,28 mln obrazów szkoleniowych, 50 tys. walidacyjnych i 100 tys. testowych. Adnotacje tworzone w ramach crowdsourcingu wynosiły średnio 50 obrazów na minutę na pracownika. Pierwotny plan zakładał 400 mln obrazów, ale został ograniczony. Zbiór danych spowodował przejście z SVM na CNN w konkursach.
Komentarze
Napisz pierwszy komentarz!