Data sources

Image

| Dataset | Description | Details | Sample Code | |———-|————-|———|————-| | MNIST | - MNIST (Modified National Institute of Standards and Technology)
- 손글씨 데이터 | - 총 70000개, 60000개 훈련데이터, 10000개 테스트 데이터
- 28x28 Grayscale (0-255)
- 레이블 0-9 총 10개의 클래스 | MNIST Code | | CIFAR-10 | - Canadian Institute For Advanced Research (후원)
- 10개의 다른 클래스 | - 60000개, 32x32 컬러 이미지
- 50000개: 훈련데이터, 나머지 10000개: 테스트 데이터
- 레이블: 0-9 (비행기, 자동차, 새, 고양이, 사슴, 개, 개구리, 말, 배, 트럭) | CIFAR-10 Code | | STL-10 | - 스탠포드 대학교 제공
- Stanford Tiled | - 96x96 컬러 이미지
- 클래스 10개: 비행기, 새, 자동차, 고양이, 사슴, 개, 말, 원숭이, 배, 트럭
- 학습데이터 5000개, 클래스당 500개 / 테스트데이터 8000개
- 비지도학습을 위한 10만개의 레이블 없는 이미지 포함 | STL-10 Code | | ImageNet | - 1000개 카테고리, 1200000개의 훈련 이미지, 50000 검증 이미지, 150000개 테스트 이미지
- ILSVRC (ImageNet Large Scale Visual Recognition Challenge): ImageNet 데이터셋을 기반으로 한 연간 경쟁 대회. 객체 탐지, 이미지 분류, 객체 위치 지정 | - 딥러닝과 컴퓨터 비전
- 2012년 AlexNet 우승
- 라벨링: WordNet 계층 구조를 기반으로 라벨링. 각각의 WordNet 명사는 하나 이상의 이미지로 표현되며, 이를 통해 다양한 시각적 개념을 포착 | ImageNet Link | | AI Hub | - 한국의 AI 데이터 허브 | - 다양한 데이터셋 제공 | AI Hub Link | | COCO (Common Objects in Context) | 객체 탐지, 세그멘테이션(segmentation), 캡션 생성 등을 위한 데이터셋 | 330K 이미지, 200K 레이블, 80 객체 카테고리 | | Pascal VOC | 객체 탐지, 세그멘테이션(segmentation)을 위한 데이터셋 | 20 객체 카테고리 | | ADE20K | 시각적 의미론적 세그멘테이션(semantic segmentation)을 위한 데이터셋 | 150개 이상의 객체와 부분 카테고리 | | Cityscapes | 도시 풍경 이미지의 세그멘테이션(segmentation)을 위한 데이터셋 | 50개 도시의 다양한 시나리오 | | CelebA | 유명인 얼굴 이미지 데이터셋 | 200K+ 이미지, 40개 속성 레이블 | | LSUN (Large-scale Scene Understanding) | 시각적 장면 이해를 위한 데이터셋 | 10개의 장면 카테고리와 20개의 객체 카테고리 | | Kinetics | 동영상 분류를 위한 데이터셋 | 400개의 동작 카테고리, 300K+ 동영상 클립 | | UCF101 | 동영상 분류를 위한 데이터셋 | 101개의 동작 카테고리 | | Fashion MNIST | 의류 이미지 데이터셋, MNIST의 대안으로 사용 | 10개의 의류 카테고리, 28x28 Grayscale | | SVHN (Street View House Numbers) | 거리 뷰 이미지에서 집 번호 인식을 위한 데이터셋 | 600K+ 숫자 이미지 | | LIDC-IDRI (Lung Image Database Consortium and Image Database Resource Initiative) | 폐 CT 영상 데이터셋 | 1000개의 비침습성 폐 CT 영상, 약 4만개의 레이블 | | BRATS (Brain Tumor Segmentation Challenge) | 뇌 종양 세그멘테이션(segmentation) 데이터셋 | MRI 영상을 기반으로 한 뇌 종양 데이터 | | ISIC (International Skin Imaging Collaboration) | 피부 암 진단을 위한 데이터셋 | 다양한 피부 병변 이미지 | | Mammographic Masses | 유방암 진단을 위한 맘모그래피 데이터셋 | 유방암 여부와 관련된 속성 정보 포함 | | DRIVE (Digital Retinal Images for Vessel Extraction) | 망막 이미지 데이터셋 | 혈관 추출을 위한 40개의 컬러 망막 이미지 | | DDSM (Digital Database for Screening Mammography) | 디지털 유방 X-선 영상 데이터셋 | 유방암 진단을 위한 X-선 영상 | | AID (Arrhythmia Identification Dataset) | 부정맥 식별을 위한 심전도(ECG) 데이터셋 | 다양한 부정맥 유형의 심전도 데이터 | | OASIS (Open Access Series of Imaging Studies) | 뇌 MRI 데이터셋 | 노인의 뇌 MRI 영상 및 관련 임상 데이터 | | ANHIR (Automatic Non-rigid Histological Image Registration Challenge) | 조직학적 이미지 등록 챌린지 데이터셋 | 다양한 조직학적 슬라이드 이미지 | | KiTS19 (2019 Kidney and Kidney Tumor Segmentation Challenge) | 신장 및 신장 종양 세그멘테이션 챌린지 데이터셋 | CT 영상 기반의 신장 및 신장 종양 데이터 | | Dataset Name | Description | Download Link | |————–|————-|————–| | Breast Ultrasound Images Dataset | 유방 초음파 영상 데이터셋. 양성 및 악성 종양의 이미지 포함 || Kaggle | | Thyroid Ultrasound Dataset | 갑상선 초음파 영상 데이터셋. 갑상선의 정상 및 비정상 영상 포함 || Kaggle | | POCUS: Point-of-Care Ultrasound Dataset | 다양한 부위의 초음파 영상 데이터셋. 포인트 오브 케어 초음파 이미지 포함 || POCUS101 | | Cardiac Ultrasound Dataset | 심장 초음파 영상 데이터셋. 심장의 구조 및 기능을 평가하기 위한 영상 || Grand Challenge | | Ultrasound Nerve Segmentation | 신경 초음파 영상 데이터셋. 신경의 위치를 자동으로 세분화하기 위한 영상 || Kaggle |

  • Refer to
    • https://github.com/sfikas/medical-imaging-datasets
    • file:///D:/Downloads/3.%EC%97%B0%EC%82%B0%EC%84%B8%EC%85%98%EC%83%9D%EC%84%B1%EB%B0%8F%EC%98%88%EC%A0%9C_%EC%8B%A4%EC%8A%B5.pdf

MNIST

  • MNIST (Modified National Institute of Standards and Technology)
  • 손글씨 데이터
  • 총 70000개, 60000개 훈련데이터, 10000개 테스트 데이터
  • 28x28 Grayscale (0-255)
  • 레이블 0-9 총 10개의 클래스
import torchvision.transforms as transforms
from torchvision.datasets import MNIST
from torch.utils.data import DataLoader

# 데이터 전처리 (예: 텐서로 변환)
transform = transforms.Compose([transforms.ToTensor()])

# MNIST 데이터셋 다운로드
mnist_train = MNIST(root='./data', train=True, transform=transform, download=True)
mnist_test = MNIST(root='./data', train=False, transform=transform, download=True)

# DataLoader를 사용하여 배치 처리
train_loader = DataLoader(mnist_train, batch_size=32, shuffle=True)
test_loader = DataLoader(mnist_test, batch_size=32, shuffle=False)

CIFAR-10

  • Canadian Institute For Advanced Research (후원)
  • 10개의 다른 클래스
  • 레이블
    • 0 Airplane 비행기
    • 1 Automobile 자동차
    • 2 Bird 새
    • 3 Cat 고양이
    • 4 Deer 사슴
    • 5 Dog 개
    • 6 Frog 개구리
    • 7 Horse 말
    • 8 Ship 배
    • 9 Truck 트럭
  • 60000개, 32x32 컬러 이미지
  • 50000개: 훈련데이터, 나머지 10000개: 테스트 데이터
from torchvision.datasets import CIFAR10

# 데이터 전처리 (예: 텐서로 변환 및 정규화)
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])

# CIFAR-10 데이터셋 다운로드
cifar10_train = CIFAR10(root='./data', train=True, transform=transform, download=True)
cifar10_test = CIFAR10(root='./data', train=False, transform=transform, download=True)

# DataLoader를 사용하여 배치 처리
train_loader = DataLoader(cifar10_train, batch_size=32, shuffle=True)
test_loader = DataLoader(cifar10_test, batch_size=32, shuffle=False)

STL-10

  • 스탠포드 대학교 제공
  • Stanford Tiled
  • 이미지 분류 벤치마크 데이터셋, CIFAR-10보다 이미지의 해상도가 높고 데이터셋의 구성이 약간 다름
  • 비지도학습 알고리즘의 성능 평가를 위해 사용
  • 96x96 컬러 이미지
  • 클래스 10개: 비행기, 새, 자동차, 고양이, 사슴, 개, 말, 원숭이, 배, 트럭
  • 학습데이터 5000개, 클래스당 500개 / 테스트데이터 8000개
  • 비지도학습을 위한 10만개의 레이블 없는 이미지 포함
import torchvision.transforms as transforms
from torchvision.datasets import STL10
from torch.utils.data import DataLoader

# 데이터 변환 (ToTensor는 이미지를 PyTorch 텐서로 변환합니다)
transform = transforms.ToTensor()

# STL-10 학습 데이터 다운로드
train_dataset = STL10(root='./data', split='train', download=True, transform=transform)

# STL-10 테스트 데이터 다운로드
test_dataset = STL10(root='./data', split='test', download=True, transform=transform)

# 데이터 로더 생성 (예: 배치 크기 32로 설정)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

ImageNet

  • 1000개 카테고리, 1200000개의 훈련 이미지, 50000 검증 이미지, 150000개 테스트 이미지
  • ILSVRC (ImageNet Large Scale Visual Recognition Challenge): ImageNet 데이터셋을 기반으로 한 연간 경쟁 대회. 객체 탐지, 이미지 분류, 객체 위치 지정
  • 딥러닝과 컴퓨터 비전
  • 2012년 AlexNet 우승
  • 라벨링: WordNet 계층 구조를 기반으로 라벨링. 각각의 WordNet 명사는 하나 이상의 이미지로 표현되며, 이를 통해 다양한 시각적 개념을 포착
  • 용량이 매우 크므로(100~120G), 전체 데이터를 받으려면 직접 다운로드해야 함.
    • https://huggingface.co/datasets/imagenet-1k/tree/main/data

AI Hub

https://aihub.or.kr/

Data

Web API 제공자