본문 바로가기
카테고리 없음

화상생성 학습 프레임워크 ImageGPT

by *1*s 2020. 7. 7.

화상생성 학습 프레임워크 ImageGPT


OpenAI 연구팀이 개발한 ImageGPT는, 화상 생성을 학습하기 위한 프레임워크입니다.


지난해 팀에서 발표한 자연어 문장 자동생성 모델 GPT-2를 이미지에 적용한 겁니다.


OpenAI는 일론 머스크 씨가 공동 회장을 맡는 미국의 AI 연구 기업입니다.




GPT-2는 짧은 문장을 입력하면 그럴듯한 장문을 자동으로 작성해 주는 모델로, 높은 정확도가 일부 화제가 됐습니다.


모델은 800만의 Web 페이지의 데이터 세트로 훈련해, 15억의 파라메타를 가지는 48층의 네트워크로 구성.알고리즘은 RNN(Recurity Neural Network)이나 CNN(Convolutional Neural Network)의 재귀나 접합을 이용하지 않고, Atention만 사용한 Transformer를 채용하고 있습니다.


이번에 이모델을 이미지로 시험한 결과, 이미지보완을 통해 그럴듯한 샘플 이미지를 생성할 수 있는 것을 알 수 있었습니다.


이미지의 절반을 입력에 나머지 이미지를 자동 생성함으로써 인식 가능한 객체가 찍히는 일관된 샘플 이미지를 생성합니다.


이 네트워크에서는, 7600만의 파라메타를 가지는 「iGPT-S」, 4억 5500만의 파라메타를 가지는 「iGPT-M」, 14억의 파라메타를 가지는 「iGPT-L」를 각각 포함한 Transformer를, 대규모 화상 데이터 세트 「ImageNet」에서 훈련합니다.




68억의 파라미터를 가지는 「iGPT-XL」도, ImageNet 와 Web로부터의 화상을 조합한 데이터 세트로 훈련합니다.


입력 이미지에서 전처리로서 저해상도로 리사이즈하고 1열의 시퀀스로 변환 후 픽셀 계열을 Transformer에 넣어 학습합니다.


학습한 모델을 다른 화상 데이터 세트에서 정량적으로 퍼포먼스 평가한 결과, ResNet 나 SimCLR 등 교사 있음/없음 화상 학습 모델을 웃돌아 높은 결과를 얻을 수 있었습니다.


그러나, 저해상도에 한정되는 등 과제도 남기고 있습니다.



댓글