AI/Computer Vision
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021)AI/Computer Vision 2023. 5. 9. 18:15
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021) Generative model : Diffusion Model DIffusion (forward process) -> : 이미지에 고정된(fixed) 정규 분포(=Gaussian분포)로 생성된 Noise가 더해지고 Sampling (reverse process)
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN) 정리AI/Computer Vision 2022. 2. 14. 13:30
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN) 정리 1. Introduction Image-to-image translation은 짝진 형태의 이미지 train 세트를 이용해 인풋 이미지와 아웃풋 이미지를 매핑하는 것이 목표인, 컴퓨터 비전과 그래픽의 한 분야입니다. 하지만 많은 태스크에 있어서 짝이 지어진 학습 데이터를 얻는 것이 불가능합니다. Image-to-image translation의 대표적인 모델인 Pix2pix는 GAN loss를 합친 목적 함수를 이용하여 성능을 높였지만, training data가 pair로 존재해야만 한다는 한계점이 존재합니다. 따라서 CycleGAN 논..
Fully convolutional networks for semantic segmentation (FCN) 정리AI/Computer Vision 2022. 1. 15. 22:47
Fully convolutional networks for semantic segmentation (FCN) 정리 - FCN = Fully Convolutional Network : classifcation을 수행하는 FC layer (Fully Connected Layer)없이, 오직 convolution으로만 모델 구성! -> semantic segmentation을 수행한다! - 이 논문에서는 모든 부분을 크게 (1) Fully convolutional networks와 (2) semantic segmentation 두 부분으로 나눠서 설명한다. Introduction과 Related Work 내에서도 이렇게 크게 두 개로 나눠서 설명하므로 유념할 것! (1) 이 논문에서 Fully Convolut..
Densely Connected Convolutional Networks 정리 및 코드 구현 by Pytorch [DenseNet]AI/Computer Vision 2021. 11. 2. 00:24
Densely Connected Convolutional Networks 정리 및 코드 구현 by Pytorch [DenseNet] Abstract Layer들 간에 Short Connection들을 좀 더 많이 만든다면 성능 올라가지 않을까? 각 레이어에서 뒤따라오는 레이어들로 L(L+1)/2 개의 connection들 만든다! => Vanishing Gradient 문제 완화, Feature propagation 강화, feature reuse 강화, parameter 수 감소의 효과! Introduction 기존) CNN이 층이 깊어질수록 Vanishing Gradient 등의 문제가 생겨 이를 해결하기 위해 ResNet이나 Highway Network 등장! => 둘의 공통점 : 전의 레이어에서 ..
Deep Residual Learning for Image Recognition 정리 및 코드 구현 by Pytorch [ResNet]AI/Computer Vision 2021. 9. 25. 19:53
Deep Residual Learning for Image Recognition 정리 및 코드 구현 by Pytorch [ResNet] 1. Introduction "Is learning better networks as easy as stacking more layers?" -> 오히려 the problem of vanishing/exploding gradients => Overfitting이 문제인가? 아님. 네트워크의 층이 깊어질수록, degradation problem이 발견 (degradation problem은 layers가 깊어지면 깊어질수록 training error가 더 높아지며, 따라서 test error또한 동일하게 높아지는 현상) -> accuracy는 saturated (마치 뭔가..
Rethinking the Inception Architecture for Computer Vision 정리 [Inception-V2 / Inception-V3]AI/Computer Vision 2021. 9. 14. 09:25
Rethinking the Inception Architecture for Computer Vision 정리 [Inception-V2 / Inception-V3] 선행되어 연구되었던 Going deeper with convolutions, 즉 GoogLeNet은 VGG을 이기고 2014년 IRSVRC에서 우승했지만, 워낙 구조가 복잡하고 연산량이 많아서 잘 쓰이지 않았다. 이를 개선하고자 후속 연구인 Rethinking the Inception Architecture for Computer Vision에서는 연산량을 줄이기 위한 실험과 이를 적용한 모델들인 Inception-V2/Inception-V3 개발! 0. Abstract 본 논문에서는 Inception-v2와 Inception-v3을 소개함. ..
Going deeper with convolutions 정리 및 코드 구현 by PyTorch & Tensorflow [GoogLeNet]AI/Computer Vision 2021. 9. 5. 17:47
Going deeper with convolutions 정리 및 코드 구현 by PyTorch & Tensorflow [GoogLeNet] 0. abstract GoogLeNet은 2014년 ILSVRC에서 VGGNet(VGG19)을 이기고 우승을 차지한 알고리즘이다. GoogLeNet은 19층의 VGG19보다 좀 더 깊은 22층으로 구성되어 있다. 이 모델의 주요 특징은 연산을 하는 데 소모되는 자원의 사용 효율이 개선되었다는 것이다. 즉, 정교한 설계 덕에 네트워크의 depth와 width를 늘려도 연산량이 증가하지 않고 유지된다는 뜻이다. 이때, 성능을 최적화하기 위해 Hebbian principle과 multi-scale processing을 적용하였고, 이 구조를 GoogLeNet이라 부른다고 ..
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE SCALE IMAGE RECOGNITION 정리 및 코드 구현 by PyTorch & Tensorflow [VGGNet]AI/Computer Vision 2021. 9. 2. 00:27
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE SCALE IMAGE RECOGNITION 정리 및 코드 구현 by PyTorch & Tensorflow [VGGNet] VGGNet는 ILSVRC 2014에서 준우승한 모델로, 같은 해 GoogleNet이 우승했으나 사용하기 쉬운 구조와 좋은 성능 때문에 유명해졌다고 할 수 있다. 이전의 AlexNet과 ZFNet에서 모델의 구조를 변화시켰다. 0. Abstract In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main con..