AI/Computer Vision
-
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021)AI/Computer Vision 2023. 5. 9. 18:15
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021) Generative model : Diffusion Model DIffusion (forward process) -> : 이미지에 고정된(fixed) 정규 분포(=Gaussian분포)로 생성된 Noise가 더해지고 Sampling (reverse process)
-
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN) 정리AI/Computer Vision 2022. 2. 14. 13:30
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN) 정리 1. Introduction Image-to-image translation은 짝진 형태의 이미지 train 세트를 이용해 인풋 이미지와 아웃풋 이미지를 매핑하는 것이 목표인, 컴퓨터 비전과 그래픽의 한 분야입니다. 하지만 많은 태스크에 있어서 짝이 지어진 학습 데이터를 얻는 것이 불가능합니다. Image-to-image translation의 대표적인 모델인 Pix2pix는 GAN loss를 합친 목적 함수를 이용하여 성능을 높였지만, training data가 pair로 존재해야만 한다는 한계점이 존재합니다. 따라서 CycleGAN 논..
-
Fully convolutional networks for semantic segmentation (FCN) 정리AI/Computer Vision 2022. 1. 15. 22:47
Fully convolutional networks for semantic segmentation (FCN) 정리 - FCN = Fully Convolutional Network : classifcation을 수행하는 FC layer (Fully Connected Layer)없이, 오직 convolution으로만 모델 구성! -> semantic segmentation을 수행한다! - 이 논문에서는 모든 부분을 크게 (1) Fully convolutional networks와 (2) semantic segmentation 두 부분으로 나눠서 설명한다. Introduction과 Related Work 내에서도 이렇게 크게 두 개로 나눠서 설명하므로 유념할 것! (1) 이 논문에서 Fully Convolut..
-
Densely Connected Convolutional Networks 정리 및 코드 구현 by Pytorch [DenseNet]AI/Computer Vision 2021. 11. 2. 00:24
Densely Connected Convolutional Networks 정리 및 코드 구현 by Pytorch [DenseNet] Abstract Layer들 간에 Short Connection들을 좀 더 많이 만든다면 성능 올라가지 않을까? 각 레이어에서 뒤따라오는 레이어들로 L(L+1)/2 개의 connection들 만든다! => Vanishing Gradient 문제 완화, Feature propagation 강화, feature reuse 강화, parameter 수 감소의 효과! Introduction 기존) CNN이 층이 깊어질수록 Vanishing Gradient 등의 문제가 생겨 이를 해결하기 위해 ResNet이나 Highway Network 등장! => 둘의 공통점 : 전의 레이어에서 ..
-
Deep Residual Learning for Image Recognition 정리 및 코드 구현 by Pytorch [ResNet]AI/Computer Vision 2021. 9. 25. 19:53
Deep Residual Learning for Image Recognition 정리 및 코드 구현 by Pytorch [ResNet] 1. Introduction "Is learning better networks as easy as stacking more layers?" -> 오히려 the problem of vanishing/exploding gradients => Overfitting이 문제인가? 아님. 네트워크의 층이 깊어질수록, degradation problem이 발견 (degradation problem은 layers가 깊어지면 깊어질수록 training error가 더 높아지며, 따라서 test error또한 동일하게 높아지는 현상) -> accuracy는 saturated (마치 뭔가..
-
Rethinking the Inception Architecture for Computer Vision 정리 [Inception-V2 / Inception-V3]AI/Computer Vision 2021. 9. 14. 09:25
Rethinking the Inception Architecture for Computer Vision 정리 [Inception-V2 / Inception-V3] 선행되어 연구되었던 Going deeper with convolutions, 즉 GoogLeNet은 VGG을 이기고 2014년 IRSVRC에서 우승했지만, 워낙 구조가 복잡하고 연산량이 많아서 잘 쓰이지 않았다. 이를 개선하고자 후속 연구인 Rethinking the Inception Architecture for Computer Vision에서는 연산량을 줄이기 위한 실험과 이를 적용한 모델들인 Inception-V2/Inception-V3 개발! 0. Abstract 본 논문에서는 Inception-v2와 Inception-v3을 소개함. ..
-
Going deeper with convolutions 정리 및 코드 구현 by PyTorch & Tensorflow [GoogLeNet]AI/Computer Vision 2021. 9. 5. 17:47
Going deeper with convolutions 정리 및 코드 구현 by PyTorch & Tensorflow [GoogLeNet] 0. abstract GoogLeNet은 2014년 ILSVRC에서 VGGNet(VGG19)을 이기고 우승을 차지한 알고리즘이다. GoogLeNet은 19층의 VGG19보다 좀 더 깊은 22층으로 구성되어 있다. 이 모델의 주요 특징은 연산을 하는 데 소모되는 자원의 사용 효율이 개선되었다는 것이다. 즉, 정교한 설계 덕에 네트워크의 depth와 width를 늘려도 연산량이 증가하지 않고 유지된다는 뜻이다. 이때, 성능을 최적화하기 위해 Hebbian principle과 multi-scale processing을 적용하였고, 이 구조를 GoogLeNet이라 부른다고 ..
-
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE SCALE IMAGE RECOGNITION 정리 및 코드 구현 by PyTorch & Tensorflow [VGGNet]AI/Computer Vision 2021. 9. 2. 00:27
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE SCALE IMAGE RECOGNITION 정리 및 코드 구현 by PyTorch & Tensorflow [VGGNet] VGGNet는 ILSVRC 2014에서 준우승한 모델로, 같은 해 GoogleNet이 우승했으나 사용하기 쉬운 구조와 좋은 성능 때문에 유명해졌다고 할 수 있다. 이전의 AlexNet과 ZFNet에서 모델의 구조를 변화시켰다. 0. Abstract In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main con..