Computer Vision
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021)AI/Computer Vision 2023. 5. 9. 18:15
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021) Generative model : Diffusion Model DIffusion (forward process) -> : 이미지에 고정된(fixed) 정규 분포(=Gaussian분포)로 생성된 Noise가 더해지고 Sampling (reverse process)
[Story Generation Study Week 06 : Text Generation with muti-modal data] Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling (AAAI, 2020) 리뷰AI/NLP 2022. 8. 16. 21:07
[Story Generation Study Week 06 : Text Generation with muti-modal data] Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling (AAAI, 2020) 리뷰 벌써 6주차라니 ,, 곧 개강이라니 ,, 오늘의 발표 세 줄 요약 : 숨기고, 상상하고, 말하라 1. Visual Storytelling은 입력된 사진의 연속열을 보고 단순한 설명 이상의, 사진 간의 상황과 의미를 공유하여 묘사하는 것 2. 본 논문에서는 입력 사진들 중 무작위로 마스킹하고, 이렇게 누락된 사진의 의미를 유추해 나가는 방식으로 학습하고자 함 → Hiding step + Imagining Step + Tell..
Deep Residual Learning for Image Recognition 정리 및 코드 구현 by Pytorch [ResNet]AI/Computer Vision 2021. 9. 25. 19:53
Deep Residual Learning for Image Recognition 정리 및 코드 구현 by Pytorch [ResNet] 1. Introduction "Is learning better networks as easy as stacking more layers?" -> 오히려 the problem of vanishing/exploding gradients => Overfitting이 문제인가? 아님. 네트워크의 층이 깊어질수록, degradation problem이 발견 (degradation problem은 layers가 깊어지면 깊어질수록 training error가 더 높아지며, 따라서 test error또한 동일하게 높아지는 현상) -> accuracy는 saturated (마치 뭔가..
Rethinking the Inception Architecture for Computer Vision 정리 [Inception-V2 / Inception-V3]AI/Computer Vision 2021. 9. 14. 09:25
Rethinking the Inception Architecture for Computer Vision 정리 [Inception-V2 / Inception-V3] 선행되어 연구되었던 Going deeper with convolutions, 즉 GoogLeNet은 VGG을 이기고 2014년 IRSVRC에서 우승했지만, 워낙 구조가 복잡하고 연산량이 많아서 잘 쓰이지 않았다. 이를 개선하고자 후속 연구인 Rethinking the Inception Architecture for Computer Vision에서는 연산량을 줄이기 위한 실험과 이를 적용한 모델들인 Inception-V2/Inception-V3 개발! 0. Abstract 본 논문에서는 Inception-v2와 Inception-v3을 소개함. ..
Cascaded Pyramid Network for Multi-person pose estimationAI/Object Detection & Pose Estimation 2021. 9. 9. 16:17
1. introduction object의 정확한 검출에 악영향을 미치는 경우가 많다. ex. keypoint들끼리 겹쳐있다. 다른 object에 가려서 보이지 않는 키포인트가 있다. 이런 한계를 극복하고 분류하기 어려운 hard keypoint를 잘 검출하기 위해 두개의 stage로 이루어진 CPN을 제안한다. Human Detector + GlobalNet + RefineNet Human Detector: 해당 논문에서 사용한 base object detector는 FPN(Feature Pyramid Network)에서 RoI pooling을 Mask R-CNN의 RoI Align으로 바꾼 것 GlobalNet: 간단한 keypoint들은 잘 localize시키지만 뭉쳐있거나 보이지 않는 키포인트들은..
Detectron2 이란? Pytorch 기반의 Object Detection, Segmentation 라이브러리!AI/Object Detection & Pose Estimation 2021. 9. 9. 15:12 Detectron2 로 Mask R-CNN 학습하기 1. 아나콘다 가상환경 세팅 $ conda create -n detectron2 python==3.8 -y $ conda activate detectron2 2. PyTorch 설치 에서 CUDA 버전에 맞는 PyTorch 설..
Going deeper with convolutions 정리 및 코드 구현 by PyTorch & Tensorflow [GoogLeNet]AI/Computer Vision 2021. 9. 5. 17:47
Going deeper with convolutions 정리 및 코드 구현 by PyTorch & Tensorflow [GoogLeNet] 0. abstract GoogLeNet은 2014년 ILSVRC에서 VGGNet(VGG19)을 이기고 우승을 차지한 알고리즘이다. GoogLeNet은 19층의 VGG19보다 좀 더 깊은 22층으로 구성되어 있다. 이 모델의 주요 특징은 연산을 하는 데 소모되는 자원의 사용 효율이 개선되었다는 것이다. 즉, 정교한 설계 덕에 네트워크의 depth와 width를 늘려도 연산량이 증가하지 않고 유지된다는 뜻이다. 이때, 성능을 최적화하기 위해 Hebbian principle과 multi-scale processing을 적용하였고, 이 구조를 GoogLeNet이라 부른다고 ..
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE SCALE IMAGE RECOGNITION 정리 및 코드 구현 by PyTorch & Tensorflow [VGGNet]AI/Computer Vision 2021. 9. 2. 00:27
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE SCALE IMAGE RECOGNITION 정리 및 코드 구현 by PyTorch & Tensorflow [VGGNet] VGGNet는 ILSVRC 2014에서 준우승한 모델로, 같은 해 GoogleNet이 우승했으나 사용하기 쉬운 구조와 좋은 성능 때문에 유명해졌다고 할 수 있다. 이전의 AlexNet과 ZFNet에서 모델의 구조를 변화시켰다. 0. Abstract In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main con..