AI
-
LangChain RAG Retriever 방법 정리 (Multi-Query, Parent Document, Ensemble Retriever, ... )AI/NLP 2024. 5. 15. 19:11
LangChain RAG Retriever 방법 정리 (Multi-Query, Parent Document, Ensemble Retriever, ... ) LLM이 뛰어날 수록 Document Parsing과 Retriever 단계가 중요하다 따라서, 지난 포스트 마지막에서 언급했던 Retriever API를 좀 더 살펴볼 것이다. Retriever 기법 1. Multi-Query : 대충 질문해도 좋은 답변 원할 때 2. Parent Document : 앞뒤 문맥 잘 담아야 할 때 3. Self Query : 시맨틱 검색 말고 쿼리가 필요할 때 4. Time-Weighted : 오래된 자료를 덜 참고하면 좋을 때5. Ensemble Retriever : 검색의 정확도 높일 때 6. Lon..
-
LangChain RAG 구현 모듈 정리 (Document Loaders, Text Splitters, Text Embeddings & VectorStores , Retrievers, ... )AI/NLP 2024. 5. 14. 22:14
LangChain RAG 구현 모듈 정리 (Document Loaders, Text Splitters, Text Embeddings & VectorStores , Retrievers, ... ) 과정 Document LoadersText Spiltters Text Embeddings & VectorStores Retrievers !pip install langchain pypdf unstructured pdf2image docx2txt pdfminer sentence-transformers chromadb # a class to create a question answering system based on information retrievalfrom langchain.chains impor..
-
Reasoning On Graphs: Faithful and Interpretable Large Language Model Reasoning 논문 리뷰 (ICLR 2024)AI/NLP 2024. 4. 22. 10:49
Reasoning On Graphs: Faithful and Interpretable Large Language Model Reasoning 논문 리뷰 (ICLR 2024) 논문 읽은 후 RAG에서 Knowledge Graph를 활용한 논문으로, 이를 통해 LLM의 Reasoning 과정에 대한 해석력을 제공한다 방법이 크게 어렵진 않으나, appendix까지 쳬계적인 실험들과 case study들을 해서 잘 쓴 논문이라는 느낌이 확실히 들었다 역시 ICLR은 다르다. RAG ... 이 분야 좀 재미있을지도? 연구할만한 주제가 많을 것 같다 또 읽어보고 싶은 논문 1, 논문 2 Introduction 배경 LLM의 Challenges : lack of knowledge & hallucination 이 원..
-
LLM Decoding Strategy 정리 (Greedy, Beam Search, Top-K, ... )AI/NLP 2024. 4. 22. 10:27
LLM Decoding Strategy 정리 (Greedy, Beam Search, Top-K, ... ) Decoding Strategy이란 언어 모델이 생성한 logit을 softmax을 적용해 확률로 변환한다면, 그 확률을 바탕으로 다음 토큰을 어떻게 선택할지 결정하는 방식 모델이 생성한 출력을 최종 사용자가 이해할 수 있는 형태로 변환하는 방법론 Greedy Search 가장 간단한 방법, 각 단계에서 가장 높은 확률을 가진 토큰을 선택 언어 모델에서 타임스텝 t에서 가장 높은 확률을 갖는 토큰을 다음 토큰으로 선택하는 전략 장점 빠르고 직관적 단점 문맥적으로 부적합하거나 의미가 불분명한 문장을 생성할 수 있다 전체적으로 최적의 문장을 생성하지 못할 수 있음 with torch.no_grad():..
-
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... )AI/NLP 2024. 4. 22. 10:26
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... ) Absolute Positional Encoding (APE) Vanilla Transformer 모델에서 input sequence의 순서 정보를 유지하기 위해서 사용 RNN 계열과 달리 Transformer 구조는 모든 input token이 병렬적으로 들어가기 때문에 positional information이 없으면 input token들은 그냥 BoW처럼 취급된다 위와 같이, encoder와 decoder stack 이전에 들어갈 input embedding들에 element-wise addition을 해준다 Vanilla Transformer 모델에서는 Sine과 Cosine 함수..
-
LLM Tokenization 방법 정리 (BytePair, WordPiece, Unigram, SentencePiece)AI/NLP 2024. 4. 22. 10:25
LLM Tokenization 방법 정리 (BytePair, WordPiece, SentencePiece) Tokenization이란 input text sequence를 Token이라는 더 작은 부분으로 변환하는 과정이다 가장 단순한 Tokenization 방법은 공백을 기준으로 나누는 거겠지만, 이는 OOV(out of vocabulary) 문제를 일으킨다 이 문제를 해결하기 위해 Subword 기반의 Tokenization를 많이 사용하고 있으며, 이때 훈련 데이터에 없는 단어 등 기존에 보지 못했던 단어들에 대해서도 유연하게 대처할 수 있다 아래는 Subword 기반의 Tokenization 기법들을 살펴본다 BytePairEncoding 원래 데이터 압축 알고리즘의 한 유형으로, 자주 나타나는 ..
-
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)AI/Speech 2024. 2. 8. 10:07
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018) CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화 기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습 화자(speaker)가 누구(index)인지 맞추는 과정에서 SincNet이 학습 시간 도메인의 입력 음성 신호 x에 싱크 함수로 컨볼루션 연산을 적용 싱크 함수를 유한한 길이로 자르고 이를 푸리에 변환을 하면, 이상적인 bandpass filter의 모양(사각형)에서 점점 멀어지게 됨 우리가 원하는 주파수 ..
-
[2023 Lab Seminar] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML, 2022)AI/Multimodal 2023. 10. 3. 19:19
[2023 Lab Seminar] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML, 2022) Introduction : Vision-Language Pretraining (VLP) 먼저 Vision-Language에 대해서 생소하실 수 있는 분들을 위해서 한 번 짚고 넘어가자면, Vision-Language Pretraining(VLP)은 컴퓨터 비전과 자연어 처리를 결합한 인공지능 모델을 사전 학습하는 방법입니다. BERT, OpenAI GPT 등 기존 연구들은 대규모 텍스트 데이터를 모아 사전학습 후 미세조정(pre-training and fine-t..