ChatGPT
-
[LlamaIndex] Indexing카테고리 없음 2024. 1. 22. 16:08
데이터가 로드되면 이제 Document 개체 목록(또는 Node 목록)이 생성됩니다. 이제 쿼리를 시작할 수 있도록 Index를 빌드할 시간입니다. Index는 Document 객체로 구성된 데이터 구조로, LLM에서 쿼리할 수 있도록 설계되었습니다. LlamaIndex는 다양한 인덱스 유형을 제공합니다. ○ Vector Store Index Vector Store Index는 가장 자주 접하게 되는 인덱스 유형입니다. Vector Store Index는 문서를 가져와서 노드로 분할합니다. 그런 다음 모든 노드의 텍스트에 대한 벡터 임베딩을 생성하여 LLM에서 쿼리할 수 있도록 준비합니다. # Embedding 벡터 임베딩은 LLM 애플리케이션이 작동하는 방식의 핵심입니다. 흔히 임베딩이라고 부르는 벡터..
-
[LlamaIndex] Prompt카테고리 없음 2024. 1. 16. 22:23
Prompt는 LLM이 출력을 생성할때 가장 많은 영향을 미치는 요소 중 하나 입니다. Prompt는 답변 합성, 검색, 인덱스 구성 등에 사용됩니다. LlamaIndex에서는 Prompt를 개선하기 위한 간단한 방법부터 고급 방법까지 제공하고 있습니다. ○ Prompt 사용 패턴 # 사용자 정의 프롬프트 LlamaIndex에서는 PromptTemplate 클래스를 사용하여 간단하게 기본 Prompt를 수정 할 수 있습니다. from llama_index.prompts import PromptTemplate # 텍스트 질의응답 프롬프트 수정 text_qa_template_str = ( "Context information is" " below.\n---------------------\n{context_..
-
[논문리뷰] Language Models are Unsupervised Multitask Learners(2019, GPT-2)카테고리 없음 2023. 12. 30. 23:08
# 요약 - 질문 답변, 기계 번역, 요약 등의 NLP Task들은 일반적으로 Task Specific Data에 대한 지도학습을 적용함 - Task Specific Training 없이 대량의 Web Text를 통해 Model을 학습하는 방법을 제안 - Zero-shot만으로 다양한 Task에서 우수한 성능을 기록 - Language Model의 용량이 Zero-shot 성능에 유관함을 입증 # 인트로 - 기존 NLP Model 들은 대량의 Task Specific Data를 학습하는 방식으로 개발됨 - 이러한 방식은 데이터의 변화에 민감하며, 특정 Task에만 잘 작동 되는 제약이 있음 - 본 논문에서는 Data labeling이 필요없고, 많은 Task를 수행할 수 있는 일반화된 모델 개발을 추구 ..