GPT 와 Bert 두 모델 모두 Transformer를 기반으로 pretraining 기법이 사용된 모델이라고 볼 수 있습니다. Transformer ➡️ 아주 유명한 논문이 있습니다. (22.08.09 기준 약 48000회의 인용수를 보여주고 있음....) https://arxiv.org/pdf/1706.03762.pdf - Attention Is All You Need Transformer에 대한 사전 이해가 있어야 합니다. BERT(Bidirectional Encoder Representations from Transformers) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ➡️ https://..