MACHINE LEARNING/Artificial Neural Network 17

Attention / 어텐션이란 무엇인가? (분량 주의)

선행 지식 (Pre-requirement) RNN https://wikidocs.net/22886 - (딥러닝을 이용한 자연어 처리 입문) https://arxiv.org/abs/1808.03314 - (RNN paper) LSTM https://wikidocs.net/22888 - (딥러닝을 이용한 자연어 처리 입문) http://www.bioinf.jku.at/publications/older/2604.pdf - (LSTM paper) seq2seq model https://wikidocs.net/24996 - (딥러닝을 이용한 자연어 처리 입문) https://arxiv.org/abs/1409.3215 - (seq2seq paper) "딥러닝을 이용한 자연어 처리 입문" 이라는 매우 좋은 책에 접근..

Few-Shot Learning? 관련 논문을 중심으로 이해해보자!

Few-Shot Learning에 대해 매우 함축적으로 간결히 잘 정리된 문구가 있어서 소개하고 시작하겠다. Few Shot Learning : example of meta-learning, where is trained on several related task, during the meta-training phase, so that it can generalize well to unseen (but related) tasks with just few examples, during the meta-testing phase. An effective approach to the Few-Shot Learning problem is to learn a commmon representation for vario..

BART 논문 리뷰 / BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

BART 논문 리뷰 paper source : https://arxiv.org/abs/1910.13461 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It us..

ML / Metric 종류 및 특징 정리

Metric 종류 및 특징 일반적으로 ML(Machine Learning)에서는 모델의 category에 따라 Metric을 각각 다르게 정의합니다. 말 그대로 하는 일들이 다르기 때문에 평가 기준의 역할을 하는 Metric이 달라집니다. 대표적으로 사용되는 Metric 몇가지를 각 cateogory별로 정리하겠습니다. ML의 대표적인 task는 다음과 같이 정의됩니다. Classification Regression Ranking Statistical CV (Computer Vision) NLP (Natural Language Processing) Deep learning related etc... 해당 포스트에서 언급하지 않은 Metric도 다수 존재합니다. 모든 평가기준을 다룰 수는 없으니 대표적인 ..

NLP / BERT vs GPT 모델 비교

GPT 와 Bert 두 모델 모두 Transformer를 기반으로 pretraining 기법이 사용된 모델이라고 볼 수 있습니다. Transformer ➡️ 아주 유명한 논문이 있습니다. (22.08.09 기준 약 48000회의 인용수를 보여주고 있음....) https://arxiv.org/pdf/1706.03762.pdf - Attention Is All You Need Transformer에 대한 사전 이해가 있어야 합니다. BERT(Bidirectional Encoder Representations from Transformers) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ➡️ https://..

BIDAF / Bidirectional Attention Flow for Machine Comprehension 논문 요약

논문링크: https://arxiv.org/abs/1611.01603 Bidirectional Attention Flow for Machine Comprehension Machine comprehension (MC), answering a query about a given context paragraph, requires modeling complex interactions between the context and the query. Recently, attention mechanisms have been successfully extended to MC. Typically these methods use atten arxiv.org Abstract Machine Comprehension(이하 MC)..

Gradient Descent / Stochastic Gradient Descent 개념적 비교

* 각각의 개념들에 대해선 다른 게시글에서 확인바랍니다 * * 이 게시글은 두 알고리즘을 비교하기 위해 만들어졌습니다 * Gradient Descent (GD) : 경사 하강법 - 1차 근삿값 발견용 최적화 알고리즘 - 기본 개념은 함수의 기울기(approximate gradient)를 구하고 경사의 반대 방향으로 계속 이동시켜 극값에 이를 때까지 반복시키는 것. Stochastic Gradient Descent (SGD) : 확률적 경사 하강법 - 학습 데이터셋에서 무작위로 한 개의 샘플 데이터 셋을 추출하고, 그 샘플에 대해서만 기울기를 계산하는 것이 특징. mini-Batch Gradient Descent (mini-BGD) : 미니 배치 경사 하강법 여기서 mini-BGD가 나오는 이유는 너무 자..