MACHINE LEARNING 36

Sequence Modeling : Recurrent & Recursive Nets as RNN

Keyword Parameter sharing Sequence Back-propagation through time (BPTT) * this post is structed and based on "Deep Learning" by Ian goodfellow with my own opinion. * continous post from my last post : https://24bean.tistory.com/entry/Sequence-Modeling-Recurrent-Recursive-Nets-as-introduction Sequence Modeling : Recurrent & Recursive Nets as introduction Keyword Parameter sharing Sequence Back-pr..

Sequence Modeling : Recurrent & Recursive Nets as introduction

Keyword Parameter sharing Sequence Back-propagation through time (BPTT) * this post is based on "Deep Learning" by Ian goodfellow with my own opinion. Intro a recurrent nueral network is a neural network that is speialized for processing a seqeunce of values x(1),x(2)...x(i). Parameter sharing makes it possible to extend and apply the model to examples of different forms(different lengths..) and..

Attention / 어텐션이란 무엇인가? (분량 주의)

선행 지식 (Pre-requirement) RNN https://wikidocs.net/22886 - (딥러닝을 이용한 자연어 처리 입문) https://arxiv.org/abs/1808.03314 - (RNN paper) LSTM https://wikidocs.net/22888 - (딥러닝을 이용한 자연어 처리 입문) http://www.bioinf.jku.at/publications/older/2604.pdf - (LSTM paper) seq2seq model https://wikidocs.net/24996 - (딥러닝을 이용한 자연어 처리 입문) https://arxiv.org/abs/1409.3215 - (seq2seq paper) "딥러닝을 이용한 자연어 처리 입문" 이라는 매우 좋은 책에 접근..

Word2Vec 개념 정리

기존에 존재하던 one hot vector 형식의 matrix는 word vector간의 유의미한 유사도를 구하는 것이 제한되었다. (Sparse representation) 따라서 다음과 같은 개념이 등장하게 된다. 단어의 의미를 다차원 벡터 공간에 띄우는 개념 : 분산표현 (distributed representation) 분산 표현을 통한 단어 간 의미적 유사성을 벡터화 : 워드 임베딩 (word embedding) -> 임베딩 벡터 (embedding vector) 분산 표현 (distributed representation) 분산 가설(distributional hypothesis) 아래에서 정의된 해당 표현 방식은 분산 가설을 통해 텍스트의 의미를 학습하며, 단어의 의미를 벡터에 여러 차원에 ..

MACHINE LEARNING 2022.12.30

Few-Shot Learning? 관련 논문을 중심으로 이해해보자!

Few-Shot Learning에 대해 매우 함축적으로 간결히 잘 정리된 문구가 있어서 소개하고 시작하겠다. Few Shot Learning : example of meta-learning, where is trained on several related task, during the meta-training phase, so that it can generalize well to unseen (but related) tasks with just few examples, during the meta-testing phase. An effective approach to the Few-Shot Learning problem is to learn a commmon representation for vario..

BART 논문 리뷰 / BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

BART 논문 리뷰 paper source : https://arxiv.org/abs/1910.13461 BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension We present BART, a denoising autoencoder for pretraining sequence-to-sequence models. BART is trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. It us..

ML / 3가지 주요 원칙

ML 3가지 주요 원칙 Machine Learning을 이용해 데이터를 학습시킬 때엔 아무렇게나 막 하면 안되겠죠.. 그래서 우리가 지켜야 할 가이드라인을 크게 3가지로 분류합니다. Occam's Razor : 오캄의 면도날 Sampling Bias : 표본 편향 Data Snooping Bias : 데이터 스누핑 편향 Occam's Razor 일반적으로 오캄의 면도날이라고 불리는 해당 원칙은 흔히들 lex parsimoniae, 검약의 원리라고도 부르곤 합니다. 말이 참 어려운데.. Occam의 저서에 나온 문구를 통해 쉽게 이해해보겠습니다. Pluralitas non est ponenda sine neccesitate. 해당 문구는 라틴어로, "많은 것들을 필요없이 가정해서는 안된다"는 의미를 지닙니..

MACHINE LEARNING 2022.09.16

ML / Metric 종류 및 특징 정리

Metric 종류 및 특징 일반적으로 ML(Machine Learning)에서는 모델의 category에 따라 Metric을 각각 다르게 정의합니다. 말 그대로 하는 일들이 다르기 때문에 평가 기준의 역할을 하는 Metric이 달라집니다. 대표적으로 사용되는 Metric 몇가지를 각 cateogory별로 정리하겠습니다. ML의 대표적인 task는 다음과 같이 정의됩니다. Classification Regression Ranking Statistical CV (Computer Vision) NLP (Natural Language Processing) Deep learning related etc... 해당 포스트에서 언급하지 않은 Metric도 다수 존재합니다. 모든 평가기준을 다룰 수는 없으니 대표적인 ..

NLP / Matching the Blanks: Distributional Similarity for Relation Learning 논문 요약

Matching the Blanks: Distributional Similarity for Relation Learning 논문 원문 : https://arxiv.org/pdf/1906.03158.pdf prerequirement transformer neural network architecture에 대한 기본 지식이 있어야합니다! - entity pair의 관계를 encoding하는 부분..! Abstract 기존의 일반적인 General purpose relation extractors 는 Information extraction(이하 IE)의 주요한 목표였습니다. 다만 generalize 능력의 한계가 있어왔습니다. 해당 논문에서는 관계에 대한 extensions of Harris’ distrib..

MACHINE LEARNING 2022.08.28

NLP / BERT vs GPT 모델 비교

GPT 와 Bert 두 모델 모두 Transformer를 기반으로 pretraining 기법이 사용된 모델이라고 볼 수 있습니다. Transformer ➡️ 아주 유명한 논문이 있습니다. (22.08.09 기준 약 48000회의 인용수를 보여주고 있음....) https://arxiv.org/pdf/1706.03762.pdf - Attention Is All You Need Transformer에 대한 사전 이해가 있어야 합니다. BERT(Bidirectional Encoder Representations from Transformers) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ➡️ https://..