Preprocess 모델에 데이터를 직접 사용하기 전 우리는 전처리가 필요합니다. 해당 데이터들은 numbers 혹은 tensor로 assembled된 형식 등 이어야 합니다. Tokenize pretrained tokenizer를 불러옵니다 from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bert-base-cased") encoded_input = tokenizer("Do not meddle in the affairs of wizards, for they are subtle and quick to anger.") print(encoded_input) """output {'input_ids': [101, 2..