실습 & 활동35 Module 7. 시계열 데이터 및 AI 모델 성능 최적화 - 트랜스포머 기반의 시계열 데이터 회귀(3) Transformer의 작동 원리 Residual attention 부분이 한 번 수행하게 되면 그 다음 단계에서는 residual connection과 layer normalization이 수행됨 디코더 과정에서도 위의 절차는 그대로 적용됨 Position-wise Feed-Forward Networks 첫 번째 encoder 블록에서의 multi-headed attention을 먼저 진행했으니 feed-foward 블록도 한 번 살펴보고자 한다 feed-foward neural network는 실제 attention을 통해서 만들어진 z(z1, z2)라는 것들을 다시 한 번 비선형 변환과 관계식을 통한 학습을 진행하는 부분임 → 예를 들어, Encoder#1 안에 있는 feed foward들은 서로 .. 2023. 2. 5. Module 7. 시계열 데이터 및 AI 모델 성능 최적화 - 트랜스포머 기반의 시계열 데이터 회귀(2) self-attention 절차 Step 1 Step 1: 입력 벡터에 대해서 세 가지의 벡터를 생성 (Query, Key, Value) Query: 어떤 단어가 다른 단어들하고 무슨 관계가 있는지를 알고싶은 질의 대상이 되는 단어 (다른 단어들을 고려하여 표현하고자 하는 대상이 되는 현재 단어에 대한 임베딩 벡터) Key: Query가 들어왔을 때 다른 단어들과 매칭을 하기 위해 사용되는 레이블로 사용되는 임베딩 벡터 Value: Key와 연결된 실제 단어를 나타내는 임베딩 벡터 실제로 이러한 세가지 vector는 주어져 있는게 아닌 Query, Key, Value에 대응하는 행렬을 곱해서 생성함 그리고 W_Q, W_K, W_V(실제 transformer를 통해 학습시키는 부분)는 data를 통해서 학.. 2023. 2. 4. Module 7. 시계열 데이터 및 AI 모델 성능 최적화 - 트랜스포머 기반의 시계열 데이터 회귀(1) 언어 모델(Language Model) 특정 문장(=단어의 나열)이 등장할 확률을 계산해주는 모델 언어 모델은 특정 문장 다음에 자연스러운 문장을 완성시키는 단어가 올 때 생성 확률을 높게 하고, 특정 문장 다음에 자연스러운 문장을 완성시키지 않는 단어가 올 때 생성 확률을 낮게 해 줌 아래 그림의 경우 첫번째 문장은 0.9, 두 번째 문장은 0.8, 세 번째 문장은 0.1이라는 확률이 올 수 있음 Transformer Attention의 병렬적 사용을 통해 효율적인 학습이 가능한 구조의 언어 모델 Transformer의 개괄적 구조 내부에 인코더 파트(언어를 해석하는 부분)와 디코더 파트(언어를 풀어주는 부분)가 존재하며 이 둘 사이를 이어주는 연결고리가 존재 ex) encoder module: 프랑스.. 2023. 2. 3. Module 7. 시계열 데이터 및 AI 모델 성능 최적화 - 합성곱 기반의 시계열 회귀(2) CNN Basics: Convolution Image Convolution (Filter, Kernel) 단점들 problem) 한번에 한 칸씩 이동하면 너무 오래 걸릴 수 있음 solution) Filter가 한번에 여러 칸을 이동하도록 허용하면 됨 (Stride) 아래 그림에서 stride1일 경우 Filter가 한 칸씩 이동하고, stride2일 경우 Filter가 두 칸씩 이동함 problem) 가장자리에 있는 픽셀들은 중앙에 위치한 픽셀들에 비해 Convolution 연산이 적게 수행됨 solution) Padding(원래 이미지 테두리에 0의 값을 갖는 pad를 추가) 아래 그림처럼 왼쪽 input data에 3 * 3 filter를 적용하게 되면 가운데 값들은 상대적으로 Convolution.. 2023. 2. 2. Module 7. 시계열 데이터 및 AI 모델 성능 최적화 - 합성곱 기반의 시계열 회귀(1) Convolutional Neural Network (CNN) : Convolution(합성곱) 연산을 통해 이미지로부터 필요한 특징(feature)을 스스로 학습할 수 있는 능력을 갖춘 심층 신경망 구조 이미지 인식 종류 : Classification, Classification + Localization, Object Detection, Instance Segmentation이 있음 Classification : 주어진 이미지에 대해서 대표적인 객체가 무엇인지를 분류하는 것임 Classification + Localization : bounding box를 통해 객체가 어디에 위치하고 있는지 표현해주는 방식 Object Detection : Classification + Localization을 이미.. 2023. 2. 1. Module 7. 시계열 데이터 및 AI 모델 성능 최적화 - 순환 신경망 기반의 시계열 회귀(2) RNN(순환 신경망)의 변종들 : 가지고 있는 정보를 시간의 역방향(미래 → 과거)으로 처리하면 모델의 성능을 높일 수 있음 ex) 번역기 RNN Variations: Bidirectional RNN : 정보의 입력을 시간의 순방향과 역방향 관점에서 함께 처리하여 모델의 성능을 높이자는 아이디어를 갖고 있음 : 나중에 최종적인 output(y_t)를 내고자 할 때 순방향의 hidden vector와 역방향의 hidden vector를 옆으로 이어 붙여 사용을 하게 되는 방식임 RNN Variations: Deep-Bidirectional RNN : RNN의 hidden layer의 층을 깊게 쌓은 모델 (딥러닝에서 neural network에 층을 깊게 쌓으면 성능을 높일 수 있었다는 원리를 기반으로 제.. 2023. 2. 1. 이전 1 2 3 4 5 6 다음