ATT

< ATT: After The Transformer >

이미지 없음
이미지 없음
이미지 없음

강의소개

트랜스포머 이후, 세상은 바뀌었다!
< ATT: After The Transformer > 는
트랜스포머 기반 유명 모델 7개를
이론부터 구현까지 낱낱이 파헤쳐보는 강의입니다!

✅ '최신 딥러닝 모델: GPT, BERT, ViT, Swin Transformer, ConvNeXt 파이토치 구현 프로젝트'로 여러분 포트폴리오를 더욱 빛나게!
✅ 실습에선 AI Hub의 문장 데이터, KoBERT 토크나이저 사용!
✅ 라이브 못 오시는 날은 녹화본 제공! 
✅ 녹화본으로만 수강하시는 것도 가능합니다!

📌 장소: 줌 미팅
📌 일시: 3 일간 세 시간씩, 총 9 시간 
+ 질문 시간 n 시간까지 실질적으로 11시간 정도의 강의로 보시면 됩니다!
📌 정확한 날짜는 아래 버튼 클릭!

📌 교육비: 17.9 만원
- 견적서, 영수증, 수료증, 거래명세서 발급 가능합니다.
- 재수강은 반값 할인!

진행 방식

✔ 첫날에 강의 자료 pdf와 코드 전체를 드려요!
✔ 구현은 구글 코랩, 파이토치로 진행
✔ 기수 별 단톡방 개설, 예/복습할 수 있는 영상을 공유드리는 <혁펜하임 오마카세>
✔ 단톡방 통해서 (수업 내용 관련해서는) 평생 질문 가능
✔ 한 시간마다 2-3명씩 돌아가며 집중케어
(마이크 사용이 가능한 환경인 분들에 한함)
(참여 유도 & 질문이 자유로운 분위기 조성)

선수 과목

※ 아래 수업을 듣지 않고 이 수업을 참여하시면 바보로 느껴질 수 있습니다.

✅ LEVEL 0
- AI를 위한 기초 수학 (무료 공개!)
- 인스톨! 파이썬 (무료 공개!)

✅ LEVEL 1
- Easy! 딥러닝 (무료 공개!)
- 인스톨! 파이토치

✅ LEVEL 2
- Legend 13
- TTT: To The Transformer (가장 필수적!)

물론, 위 수업들에서 다루는 내용들을
이미 따로 공부하셨다면
문제 없이 수강 가능하십니다!

⭐ 가급적 TTT 들은 분들만 수강 부탁드립니다.
⭐ TTT 수강하신 분들도 복습 한 바퀴 돌리고 오셔야 따라오실 수 있어요

다루는 내용 (강의자료 222장 분량)

0. 트랜스포머 리뷰

1. GPT-1 (2018.06)
 - GPT가 언어를 이해하는 법: Next Token Prediction
 - GPT는 어떻게 단어를 '생성'할까?
 - GPT-1의 Pre-training 과 Fine-tuning
 - GELU에 대해
 - SNLI, Stroy Cloze, QQP 등 12개의 데이터셋 예시와 함께 총정리
 - 성능 평가 및 Ablation Study

2. BERT (2018.10)
 - Masked Token Prediction
 - Next Sentence Prediction
 - Segment Embedding
 - BERT의 Pre-training 과 Fine-tuning
 - ROUGE-L score란?
 - BERT가 주관식 문제를 푸는 방법
 - 성능 평가 (GLUE, SQuAD, SWAG)
 - 4개의 Ablation Study

3. GPT-2 (2019.02)
 - GPT-1 과의 차이점
 - Zero-shot 이란?
 - 구조의 변화
 - Partial Scoring 과 Full Scoring
 - CoQA 등 새롭게 등장하는 7개의 데이터셋 총정리
 - 성능 평가 및 분석 (CBT, LAMBADA, WSC 등..)
 - Data Contamination 이슈

4. GPT-3 (2020.05)
 - GPT-2 와의 차이점
 - Few-shot 이란?
 - Locally Banded Attention
 - Pre-training을 위한 데이터셋 정리
 - 모델이 클수록..
 - 새롭게 등장한 21개의 데이터셋 예시와 함께 완벽 정리
 - 위의 데이터셋들에 대한 성능 평가
 - 다중 분류에서 F1-score 구하기
 - 이게 되네? (1) - Learning Novel Words
 - 이게 되네? (2) - 영어 문법 교정
 - Data contamination analysis

부록 - 요즘 나오는 애들은 어떤 데이터셋으로 평가하나?
 - Claude 3, LLaMA 3, Grok-1.5 Vision
 - MMLU, GPQA, HumanEval, GSM8K, MATH, MMMU

5. ViT (2020.10)
 - Patch Embedding Vector
 - CNN과의 비교: CNN의 inductive bias
 - ViT 구조와 동작 방식
 - ViT 수식 분석
 - ViT의 pre-training 과 fine-tuning
 - JFT, VTAB 등 7개 이미지 데이터셋 총정리
 - BiT와 Noisy Student
 - 성능 비교 결과 분석 1,2,3,4
 - 흥미로운 실험 1,2,3,4,5

6. Swin Transformer (2021.03)
 - Patch Merging
 - Shifted Windows
 - 연산량 유도 및 비교 분석
 - SW-MSA 완벽 이해
 - Cyclic Shift 이해
 - Reverse Cyclic Shift
 - Relative Position Bias
 - 전체 구조 분석
 - 성능 비교
 - Ablation Study

7. ConvNeXt (2022.01)
 - Stage Ratio 변화 + "Patchify" stem
 - ResNeXt-ify
 - Inverted Bottleneck
 - Large kernel
 - Micro Design (Seperated Downsampling 등)
 - Beta distribution 에 대해
 - 새로운 augmentation 기법들 총정리
(randaugment & mixup & cutmix & random erasing)
 - Layer-wise LR decay, layer scale, EMA 등 현대적인 기법들 설명
 - 성능 비교
 - EfficientNetV2 에 대해 정리
(Progressive learning, 구조 변화 등)

📌그리고 GPT-2, BERT, ViT, Swin Transformer, ConvNeXt
5개 모델에 대해 모델 구현하며
특히, GPT-2, BERT, ViT 는 
모델 구현 코드와 더불어
훈련(from scratch) 및 테스트 코드까지
포함되어 있습니다!
(Swin, ConvNeXt 에 대해서도 그대로 적용 가능)

✔ 단순히 깃허브에서 긁어온 코드가 아닙니다.
이해하기 쉽도록 새롭게 다시 짰습니다.

강사 한마디

이놈의 ATT...
너무나 많은 분께서
정말 많이 기다려주셨습니다..
저 역시도 최고의 강의를 만들어 드리고 싶어
약 1년간의 제작 기간 끝에 드디어!
정말 자신 있게 여러분 앞에 선보일 수 있게 됐습니다.

오래 기다리셨습니다!
이제 ATT와 함께 딥러닝 동네에서 제대로 놀아봅시다!!

그 어떤 블로그 설명보다 더 자세하도록 자료를 만들었고,
그 어떤 github 코드보다 더 이해하기 쉽도록 코드를 짰습니다.

혼자 여기저기 검색해 가며 공부하시느라
시간은 시간대로 깨지고 
고생은 고생대로 하지 마시고
이 강의 하나로 끝내십시오.

🔥 가장 빠르게 모집 공지 받는 법 🔥

(참여코드: 3300)

❗ 유사품에 주의하세요 ❗

ATT를 바탕으로 자료를 만들어 대기업에 강의를 나간 강사님이 있다는 제보를 받았습니다.

얼마나 비슷한지, 직접 보여드리는 게 좋을 것 같아 대조 자료를 첨부합니다.

이미지 없음

사실, 제 강의를 보시고 다른 사람들에게 알려주는 건 너무나 기쁘고 감사한 일입니다. 

대표적으로, ResNet 저자들이 Vanishing Gradient 해결하려고 Skip-connection을 제안한 거 아니다. 

이런 거 혁펜하임을 통해 알게 됐다면서 다른 사람들에게도 알려준다면 너무 좋잖아요. ㅎㅎ

하지만, 돈 받고 강의까지 하시려면 거기에 본인만의 "무언가"가 들어가야죠..

제 해석을 비판적 사고 없이 듣고 앵무새처럼 그대로 다른 사람들에게 전달하는 건 강의 도둑질이라고 생각합니다.


또, 수강생 여러분들이 유사 강의를 통해 공부하시면 안 되는 이유가 있습니다.

옛날 TV 프로그램 중 "가족 오락관"을 기억하시나요?

헤드셋을 쓴 채로 제시어를 뒤로 뒤로 전달하는 게임입니다.

첫 사람은 종이에 쓰여진 제시어를 보고 뒷사람에게 전달을 하지만

뒷사람부터는 (헤드셋 소리 때문에) 입 모양만 보고 그 뒷사람에게 전달해야 하죠.

그렇다 보니 당연히 뒤로 갈수록 잘못된 전달을 하게 돼요.

강의를 여기에 적용해서 생각해 봅시다.

제 강의를 듣고 100% 이해도 못 한 채 다른 사람에게 강의한다면 어떨까요?

또, 그런 복제 강의를 들은 수강생이 다른 사람에게 내용을 전달하면요?

와전된 지식이 퍼져 결국 수강생분들이 헷갈리게 되고 피해를 보는 겁니다.

수강생분들은 이런 유사 강의를 철저히 배제하셔야 균형 잡힌 시각으로 "진짜"를 바라볼 수 있게 되는 겁니다 :)


유사 강의와 "오리지널" 강의

어떤 것을 들으시겠어요?