ResNet
Legend 13 (Image) Voice Transciption
Transcription
- 클로바노트 https://clovanote.naver.com/
받아쓰기
그겁니다. 스키 커넥션이라는 존재가 저렇게 좋다는 거고 스키 커넥션이 뭔지 설명 들어갑니다. 내지는 타이미허는 생각했어요. 베니싱 그라디언트가 해결이 만약에 됐다고 칩시다. 얘가 그라디언트가 충분히 마지막 레이어부터 첫레이어까지 다 충분히 큰 거예요. 그라디언트 크기가. 그럼에도 불구하고 온드 피팅이 일어난다는 것은 수학적으로 말도 안 되는 거예요. 왜? 깊은 것은 얇은 것을 죽내낼 수 있다. 만약에 50층이 10층짜리를 나타내고 싶다면 그냥 사십 층은 들어온 대로 나가게끔 하면 그만 아니겠냐라는 거야. 이게 돼야 무슨 말인지
네 네
그냥 컴블엘로 컴블 엘로 이렇게 있었다고 쳐요. 그러면 오십층짜리 중에서 40층을 그냥 아이덴티티 들어오는 대로 나가게끔 한다는 거예요. 그냥 리니어 액티베이션 쓰고 웨이트도 그냥 100 0 10 00 이런 식으로 되게끔 아이덴티티 메트릭스가 되게끔 그렇게 하면은 충분히 그죠? 말이 되죠? 낮은 것이 표현할 수 있는 그 범위가 이렇게 있다고 합시다. 10층짜리가 50초짜리는 더 크다라는 거예요. 슈퍼셀이다. 그 이상의 표현력을 가진 근데 희안하게 트레이닝 에러가 더 크다는 거예요. 그래서 왜 그런지는 모르겠지만 어쨌든 베니 싱그라젠트가 아니라는 거예요. 이거는. 그래서 왜 언더 피팅이 일어나는지 이 논문에서 밝혀내지 못했어요. 2016년에 못 밝혀냈고 2018년에 밝혀냈죠. 아무튼 shot cut coneion이라는 것을 만들었고 원인 모를 그 문제를 해결해 준 겁니다. 이해됐어요? 그래서 스키 커넥션 쇼크 커넥션 같은 말이에요. 이 녀석은 뭐냐 사실 굉장히 허무할 정도로 이 그림이 끝이에요. 이 커넥션을 스키 커넥션이라고 불러요. 웨이트 레이어 그다음에 lello 그다음에 웨이트 레이어 그다음에 elo 이렇게 갈 때 중간에 엑스가 병 나와서 그대로 더 해줘보자 해보자 하는 스키 하는 그런 어떤 커넥션을 만들어보자. 끝. 그게 끝이에요. 그러면 기존에는 fx밖에 없었겠죠 fx랑 은 웨이트 곱하고 액티베이션 그다음에 웨이트 곱하고 이 녀석을 얘기하는 거예요. 이렇게 근데 스키 컨on이 있으면 더하기 fex가 되겠죠
어?
차이 딱 그정도 그 정도 차이 근데 이런 신기한 일이 일어났다는 거죠. 레이어에 들어온 엑스를 받아가지고 만들고 싶은 어떤 이상적인 요석을 앞으로 hx라고 한번 표현을 해보겠습니다. 괜찮아요. Hx라고 표현을 해볼게요. 그랬을 때 얘를 이 hx를 fx로 만들기 기존이죠 기존 그리고 더하기 fx를 만들기 스키 콘엑션 가지고 만들기 그 정도 차이에요. 왜 그럴까? 여기까진 잘 모르겠죠 왜 그런지 아직은 잘 모르겠죠
자 가정을 해보겠습니다. 만약에 hx가 x랑 비슷하다고 해봅시다. 만들고 싶은 게 x랑 비슷한 녀석이다라고 해봅시다. Hx가 뭔지 이해가 됐어요? 일단 hx는 뭐냐
로스를 가장 줄일 수 있는 어떤 그런 요소인 거예요. 그 층에서 할 수 있는 가장 최선의 어떤 무언가 그레이어가 할 수 있는 최선의 그 무언가가 hxx라고 하자라는 거예요. 이상적인 어떤 아이디 한 함수 그런 놈이 xx랑 비슷비슷한 녀석이라면 스키코시 없는 mllp를 쓴다면 웨이트 메트릭스는 무엇이 돼야 됩니까? W1 W2 둘 다 뭐가 돼야 돼요?
메트릭스인데
스키 커션 없이 fx로 x랑 비슷한 녀석을 만든다고 쳐요. 그냥 x랑 똑같은 녀석이라고 쳐요. 그럼 웨이트 메트릭스 뭐가 돼야 돼요?
통과하는 통과하는 잠수 왜 뭔데요? 통과하는 행렬이 뭐예요?
음악 다시 안 봤어요
응 다 손님 어디 갔어?
네 어떻게 된 겁니까?
인버스 매트릭스 들어봤어요? 처음 들어봐요 인버스 매트릭스라는 녀석을 역행렬이라는 녀석 처음 들어봐요 영상에서 본 것 같습니다. 본 것 같아요. 그 직교 행렬이라는 건 본 것 같아요 는 것 같아요. 근데 몰랐어요. 그런 존재를
알죠 고등학교 때
그러니까 고등학교 때 배웠잖아요. 동년배 왜 8차 교육과정인 척해요. 뭡니까? 무슨 매트릭스여야 돼요 그중에 그 유명한 매트릭스 중에
응
아니면은 잘 안 떠오르면 생각해 보면 되잖아요. X x2 x3가 있어요. 여기랑 뭐랑 곱해져야 x x x3가 나오는 거예요 에이트가 어떻게 생겨야 되는 거예요 111일이면 안 되잖아요.
네 왜
100이어야지 이렇게 이렇게 해서 원이 나오지 않을까요? 네 그러면 여기 두 번째 줄은
영 1년
세 번째
영영인
이걸 무슨 메트릭스라 불러요
기억 안 나요 그거는 그것까지는 이 용어는 기억 안 나도 돼요. 용어가 아니고 그냥 1,000,000,001이요. 이렇게 말해도 상관없어요. 그게 중요합니까? 어쨌든 황등 행렬이다라는 거예요. 이게 황등 행렬 우리 저기 이로 배우셨을 거잖아요. 고등학교 때 비밀이 문제를 풀었어요. 분명히
공 몇이에요 아니 일은 넘어도 아닙니다. 일은 넘어요.
네
아무튼 17인가 부터 부터는 매트릭스를 안 배웠대요. 행렬을 아무튼 그래서 제가 있지 않습니까 선영대 수업 다 찍어 올렸지 않습니까 한근에 대학교 때는 아이라고 불러요 이라고 안 하고 아이라고 부릅니다. 상대 이열이면 이게 아이 이게 아이면 그대로 튀어나온다는 거예요. 엑스 엑스가 양수라고 지금 가정을 했습니다. 혹시나 멜루 때문에 제기하실까 봐 조금이라도 의문 품어질까 봐 모든 걸 다 사전에 차단한 겁니다. 좋아요. 이게 가장 중요합니다. 여러분 이거 이해돼야 돼요. 그럼 만약에 스키 크로션이 도와준다면 그렇다면은 웨이트 메이트리스는 무엇이 들면 될까요? 빵 백열이 빵일 수도 있어요. 행렬이 그냥 빵 스칼라 아니에요 그건 그렇죠 영영 영영 영영 영열 영양열이면 되는 거예요. 근데 웨이트는 먹은 초로 초기야 됩니까? 연결성을 줄여야 되죠 그렇기 때문에 누가 더 이걸 만들기가 쉬운 거예요
있을 때랑 없을 때
있을 때
그렇죠 그게 대박인 거예요. 그게 스키 콘션이 한 역할인 거예요. 다시 더하게 fx를 만듬으로써 x를 잘 만드는 거예요. 얘는 슈더하게 fx로 만들으로써 엑스랑 비슷한 녀석을 잘 만들어요. 엑스랑 많이 다른 녀석은 쉽지 않아요. 잘 못 만드는데 엑스랑 비슷한 녀석을 잘 만든다는 얘기에요. 그럼 여기서 질문 들어와야죠 바로 질문 들어와야죠. 왜 hx가 x랑 비슷하냐고 바로 질문이 들어가지 않겠습니까? 이해돼요? 왜 이런 의문이 생기는지
네
응 그 흐름을 잘 따라와 보세요. 왜 hx가 x일지 제가 알려드릴게요. 레즈네시 귀뜸입니다. 이게 가장 중요한 슬라이드에요. 엄청 깊다고 해볼게요. 어떤 네트워이 한 백층쯤 된다 쳐. 그러면 입력 사진을 미친 듯이 크게 바꿔가면서 막 이렇게 출력층까지 가는 게 좋을까요 아니면 차근차근차근 바꿔나가는 게 좋을까요? 그니까 좋다라는 얘기는 처음 보는 사진에 대해서도 잘할까를 물어보는 거예요. 당연히 우리는 테스트 에러가 작은 게 무조건 왔다 합니다. 다 필요 없고 테스트 에러가 작은 게 짱이에요. 누가 더 테스트 에러가 작을까요? 팍팍팍팍팍팍 바꾸도록 학생 된 녀석 잘 살살 새살 바꿔가지고 분류하는 녀석 팡팡 바꾸면 입력 이미지에 따라서 입력되는 픽셀 값이 조금이라도 튀면 이상한 값으로 된다는 거니까 강아지 사진인데 조금 비슷한 강아지 사진인데도 값이 엄청 달라진다는 얘기에요. 똑같은 강아지 사진인데 그러면은 분류를 잘 못 하겠죠 자연스럽게 하지만 트레이닝 데이터에 대해선 잘 하겠죠 그걸 뭐라고 불러요? 오버피팅인 거예요. 그게. 그러니까 입력으로부터 값을 차근차근 바꿔나가는 녀석이 오버 피팅 안 하는 녀석 팍팍 바꾼 녀석이 크기를 크게 했다가 작게 했다가 이렇게 하는 녀석이 우버 피팅이 심한 녀석이다라고 우리는 생각할 수가 있다는 겁니다. 그래서 잘 학습된 녀석이라면 hx랑 는 비슷할 것이다라고 충분히 얘기해 볼 수 있다는 거야. 이해돼요 무슨 말인지
네
그러면 끝난 거예요. Hx가 x랑 비슷하다면 그러면 스키 커넥션을 해야죠. 왜? Hx랑 xx랑 비슷한 요석을 잘 만들게끔 하니까 잘 만들게끔 해주는 게 바로 스키 커미션 하는 역할이니까. 즉 스키 코네션이 있을 때는 x랑 비슷한 hx를 만들기는 굉장히 쉬워요. 에이아이 에이아이가 굉장히 잘 만들어줘요. 이런 것들은. 그렇기 때문에 이걸 연결해준다라는 것만으로도 귀찜을 해주는 거예요. 어떤 귀뜸? 야 값의 변화가 그리 크지 않을 거야. 어차피 4층에서 36층 갈 때 값에 변화가 그리 크지 않을 거야. 그게 정상일 거야. 그러니까 네 지금 니가 지금 있는 그 층 그 층에서 모든 걸 다 하려고 하지 말고 조금씩 차근차근 천천히 나아가라. 꾸준하게 해라라는 거예요. 꾸준하게 각 레이어가 꾸준하게
이걸
저기 뭐야 예를 들면 이런 거예요. 우리 저기 서울과고라고 알아요 서울과고
네
우리나라에서 그래도 저기 우수한 친구들이 가는 학교거든요. 거기에 있는 친구가 제 수업을 와가지고 자기는 인공지능도 하고 싶은데 의사도 되고 싶대. 그래가지고 의료도 공부하고 싶고 생물족도 하고 싶고 막 다 하고 싶다는 거예요. 마음이 너무 급하다는 거예요. 자면 못 잔대요. 너무 공부를 하고 싶어 가지고 시간이 아깝대요. 시간이 잠자는 시간조차. 그래서 아침에 일어나면 무조건 하 하 하스 오지게 때리고 자기는 커피 안 먹는 돼요. 파시스가 더 세니까. 그래서 그렇게 자기를 갈아 먹으면서까지도 아주 그냥 아주 하루에 18시간씩 공부를 한다는 거야. Ai도 하고 의료도 하고 생물도 하고 모든 걸 다 하고 싶으니까 자기가 잘 하는 걸 또 아니까 이게 이게 습득이 되는 거예요. 이금만 다 들어오고 머릿속에 왜냐면 그때가 짱짱할 때거든. 고등학교 때 짱짱 다 설리들 짱짱했잖아요.
네
예예. 근데 저는 그렇게 조언했어요. 야 그러지 말고 그냥 차근차근 해라. 고3 때는 고3 때 할 수 있는 걸 해라. 그냥 어차피 다 만난다. 한 3살쯤 되면 다 어차피 만난다. 그러니까 너무 급하게 해서 체하고 막 그럴 거 없이 34층에서 36층 갈 때는 그냥 그만큼의 일만 해도 괜찮다. 고일 때는 고위 때만큼의 공부를 고3 때는 고3 때만큼의 공부를 대학교 와서는 또 1학년 대학교 1학년 때만큼만 공부를 하라라는 거예요. 이에 대야 무슨 말인지 그러니까 니 뇌에 스키 커넥션을 마련해가지고 차근차근 받고 나가라는 거예요. 너무 급하게 하지 말고. 이해 됐어요 무슨 말인지
예
바로 그 얘기를 지금 하고 있는 겁니다. 깊을수록 문제가 저기 어떠냐 깊을수록 스텐다드 네비에이션이 좀 작은지 어쩐지를 보여줬어요. 실험에서. 그니까 깊을수록 잘 학습된 녀석은 그 리스폰스 레이어에 대한 레이어의 리스폰스가 그 값의 차이가 크지 않다는 거예요. 다른 사진을 보여줬을 때 이 스텐다드 데비에이션은 이거예요. 여러 개의 사진을 보여줘요. 그랬을 때 어떤 컨vouio 레이어 층 그다음 출력에 빅셀 값에 어떤 분산이 있을 거잖아요. 변할 거잖아요. 사진을 여러 개 넣으면 그거에 분산을 한번 측정을 해본 겁니다. 레이어마다 위에는 그냥 레이어 별로 한 거고 밑에는 솔팅을 한 거예요. 했더니 어때요? 확실히 점선 56층짜리 점선은 제대로 학습이 안 된 거죠. 제대로 학습이 안됐다는 것의 증표는 베리언스가 크다라는 거예요. 오히려 층이 깊으면 깊을수록 근데 얘는 20층 56층 17층인데도 불구하고 오히려 더 줄어듭니다.
그러니까 이게 반증이라는 거예요. 잘 학습된 녀석은 스티디가 작은 놈인게 잘하는 거다. 여기서 의문 첫 번째 레이어는 크네요. 또 왜 그럴까요? 이런 의문을 제시해 줬어요. 저번 저번 기지에서 깜짝 놀랐습니다. 그래서 어버버버버 어버버버 모르겠어요. 하여튼 왜 까요? 어찌 보면 단연해요. 첫 번째 레이어에서는
획 특징 같은 걸 뽑다 보니까 아무래도 이미지 스페이시픽 할 수밖에 없는 거예요. 앞에 레이어는 이미지에 따라서 달라질 수밖에 없는 거예요. 그거는 그리고 스키 컨디션을 안 했습니다. 여기서는 애초에 왜 맨 첫 번째 층에서는 값을 많이 바꾸는 게 오히려 잘하는 거다. 왜 그럴 수밖에 없는 층입니까? 그거는 이미지 자체가 베리에이션이 엄청 큰 거잖아요. 데이터 자체가 비싼 값을 놓고 보면 어쩔 때는 어두운 배경 어쩔 때는 밝은 배경 근데 그 둘은 사실 베리에이션이 클 수밖에 없는데 첫 번째 층에서 그렇지만 둘이 같은 종이니까 뒤로 갈수록은 비슷해지겠죠 뒤로 갈수록은 그렇지만 앞에는 어쩔 수 없이 크다는 거예요. 어쩔 수 없이. 그러니까 모든 층이 다 스탠다드 데비해이션이 작은 게 능사는 아니다라는 거죠. 이해됐어요? 네 그게 레즈네의 끝이에요. 그게 스키 커넥션이고 사정 정보를 잘 줬다 뒷딩을 잘했다. 이게 굉장히 중요한 지점입니다. 여기까지 일단 질문 한번 해 주세요.
또 질문 하나 있는데요. 저거
그래프에서
우리
그니까 위에 그래프랑 아래 그래프에
가로 측의 차이가 어떻게 되는 거예요
뭐라고 써 있어요 그건 무슨 말인 것 같아요?
최대 값으로 분류했다고
최대값 만원에 지대가 최대값이란 뜻이야
잘 모르겠어요.
크기를 가지고 솔팅했다. 그러면 위에 있는 가로치랑
크게 차이가 없는 건가요?
네 크기 차이는 없고 그거를 그냥 크기 순서대로 내림차순으로 설팅했다 그 말이에요. 내림 차순 내림차순으로 내린 자순 그러니까 여기서의 0번째 레이어가 여기서의 0번째 레이어는 아니에요.
네네네 그럼 됐습니다. 오게
유지인님 스키 커렉스션의 단점 이거는 생각을 해볼 문제죠. 제가 봤을 때는
이거는 루우님이 대학원 가잖아요. 이거 제가 연구 과제를 하나 드릴게요. 만약에 이게 잘 풀리면 저 저 자료 넣어주셔야 돼요. 알았어요 자 여기서 출발을 어떻게 했습니까? 이거가 좀 저는 깨림칙한 거예요.
응
만약에 스키 커넥션 효과를 초기화로 누릴 수 있다면 믿으시겠습니까? 예를 들면 이런 거예요. 연금초로 초기화가 됐기 때문에 이거를 만들기 쉬워진 거면 그러면 앗살이 앗살이 아이덴티티로 초기화하라라는 거예요. 빵 왔어요 빵 왔어요 아이덴티티를 초기화하면 그러면 이거 만들기 쉬워지잖아요. 굳이 스키 커션 없어도 이걸로 만들 건데 이게 아이덴티티가 초기 화 값이라는 거예요. 거기서부터 출발을 해라. 그러면 자연스럽게 어디 근처에서 찾게 되겠어요 여기 근처에서 찾으니까 자연스럽게 이거를 만들기가 쉬운 상태가 되는 거예요. 강제로 레귤라리제이션을 주는 거예요 레귤라리제이션이 어떤 거예요? L2m lo는 더해가지고 크기 작게끔 만드는 거잖아요. 그거를 아이덴티티랑 비슷하게끔 프라이어 디스트립션을 줘서 풀어라. 그렇게 하자는 거죠. 요원님 이해됐어요
네
해 줄 거예요.
시간이 되면 요.
안 하겠다는 뜻 한국말 안 하겠다는 뜻 한국말 번역이 안 하겠다는 뜻 그러면 컴벌u션에서 컴벌u션 레이어에서 아이덴티티는 뭘까요 이거는 그래도 풀고 가보죠. 컴볼루션 레이어에서 아이덴티티 필터는 어떻게 생겼습니까
이
이거라고요 잠시만요.
선불로 좀 다시 가요. 첫 시간을 돌아서 시간요 어떻게 된 거야
코널사에서 일하다가 스트라이드
pan 커널 사이즈는 3 바이 3짜리 준다고 치고 그러면 3바이 3짜리라고 치고 왜냐면 그러면은 커널 사이즈를 강제해야 되잖아요. 커널 사이즈 303이라 칩시다. 그러면 가운데만 그렇죠 그렇죠 가운데만 일 나머지는 영 이게 바로 아이덴티티 메트릭스죠. 컴벌루션에션에 컴버리좀 완벽하게 이해하신 거예요. 그러면 다 성님 이해됐어요
생각해 보세요. 이거는
반드시 이해가 돼야 됩니다. 아무튼 로어님 그러면 이렇게 이니a라이제이션 해가지고 모든 커널을 3바이 3짜리 커널 혹은 오바이 오자리면 어떻게 생겼어요 오바 오자리는 이렇게 생겼겠죠
이렇게 하시면 돼요. 그래서 유희 님의 단점의 답변은 뭐예요 이거 없이도 만약에 스키 커넥션이랑 비슷한 효과를 누릴 수 있다면 그러면 굳이 이 스키 커넥션이란 거 할 필요가 없잖아요. 어쨌든 연산량이 늘어나잖아요. 어쨌든 연산량 얘는 연산량의 추가가 있어요 없어요 아예 없어요. 아예 아예. 스키 커니션 w위아웃 스키 커니션 논문 제목 논문 제목도 정해드릴게요. 스키 커니션 위드아웃 스키 커니션 어때요 느낌 있다. 루우님 느낌 있어요
교수님이 한번 얘기해.
그렇지만 시간 안 날 것 같아요. 봐야 될 것 같아요. 교수님이랑 이야기는 할 거예요.
내가 해볼게요.
음
러닝 대상이미 러닝 대상인 거는 스키 커미션도 마찬가지잖아요.
스키 컨션도 0에서 출발해서 똑같이 커널을 레이트 업데이트를 하잖아요. 그래고 조금씩 조게씩 바꿔가지고 뭔가를 만들어내는 거잖아요. 그 뭔가 근데 뭔가를 더하게 x를 만들었느냐 fex를 만들었냐데 fx로 만드는 대신에 아이덴티티로 출발을 하면은 x로 출발을 하는 거니까 x에서부터 fx로 바꾸는 거니까 이것도 마찬가지로 장차를 학습하게 되는 게 아니냐 차이를 차이만 시작점에 애초에 아이덴티티 물론 성능이 비교를 해 봐야겠죠 모르죠 모르죠. 솔직히 이러한 시도를 굳이 할 필요는 그렇게 딱히 없는 게 이거에 의한 연산량이 그렇게 무겁냐 이거예요. 미친 듯이 그렇지 않다. 그러니까 그냥 더 해라. 인간 하면 그냥 더 해라. 근데 이제 저 같은 인간은 이제 성격이 쓰레기 같아서 아니 나 이렇게 하면 될 것 같은데 이러면서 자꾸 이거를 하는 거예요. 자꾸만 딴 짓을 하는 겁니다. 이거 없어도 되지 않냐 이렇게 자꾸만 딴 짓을 거는 거요. 하지만 저는 대학원생이 아니니까 굳이 해보진 않겠습니다. 여러분들한테 맡기겠습니다. 그래서 여러분들이 만약에 해보고 알려주실 수 있으면 엄청나게 행복할 것 같습니다. 자 됐습니까? 됐으면 파란색 버튼
질문 있으면 빨간색
레드에 어떻게 재밌어요 여러분 이런 의미가 담겨 있는지 알고 있었어요
그 가문이 없어요. 빨리 넘어가요. 그냥
잔차를 학습한다고. 그래서 레지디얼 러닝인 겁니다. 이름이 레즈넷이라고 붙은 이유는 차이를 학습하기 때문에 xx가 들어가서 더하기 fx가 나가는 거죠. 그러니까 fx의 역할은 x에서 얼마나 더 얹을까만 고민하는 거예요. X에서 얼마나 더 얹고 덜 얹고 더하기 빼기 플러스 마이너스만 변화만 보자는 거예요. 변화만. 그래서 학습이 쉽다. 이거는 그냥 제 해석인 거고 이 레이어가 이렇게 있을 때 이 동그라미들이 사실은 사람들이고 이게 이 층이 계급이라고 생각을 했어요. 사원 부장 임원이 있어요. 그랬을 때 이거를 사원의 어떤 아이디어를 임원한테 바로 꼽아버린다. 이런 느낌으로 저는 한번 생각을 해봤습니다. 이 부장한테 거쳐서 말하는 것과 그리고 사원이 직접 임원한테 말하는 것 그 두 가지의 의견을 다 전달한다라는 거 더해서 전달한다. 기존에 여기 없었을 때는 어때요? 무조건 두 장을 거쳐서 본래의 의도랑 약간 다르게 와전돼가지고 전달이 될 수가 있는 여지가 있는 거예요. 층이 중간에 껴 있기 때문에 그래서 여기서 나온 출력도 그대로 보자. 말하자면 이미지로 치면 층이 가면 갈수록 이미지가 점점 어쨌든 원래 정보를 조금씩 잃어가요. 그러니까 그 원래 정보도 같이 써가면서 입력하자라는 게 재밌는 거죠.
오케이
그래서 이런 것도 설명을 할 수가 있는데 이렇게도 해봤대요. 왜 두 층 통과냐 한 층만 통과하면 어떻겠냐 근데 한 층만 통과하는 거를 그림으로 나타내보잖아요. 그러면 여기서 이렇게 꼽는 셈이거든요. 그러니까 이 층을 결국에 넘어가지 못하면 말짱 도루묵 아니겠느냐 라는 생각 그래서 그건 기각이 된 것 같습니다. 성능 차이가 별로 없었다라고만 두 개 이상은 뛰어줘야만 성능이 잘 나오더라. 이렇게 밝혔고 세 개 점프도 써요. 세 개 점프는 뒤에서 바로 뒤에서 설명을 드릴 겁니다. 만약에 배치 노말라이제이션이 있으면 외우세요. 컴브 배치 llo 컴브 배치 어 멜루요 뭐라고요?
자
스킵은 이렇게 쭉 들어가고요. 여기는 통과를 하는 겁니다. 컴브배치l로 컴브베치 레로 컴부배치l로 컴부배치 엉? L로 이게 되가 무슨 말인지 그래서 얻다가 스킨을 딱 뽑을 건지 그거를 고민했을 때 얘는 이렇게 합치고 멜로를 통과하는 것으로 생각을 했습니다. 자유도가 물론 있어요. 어따가 꼽을지를 고민을 해 볼 필요는 있겠죠 그거를 따로 연구 논문을 냈어요. 이 카이미 허가 후속 논문으로 어따 뽑는 게 가장 좋을지를 모든 경우의 수에 다 해봤대요. 그랬을 때 가장 좋은 건 이거고 왜 이게 가장 좋게 나왔는지를 또 분석을 했습니다. 그래서 그 논문도 뒤에 포함이 돼 있으니까 그때 같이 보고요. 자 브이지즈넷이랑 굉장히 비싸게 생겼습니다.
밑에 게 맨 밑에 게 v지즈 넷 19층짜리고요. 중간에 깨 34층짜리 v이지즈 넷인 거예요. 그니까 v이지즈넷을 변형해서 저렇게 34층을 만들었어요. 레즈네 페이퍼에서 그리고 여기서 제안하는 스키 커넥션을 계속 뽑아냅니다. 계속 두 층씩 두 층씩 두 층씩. 그래서 요 녀석을 바로 제안하는 모델이라고 소개를 했습니다. 인셉션에 비해서 어때요? 일단 기본적으로 생김새가 심플하잖아요. 그렇죠? 확실히 심플합니다. 맨 처음에는 멘트 플링 말고는 플링을 안 써요. 보시면은 맨 처음에는 플링이 있고 맨 뒤에 플링이 있습니다. 그래 이거부터 설명드릴게요. 이거 중간에 lo가 껴 있는 겁니다. 컴브베치 LO 컴브베치 olo 그다음에 컴브배치 LO 컴브베 엉 llo 이렇게 가니까 멜로가 중간 중간 껴 있다라는 사실 잘 알고 계시고 그 맨 마지막은 gap를 쓴다. 인셉션이랑 비슷하죠 그리고 맨 처음과 맹크 플링 말고는 폴링 안 쓴다라는 점 그러면 사이즈 줄일 때 어떻게 한다? 인셉션 넷에서 제한을 했었죠 스트라이드 2로 스트라이드 2로 줄이자라는 거. 얘도 그렇게 했습니다. 그래서 여기 중간 중간에 이 나누기 이라고 써 있어요. 이게 뭘까요? 의미가
스타들이
스트라이드 일을 줬다라는 뜻인 겁니다.
오케이 그리고 정선이 보이네요. 점선. 이거 왜 점선이 있을까요?
뭘 의미할까요? 이 점수는 일단 실선이 연결이 될까요? 스트레이드 일을 했습니다. 그러면 실선이 연결이 돼요 안 돼요?
안 돼요.
왜죠?
사이즈가 달라진
파이즈가 달라지니까 그래서 그냥 이렇게 생각하시면 돼요. 여기에 원바이 원을 숨겨놓은 거예요. 실선은 여기에 원바이 원을 숨겨놓은 겁니다. 그게 다예요. 그래서 1바 1이고 스트라이드 2로 사이즈를 맞춰줬어요. 일반 1이고 스트라이드 이면은 어떤 식으로 하는 거예요
이
이게 뼈 뼈 뽑는 거잖아요. 이해돼요 무슨 말인지 1발 1이고 스터디이면은 이렇게 이렇게만 뽑으니까 4바이 4로 되겠죠 이 그림으로 치면 하여튼 반팅 반팅 되는 겁니다. 나머지는 어떻게 해? 버려지는 거예요 버려져요 어쩔 수 없습니다. 그래서 나중에 지금 현대에 와서는 이렇게 안 해요. 1바 1로 스트라이드 일로 하면 너무 잃어버리는 게 많아서 반을 잃어버린 셈이라서 이렇게 하지는 않습니다. 아무튼 그래요. 그래서 사이즈를 맞춰주기 위해서 그리고 채널 수도 맞춰주기 위해서 또 점선이 들어갑니다. 예를 들면 여기는 없네 여기에 그림에는 없는데 채널 수를 맞춰줄 사이즈는 같은데 채널 수가 다를 때가 있거든요. 그때도 이 녀석으로 해야 되겠죠 그때는 스트라이드는 그냥 1로 주고 스트라이드 일로 주는데 채널 수는 맞춰줘기 위해서 다르게 한다. 이거는 그냥 용어 실선은 아이덴티티 쇼크 점수는 프로젝션 줄 것이라고 구별 지어서 이름을 붙입니다. 됐습니까?
됐어요 버튼 안 됐어요 오케이.
바틀랙은 50층 이상 깊은 레즈넷에서 이 구조를 사용했고 이렇게 생겼어요. 왼쪽이 기존 오른쪽이 파틀릭입니다.
자
오른쪽 그림 보시면 입력 차원은 몇 차원이에요
근데 1박 1에서 며출을 줄여요. 그죠? 그다음에 줄어든 상태에서 3 3자리를 하는 거죠. 그다음에 마지막에 어떻게 해요? 1바 1로
응
l로 말고 레로 뒤에 거 그다음에 1바 1로 다시 채널을 256이 되도록 맞춰가지고 더 할 수 있게끔 해주는 거죠. 왜? 바틀렉이에요 이름이. 그러면
끓어들었다 늘어나서
그렇죠 최연수의 추이를 보면 이렇게 되고 있습니다. 1바 1로 줄였고 여기는 3발 3 그리고 1바 1로 다시 키운 거예요. 이해 돼요? 무슨 말인지 이렇게 그래서 이걸 병목 현상이 일어났다라고 생각했고 바틀렉이라고 이름을 붙인 겁니다. 그러면 바틀랙이 좋은 걸까요? 과연 정보량의 측면에서 좋은 좋아 보여요 나빠 보여요? 이 병목이라는 게
어떻게 보면 업축이라고 볼 수 있고
어떻게 보면
손해를
한다고 볼 수도 있고
압축이 축이 압축은 어쨌든 정보를 있는 거잖아요. 압축이라 하면
네
그렇죠 정부의 유지 차원에서는 좋은 행위는 아니에요. 그렇지만 울며 겨자 먹기식을 이렇게 하는 겁니다. 왜? 삼바이 3만 계속 쓴다고 합시다. 그러면은 파라미터 수가 너무 많아진다는 거예요. 그래서 깊게 만들고는 싶은데 파라미터 수가 너무 많아지니까 줄였다가 줄인 상태에서 이 무거운 녀석을 적은 채널 수에서 무거운 녀석을 하자. 이 개념인 거예요. 이해돼요? 줄어든 차원에서 무거운 걸 하자. 오케이
응
음 바로 그겁니다. 그래서 1바일로 줄이고 그다음에 3바이성 통과 그다음에 1바일로 다시 키워서 더 해줘야 되니까 울려면 더 해주려면 다시 키워야겠죠 그런 존재 그런 구조다. 그래서 이를 바틀 내기다. 전체 구조는 다음 시간에 이 표랑 함께 살펴보도록 하겠습니다. 9시 2분까지 쉬었다가 오겠습니다. 질문 있으면 채팅을 남겨주세요.
clovanote.naver.com