인공지능 29

Dataset Distillation

https://arxiv.org/pdf/1811.10959 Introductiondataset으로부터 가짜이미지를 만들어 적은 이미지로도 모델을 학습합니다특정 label(plane)을 attack하는 이미지를 만들어 gradient step하나만 돌려 모델의 정확도를 낮출 수도 있습니다 Approach$\theta_1 = \theta_0 - \tilde{\eta} \nabla_{\theta_0} \ell(\tilde{\mathbf{x}}, \theta_0) $ : weight는 가짜 데이터 (synthetic data)로만 학습됩니다$\tilde{\mathbf{x}}^*, \tilde{\eta}^* = \arg\min_{\tilde{\mathbf{x}}, \tilde{\eta}} \mathcal{L}(\..

인공지능 15:01:31

모델 경량화 프루닝 (Pruning) - Structured

Structured PruningUnstructured Pruning은 모델의 구조를 바꾸는 것이 아니라 특정 weight의 value만 0으로 만드는 것이기 때문에 실질적으로 경량화를 하기 힘듭니다. 여전히 모델의 파라미터수는 똑같습니다.이를 극복한 것이 Structured Pruning입니다모델의 채널수(필터수)를 줄이면 줄어든 채널수만큼 모델이 경량화됩니다  Method1 : Lassohttps://arxiv.org/pdf/1707.06168 목적은 가장 중요도가 높은 채널 top $c'$을 찾는 것입니다. 그리고 없어진 채널만큼 weight가 보상해주어야 합니다 (fine tuning같은 개념)\begin{equation} \begin{aligned} \arg \min_{\boldsymbol{\b..

인공지능 2025.03.30

모델 경량화 프루닝 (Pruning) - Unstructured

프루닝이란프루닝(pruning)은 딥러닝 모델에서 모델의 크기를 줄이고 효율성을 높이기 위해 불필요한 부분을 제거하는 과정입니다. 필요없는 부분을 "가지치기" 해서 모델의 덜 중요한 부분을 걷어냅니다가지치기하는 가장 쉬운 방법은 모델의 weight를 0으로 만드는 것(masking)입니다학습방법은 아래와 같습니다 1. 모델이 적당히 converge 할때까지 학습함2. 중요도가 낮은 weight를 0으로 만듬 (마스킹)3. 마스킹된 weight를 제외하고 모델 재학습4. 반복 그러면 어떤 값을 0으로 만들어야 할까요?(논문에 Saliency Score 라는 표현이 자주 나오는데 weight의 중요도를 결정하는 값입니다, 중요도가 낮은 것을 없애야 함) Method1 : Hessianhttps://proce..

인공지능 2025.03.23

Multimodal Unsupervised Image-to-Image Translation

Introductionmultimodal : 단일 모델로 여러가지 도메인(colorization, inpainting, attribute transfer, and style transfer)에 활용 가능 Method각 도메인에 속한 이미지는 이미지의 content와 style로 분리 가능하다(고 가정합니다)예를들어 보겠습니다도메인 X1은 기안84 그림체입니다도메인 X2은 사진입니다아래 그림처럼 봉지은이라는 사람은 도메인에 따라 style(그림체/사진)이 달라 이미지는 다르지만 본질(content)는 동일합니다 이미지 출처 : https://www.mk.co.kr/news/broadcasting-service/7545663 style은 도메인마다 다르지만 content space는 도메인이 다르더라도 동일..

인공지능/기타 2024.12.15

A Discriminative Feature Learning Approach for Deep Face Recognition

IntroductionFace recognition task에서 unseen data를 처리하기 위해 separable(클래스간의 구분) 할 뿐만아니라 discrimitive(클래스의 특징을 배움) 해야한다. discrimitive 해야 일반화가 되어 unseen data를 처리하기 좋다separable의 예시는 "인간과 고양이를 구분하는 방법은 두 발로 걷는지 네 발로 걷는지 알아내면 됨"discrimitive의 예시는 "고양이는 귀가 뾰족하다. 인간은 털이 거의 없다" softmax Loss는 separability만 배운다 center loss를 도입하여 discriminative power를 향상시키도록 하자 contrastive learning과 비슷해보이지만, contrastive learni..

인공지능 2024.12.15

Deep Image Prior

CNN의 구조적인 특성에 따라, 이미지 1장으로(학습없이) 노이즈 제거, 해상도 복원, 이미지 인페인팅이 가능하다 What is prior사람이 왼쪽 이미지에서 오른쪽 이미지로 복원을 한다고 가정해보자사람은 귀가 어디에 있는지, 코가 어떻게 생겼는지 등의 정보를 이용해 오른쪽 이미지로 복원한다이러한 정보를 prior라고 한다일반적으로 딥러닝에서 super resolution을 할때 여러 이미지로부터 prior를 학습해 해상도 복원을한다본 논문에서는 Explicit prior는 필요없으며, CNN 구조 자체가 prior라고 한다즉, 학습 자체가 필요없다. 네트워크 구조와 손상된 이미지만으로 원 이미지 복원이 가능하다 Method${\begin{align*}x^* &= \arg\max_x p(x \mid \..

인공지능/기타 2024.12.14

Backpropagation for a Linear Layer

벡터 미분이 항상 생각이 안나서 정리합니다 Chain rule스칼라 f, 벡터 x,y가 주어져있습니다$\frac{\partial f}{\partial \textbf{x}} = \left[ \frac{\partial f}{\partial x_1} \;\; \frac{\partial f}{\partial x_2}  \right]$      $\frac{\partial f}{\partial \textbf{y}} = \left[ \frac{\partial f}{\partial y_1} \;\; \frac{\partial f}{\partial y_2} \;\; \frac{\partial f}{\partial y_3}  \right]$      ${\frac{\partial \textbf{y}}{\partial \..

인공지능/기타 2024.10.31

Improving Knowledge Distillation via Regularizing Feature Norm and Direction

Overviewpenultimate layer (logit 직전의 layer)에 Lnd를 추가하여 성능을 높이는 방법입니다 Motivationpenultimate layer에 L2-loss를 적용하는 것이 모델 성능 향상에 직접적인 영향을 주지 않습니다model pruning and domain adaptation를 통해 large-norm features(norm=size)의 중요성을 알 수 있습니다예를들어, model pruning의 경우 특정 threshold이하의 값을 0으로 만들어도 성능이 크게 줄어들지 않는 것을 보여줬습니다.따라서, feature의 값을 작게 하는 것보다 크게 하는 것이 모델에 더 긍정적인 영향을 끼칠 것으로 예상할 수 있습니다 Regularization어떤 방향으로 값을 커..

Logit Standardization in Knowledge Distillation

개요Knowledge distillation에서 logit을 Standardization하는 것이 더 효과가 좋다는 것을 보여준다위 그림을 보았을 때, 실제로는 오른쪽 student가 더 예측을 잘했음에도 불구하고 오른쪽 student의 KL-divergence가 더 높습니다. standardization을 시키면 그 문제가 해결됩니다 저자는 probability function로 Softmax를 써야한다고 말한 후 수식을 통해 기존의 문제점을 지적하고 standardization을 쓰면 개선된다고 얘기합니다 Derivation of softmax in Classificationsoftmax는 엔트로피를 높이는 probability function 중 최적의 해이다probability function을 ..

라그랑주 승수법 (Lagrange multipliers)

이 글을 보는 모든 분들은 라그랑주 승수법 개념은 알고 계실것 같습니다 고등학교 다닐 때 이런 문제를 많이 보셨을 것 같습니다(모의고사나 수능문제 있는지 찾아봤는데 못찾겠네요) $y = −x+1$ 위에 있는 점들 중 $f(x,y)=x^2+y$의 최소값을 찾아라 풀이$x^2+y=k$로 두고 그래프를 그립니다이차함수 그래프는 (0,k)를 지납니다k가 최소가 되려면 두 그래프가 접해야 합니다 라그랑주 승수법제약식 g(x,y)=k 이 주어졌을 때 (k는 임의의 상수) f(x,y)의 최대 또는 최소를 만족하는 점은 f와 g가 접하는 점에 있다이를 식으로 나타내면, 서로 gradient vector가 같아야 한다는 의미이다$\nabla f = \lambda \nabla g$ 제약식이 여러개 일때 라그랑주 승수법함수..

인공지능/기타 2024.08.05