-
Norm에 관한 정리 L1, L2, Frobenius normML&DL 이야기/ML 2024. 7. 3. 13:46
기계학습 및 딥러닝에 관한 일부 자료들을 보다보면, loss에서 Mahalnobis distance를 이용하는 경우가 있다.
해당 내용을 정리하면서 동시에 Norm들에 관해 정리하려고 한다(Norm에 관한 내용도 많이 나온다)
Norm
Norm, 노름 이라고 불리는 것은 벡터의 크기(혹은 길이)를 측정하는 함수이다. 다시 말해 두 벡터 간의 거리를 측정할 때에도 사용가능하다.
Norm은 거리이기에 거리의 다양한 속성들을 만족해야하며 이는 아래와 같다.
1. Subadditivity/Triangle inequality: 𝑝(𝑥+𝑦)≤𝑝(𝑥)+𝑝(𝑦) for all 𝑥,𝑦∈𝑋.
2. Absolute homogeneity: 𝑝(𝑠𝑥)=|𝑠|𝑝(𝑥) for all 𝑥∈𝑋 and all scalars 𝑠.
3. Positive definiteness/positiveness/Point-separating: for all 𝑥∈𝑋, if 𝑝(𝑥)=0 then 𝑥=0.
Because property (2.) implies 𝑝(0)=0, some authors replace property (3.) with the equivalent condition: for every 𝑥∈𝑋, 𝑝(𝑥)=0 if and only if 𝑥=0.(이런 특성들은 생각보다 중요한 특성이다!, 이전에 리뷰한 Collaborative metric learning에서 다룬바 있다)
일반적으로 norm은 아래의 L{p} norm을 의미하며 이외에도 다양한 distance 표현법이 존재한다.
자세한건 아래의 내용에서 다룬다
L1 norm
l1 norm은 manhanttan norm 혹은 taxicab norm이라고 불리며 요소들의 절대값을 모두 더한 norm이다.
L1 norm은 요소들의 변화를 정확하게 파악가능하다.
L2 norm
L2 norm은 n차원 유클리드 공간에서의 벡터의 크기를 계산하기에 Euclidean norm이라고도 한다.
L2 norm은 대다수의 알고리즘에서 보편적으로 사용하며 KNN, L2 regularzation 등에 사용된다.
L1 vs L2
이 둘의 차이는 결국 차의 절대값을 사용하느냐, 아니면 차의 제곱을 사용하느냐에 있다. 이는 자연스럽게 MAE와 MSE loss의 차이와 비슷한 특성을 지님을 의미한다.
결국 이상치에 L2는 더욱 민감하며, L1의 경우 0인 지점에서 미분 불가능할 것이다.
Regularization에 이를 적용하면 L1 regularization과 L2 regulariztion으로 표현하며 이 둘도 차이를 지닌다.
보통 정규화는 모델의 일반화 성능을 높인다.
수식을 보면 아래와 같다. 좌측이 L1 regularization, 우측이 L2 regularization이다.
L1 reularization을 사용한 회귀식의 경우 Least Absolute Shrinkage and Selection Operater(Lasso) Regression이라고도 부르며 L2를 사용한 경우 Ridge regression이라고 불린다.
두 식 모두 cost가 크지 않은 방향으로 학습되게 된다.
둘의 차이는 L1의 경우 특정 Feature(벡터의 한 요소)가 없어도 동일한 값을 낼 수 있다는 점이다. 아래의 그림을 보면 L2는 항상 두 점의 차를 초록선으로 표현하지만, L1의 경우 다양한 방법으로 표현 가능하다. 이러한 특징 때문에 L1의 경우 Sparse model에 적합하다고 한다(일부 가중치를 정확히 0으로 만들어 특징 선택이 가능)
Frobenius norm
위의 두 norm은 vector norm이다. 행렬에 관해서도 비슷하게 정의되는데 충족 특성이 조금 다르다.
p,q가 1보다 큰 경우 matrix norm은 아래와 같이 정의된다.
이중 Frobenius norm p,q가 2일때이며 아래와 같이 정의된다.
참고자료
https://light-tree.tistory.com/125
'ML&DL 이야기 > ML' 카테고리의 다른 글
[LTR] Learning to Rank, Pointwise, Pairwise, Listwise ranking (1) 2024.07.17 Mahalanobis Distance(마할노비스 거리) (1) 2024.07.03 Decision-Focused Learning: Foundations, State of the Art,Benchmark and Future Opportunities 리뷰 1 (DFL 개론) (0) 2024.07.02 [Time-series] Long term time-series forecasting 연구동향 (0) 2024.04.06 [Time-series] Time-series Analysis, 시계열 알아보기 (2) 2024.03.22