[3.5 word2vec 보충]

[3.5.1 CBOW 모델과 확률]

확률 표기법
- 확률 P(A) : A가 일어날 확률
- 동시 확률 P(A,B) : A와 B가 동시에 일어날 확률
- 사후 확률 P(A|B) : B가 주어졌을 때 A가 일어날 확률
CBOW 모델 확률 표기법 기술
- CBOW모델은 맥락을 주면 타깃 단어가 출현할 확률을 출력합니다.
- CBOW모델의 식과 손실 함수
- 말뭉치 전체로 확장한 CBOW 손실 함수

Untitled

⇒ CBOW 모델의 학습이 수행하는 일은 손실 함수를 가능한 작게 만드는 것입니다. 이때의 가중치 매개변수가 저희가 얻고자 하는 단어의 분산 표현입니다.

3.5.2 skip-gram 모델

word2vec은 2개의 모델을 제안합니다.
- CBOW 모델 : 주변의 단어(맥락)가 여러 개 있고 그 맥락으로부터 중앙의 단어(타깃)을 추측합니다.
- skip-gram 모델 : 중앙의 단어(타깃)으로부터 주변의 여러 단어(맥락)을 추측합니다.
skip-gram 모델의 입력층은 하나이고 출력층은 맥락의 수만큼 존재하게 됩니다.
각 출력층에서는 softmax with loss계층 등을 이용해 개별적으로 손실을 구하고, 이 개별 손실들을 모두 더한 값을 최종 손실로 합니다.
skip-gram모델 확률 표기법 기술
- 맥락의 단어들이 독립이라고 가정하므로 아래와 같이 분해 가능합니다.
- 위 식을 교차 엔트로피 오차에 적용하여 skip-gram모델의 손실 함수를 유도하면 아래와 같습니다. 맥락 별 손실을 구한 후 모두 더합니다.
- 말뭉치 전체로 확장한 skip-gram 손실함수
CBOW모델 vs skip-gram모델 손실 함수 차이
- CBOW은 타깃 하나의 손실을 구하는 반면, skip-gram은 맥락의 수만큼 추측하기 때문에, 그 손실 함수는 각 맥락에서 구한 손실의 총합이 됩니다.
CBOW모델과 skip-gram모델 중 어느 모델을 사용할까요?
- 정답은 skip-gram!!
- 단어 분산 표현의 정밀도 면에서 skip-gram모델의 결과가 더 좋기 때문입니다.
- 특히 말뭉치가 커질수록 저빈도 단어나 유추 문제의 성능 면에서 skip-gram 모델이 더 뛰어난 경향이 있습니다.
- 단, skip-gram 모델은 손실을 맥락의 수만큼 구해야 하므로 계산 비용이 커져서 CBOW에 비해서 속도가 느려진다는 한계가 있습니다.

import sys
sys.path.append('..')
import numpy as np
from common.layers import MatMul, SoftmaxWithLoss

class SimpleSkipGram:
    def __init__(self, vocab_size, hidden_size):
        V, H = vocab_size, hidden_size

        # 가중치 초기화
        W_in = 0.01 * np.random.randn(V, H).astype('f')
        W_out = 0.01 * np.random.randn(H, V).astype('f')

        # 계층 생성
        self.in_layer = MatMul(W_in)
        self.out_layer = MatMul(W_out)
        self.loss_layer1 = SoftmaxWithLoss()
        self.loss_layer2 = SoftmaxWithLoss()

        # 모든 가중치와 기울기를 리스트에 모은다.
        layers = [self.in_layer, self.out_layer]
        self.params, self.grads = [], []
        for layer in layers:
            self.params += layer.params
            self.grads += layer.grads

        # 인스턴스 변수에 단어의 분산 표현을 저장한다.
        self.word_vecs = W_in

    def forward(self, contexts, target):
        h = self.in_layer.forward(target)
        s = self.out_layer.forward(h)
        l1 = self.loss_layer1.forward(s, contexts[:, 0])
        l2 = self.loss_layer2.forward(s, contexts[:, 1])
        loss = l1 + l2
        return loss

    def backward(self, dout=1):
        dl1 = self.loss_layer1.backward(dout)
        dl2 = self.loss_layer2.backward(dout)
        ds = dl1 + dl2
        dh = self.out_layer.backward(ds)
        self.in_layer.backward(dh)
        return None