2장 자연어와 단어의 분산 표현

[2.1 자연어 처리란]

자연어 처리(NLP)란 우리의 말을 컴퓨터에게 이해시키기 위한 기술입니다.
의미의 최소 단위인 단어를 컴퓨터가 이해하는 방법으로는 '시소러스를 활용한 기법', '통계 기반 기법', '추론 기반 기법'이 있습니다.

[2.2 시소러스]

시소러스 : 유의어 사전으로 뜻이 같은 단어나 뜻이 비슷한 단어가 한 그룹으로 분류되어 있습니다. 추가로 상위와 하위, 전체와 부분 등 세세한 관계까지 정의해 두기도 합니다.
단어에 대한 유의어 집합을 만든 후 단어의 관계를 그래프로 표현하면 단어 네트워크를 만들 수 있습니다. 이를 이용해서 컴퓨터가 단어의 의미를 이해하게 됩니다.
WorkNet : NLP에서 가장 유명한 시소러스 입니다. 1985년부터 구축하기 시작한 전통 있는 시소러스 입니다.
시소러스는 사람이 수작업으로 레이블링해야 하므로 비용이 크고 시대 변화에 대응하기 어렵다는 단점이 있습니다.

[2.3 통계 기반 기법]

말뭉치란 자연어 처리 연구를 염두에 두고 수집된 대량의 텍스트 데이터를 의미합니다. 통계 기반 기법은 말뭉치에서 자동적이고 효율적으로 핵심을 추출하는 것입니다.

아래는 말뭉치 전처리 코드입니다.

# 문장
text = 'You say goodbye and I say hello.'
text = text.lower()
text = text.replace('.',' .')
# 단어 목록
words = text.split(' ')
# 단어ID와 단어의 대응표
word_to_id = {}
id_to_word = {}
for word in words:
    if word not in word_to_id:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word
print(id_to_word)
print(word_to_id)

>>> print(id_to_word)
{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}
>>> print(word_to_id)
{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

위 코드를 이용해서 말뭉치를 이용하기 위한 함수를 만듭니다.

common폴더의 util.py파일에 해당 함수를 저장해줍니다.

def preprocess(text):
    text = text.lower()
    text = text.replace('.', ' .')
    words = text.split(' ')

    word_to_id = {}
    id_to_word = {}
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word

    corpus = np.array([word_to_id[w] for w in words])

    return corpus, word_to_id, id_to_word

단어의 분산 표현 : 단어를 고정 길이의 밀집벡터로 표현함으로써 다너의 의미를 정확하게 파악할 수 있도록 합니다.