데이터분석/NLP

[NLP] Python WordCloud 그리기 2021.11.21
[Keras] RNN 내부동작 알아보기 2021.08.05
[Keras] Embedding에 대해 알아보자. 2021.08.05 3
[soynlp] 띄어쓰기 교정 모델 2020.05.11

[NLP] Python WordCloud 그리기

2021. 11. 21. 13:56

drive mount

# 모든 과정은 colab을 통해 진행했습니다.
from google.colab import drive
drive.mount('/content/drive')

library import

#라이브러리 import

#형분석 설치
!pip install konlpy

import os
import re
import urllib.request
import pandas as pd
from konlpy.tag import Kkma
import tqdm
from wordcloud import WordCloud

data download

urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")
data = pd.read_table('ratings_train.txt')
print(data.shape)
data.head()

형태소 분석

#명사추출
def preprocessing_nouns(text, kkma, remove_stopwords=False, stop_words=[]):
    #한글 추출
    text=re.sub("[^가-힣ㄱ-ㅎㅏ-ㅣ]"," ", text)
    #명사 추출
    word_text=kkma.nouns(text)
    #불용어 및 두글자 이상 명사 추출
    if remove_stopwords:
        word=[token for token in word_text if not token in stop_words and len(token)>1]
    return word


kkma = Kkma()
stop_words=['은','는','이','가', '하','아','것','들','의','있','되','수','보','주','등','한']

document = data['document'].iloc[:3000]


nouns_text=[]

for text in tqdm.tqdm(document):
    try:
        nouns_text.append(preprocessing_nouns(text, kkma, remove_stopwords=True, stop_words=stop_words))
    except:
        nouns_text.append([])

nouns_text[:5]

Word Count - TF(Term Frequency)

tf_words=[]

for i in range(len(nouns_text)):
    tf_words.extend(nouns_text[i])

word_count = {} # 사전을 만든다
for word in tf_words: # 모든 단어에 대해서
    if word in word_count: # 사전에 단어가 있으면
        word_count[word] += 1 # 단어의 개수를 1 증가 시킨다
    else: # 없으면
        word_count[word] = 1 # 단어의 개수를 1로 한다

Word Count - DF(Document Frequency)

DF의 경우는 문서 내의 단어가 1번등장하던 10번등장하던 1번등장으로 생각합니다. 따라서 문서내의 동일한 단어를 중복제거 합니다.

df_words=[]

for i in range(len(nouns_text)):
    # set을 통해 문서 내 중복단어 제거
    df_words.extend(list(set(nouns_text[i])))

word_count = {} # 사전을 만든다
for word in df_words: # 모든 단어에 대해서
    if word in word_count: # 사전에 단어가 있으면
        word_count[word] += 1 # 단어의 개수를 1 증가 시킨다
    else: # 없으면
        word_count[word] = 1 # 단어의 개수를 1로 한다

WordCloud

wc = WordCloud(width=1000, 
               height=400,
               font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf' )
cloud = wc.fit_words(word_count)
cloud.to_image()

WordCloud - Option

워드클라우드 옵션을 살펴보면 워드클라우드 크기(width, height), 글자 방향(prefer_horizontal), 불용어(stopwords), 배경색(background_color) 등이 있습니다. 이외의 옵션은 직접 사용하며, 확인해보면 됩니다.

wc = WordCloud(width=1000, 
               height=400,
               font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf',
               #배경 흰색
               background_color='white',
               #글자 수평
               prefer_horizontal = 1,
               #최대 단어 100개
               max_words=100)
cloud = wc.fit_words(word_count)
cloud.to_image()

WordCloud - 상위빈도키워드

보통 wordcloud를 그릴 경우 모든 단어가 아닌 상위 빈도수의 키워드를 나타내길 원합니다. 예를 들어 고객의 리뷰를 분석할 경우 고객이 가장 많이 언급한 단어가 고객 opinion의 단서가 될 수 있기 때문입니다.

sort를 통해 count기반으로 정렬 후 상위 50개를 추출하여 다시 딕셔너리 형태로 변경해줍니다.

from operator import itemgetter
빈도수 기준으로 sort
sorted_words = sorted(word_count.items(), key=itemgetter(1), reverse=True)
상위빈도 키워드 5개 추출
print(sorted_words[:5])

word_dict = {}
for n , i in sorted_words[:50]:
  word_dict[n] = i

print("영화 wordcount :",word_dict['영화'])
print("딕셔너리 갯수 :",len(word_dict))

wc = WordCloud(width=1000, 
               height=400,
               font_path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf' )
cloud = wc.fit_words(word_dict)
cloud.to_image()

저작자표시 비영리 변경금지 (새창열림)

'데이터분석 > NLP' 카테고리의 다른 글

[Keras] RNN 내부동작 알아보기 (0)	2021.08.05
[Keras] Embedding에 대해 알아보자. (3)	2021.08.05
[soynlp] 띄어쓰기 교정 모델 (0)	2020.05.11

[Keras] RNN 내부동작 알아보기

2021. 8. 5. 17:09

이번 포스팅은 기본적으로 RNN의 대한 개념을 안다는 가정하에 RNN의 input, output, training parms에 대해 알아보려 합니다.

우선 앞서 Embedding에 대해 알아봤습니다.

https://taeguu.tistory.com/69

[Keras] Embedding에 대해 알아보자.

최근 NLP를 공부하며, 막연히 남들이 작성한 코드를 통해 분류모델을 만들었습니다. 그러다 보니 모델안의 데이터의 흐름을 알 수 없어, RNN계열, 더 나아가 트랜드포머, 버트등의 모델을 이해하

taeguu.tistory.com

RNN 들어가기 전

RNN을 공부하면서 이해가 가지 않는 부분들이 많았습니다. 은닉층과 출력층은 같은 크기인가? RNN의 아웃풋은 Y값인가? 아니면 은닉값인가?

RNN을 공부하다 보면 아래의 그림들을 많이 볼 수 있습니다. 왼쪽의 그림은 RNN을 통과하여 결과값 까지의 흐름을 나타낸 것이며, 오른쪽 그림은 RNN내부의 구조를 나타낸 것입니다. 따라서 이번 RNN을 공부하는데 있어 결과값은 출력하지 않으며 RNN은 은닉상태를 출력한다고 생각하면 됩니다. 두 그림을 같은 그림으로 혼동하시면 안됩니다.

RNN

RNN의 특징은 입력이 은닉층 노드(A)에서 활성화 함수(tanh)를 지나 나온 결과를 출력으로 보냄과 동시에 은닉층 노드(A)로 다시 보내 다음 들어올 입력을 계산할 때 도움을 줍니다. 그림은 아래와 같습니다.

왼쪽의 그림을 나열하면 오른쪽의 그림과 같이 펼칠 수 있습니다.

예를 들어 "나는 밥을 먹었다" 라는 문장을 RNN의 입력으로 받는다고 생각하면, 우선 "나는"의 입력벡터가 x0의 입력으로 들어가며 은닉측 노드(A)와 활성화함수를 지난 결과값이 h0 출력 벡터로 보내집니다. 그 다음 "밥을"의 입력벡터가 x1의 입력으로 들어가며, x0의 은닉측에서 나온 값은 x1의 은닉층으로 보내지며, 이를 은닉 상태(hidden state)라고 합니다.

Input

Embedding에서 나온 output이 RNN의 입력으로 들어가게 됩니다.

앞선 예에서 아래 3개의 문장은 전처리 및 임베딩을 거쳐 3, 4, 100의 Shape을 가졌습니다.

["나는 밥을 먹었다", "나는 학교에 갔다", 오늘 학교에 선생님이 오셨다"]

복습하자면, 3은 샘플의 수(batchsize), 4는 sequence_length, 100은 embedding에서 설정한 단어의 임베딩차원 이었습니다.

그렇다면 임베딩을 거쳐 RNN을 통과한 output은 어떤 형태일까요? 기억해야 할 점은 지금 설명하는 부분은 분류, 번역등의 task를 위한 출력층까지의 단계를 설명하는 것이 아니라 RNN 층에 대한 설명이며, RNN층이 리턴하는 결과값은 출력층의 값이 아닌 은닉상태 입니다.

Output 1

"나는 밥을 먹었다"의 문장을 RNN의 입력으로 넣어보겠습니다. 앞서 Keras Embedding층을 거친 값을 가져오겠습니다. 나는 밥을 먹었다는 띄어쓰기 기준으로 3개의 단어지만 앞서 가장 큰 길이인 4로 padding을 했기 때문에 시퀀스 길이가 4이며, 단어 백터의 차원의 경우는 100으로 Embedding를 통과했습니다. 또한, RNN의 입력을 위해 batch size를 추가하였습니다. 하나의 문장이기 때문에 1을 추가했습니다. RNN 층은 (batchsize, sequence_length, input_dim) 크기의 3D 텐서를 입력으로 받습니다.

1, 4 , 100의 입력이 들어가 1, 3의 출력이 나왔습니다. 1, 3은 마지막 시점의 은닉 상태 입니다. 출력 벡터 차원은 hidden_size의 값인 3입니다.

아래 그림은 나는 밥을 먹었다의 문장이 embedding을 거쳐 rnn의 입력, 출력과정을 나타낸 그림입니다.

Output 2

RNN에는 return_sequences라는 옵션이 있습니다. 기본은 Fasle입니다. True일 경우 어떤 output을 출력할까요?

기존 1, 3출력이 아닌 1, 4, 3의 출력을 나타냅니다. 그렇다면 return_sequences=True의 역할은 무엇일까요? 바로 모든 셀의 은닉상태를 retrun한다고 생각하면됩니다.

아래 그림은 나는 밥을 먹었다의 문장이 embedding을 거쳐 rnn(return_sequences=True)의 입력, 출력과정을 나타낸 그림입니다.

저작자표시 비영리 변경금지 (새창열림)

'데이터분석 > NLP' 카테고리의 다른 글

[NLP] Python WordCloud 그리기 (0)	2021.11.21
[Keras] Embedding에 대해 알아보자. (3)	2021.08.05
[soynlp] 띄어쓰기 교정 모델 (0)	2020.05.11

[Keras] Embedding에 대해 알아보자.

2021. 8. 5. 11:07

최근 NLP를 공부하며, 막연히 남들이 작성한 코드를 통해 분류모델을 만들었습니다.

그러다 보니 모델안의 데이터의 흐름을 알 수 없어, RNN계열, 더 나아가 트랜드포머, 버트등의 모델을 이해하는데 어려움을 느꼈습니다.

그래서 데이터의 흐름을 알아가고자 keras의 Sequential 선언 후 사용하는 Embedding에 대해서 알아보고자 합니다.

Embedding 선언

    model = Sequential()
    model.add(Embedding(len(word_index) + 1,
                     300,
                     input_length=max_len))

keras에서는 Sequential() 선언 후 Embedding을 추가합니다.

인수

(len(word_index)) + 1 : 단어 목록의 크기

300 : 임베딩의 차원

input_length=max_len : 인풋 시퀀스 길이

예시

아래 세가지의 문장이 있습니다.

["나는 밥을 먹었다", "나는 학교에 갔다", 오늘 학교에 선생님이 오셨다"]

기계는 text를 이해하지 못하기 때문에 정수 인코딩을 진행합니다. 따라서, 아래와 같이 변환합니다.

[[1, 3, 4], [1, 2, 5], [6, 2, 7, 8]]

정수 인코딩을 살펴보면, 1 = "나는" , 2 = "학교에", 8 ="오셨다"로 변환된 것을 볼 수 있습니다.

다음 모든 문장의 길이를 맞추기 위해 padding을 해줍니다. 위의 문장 중 가장긴 문장은 "오늘 학교에 선생님이 오셧다" 이며 이문장의 길이는 "4"입니다. 따라서, 모든 문장의 길이를 4로 맞춰줍니다.

[[1, 3, 4, 0], [1, 2, 5, 0], [6, 2, 7, 8]]

자 이제 Embedding에 들어갈 수 있는 전처리가 완료되었습니다. 앞의 인수를 적용하게되면, 첫 번째 단어 목록의 크기의 경우 1~8단어가 있습니다. 그런데 +1을 해주는 이유는 패딩을 위한 토큰0을 포함하기 위함입니다.

임베딩의 차원은 100으로 정하며, input_length는 앞서 정한 4로 맞춥니다. 그럼 준비한 input data를 Embedding에 넣어 output의 형태를 확인해보겠습니다.

기존의 3, 4의 input data가 3, 4, 100의 output data로 출력되었습니다. 이렇게 된 이유는 각각의 단어들 예를들어 나는이란 단어가 기존의 1로 정수 인코딩 되었다면, Embedding층을 통해 100차원으로 변경된 것 입니다. 이부분을 확인하기 위해 첫번째 문장의 나는과 두번째 문장의 나는을 출력해 보겠습니다.

각 벡터의 값이 같음을 확인할 수 있습니다. 또한 여기서 중요한 점은 이 벡터들은 고정된 값이 아닌 학습을 통해 변화되는 값임을 인지해야합니다.

아래 그림은 위에서 만든 model의 summary 입니다. 왜 학습 Param이 900일까요?

이유는 앞서 정의한 단어의 크기 9 x 백터의 차원 100을 나타내는 것 입니다.

다음은 Embedding을 거친 값이 RNN에서 어떻게 작동하는지 확인하는 글을 포스팅하겠습니다.

저작자표시 비영리 변경금지 (새창열림)

'데이터분석 > NLP' 카테고리의 다른 글

[NLP] Python WordCloud 그리기 (0)	2021.11.21
[Keras] RNN 내부동작 알아보기 (0)	2021.08.05
[soynlp] 띄어쓰기 교정 모델 (0)	2020.05.11

[soynlp] 띄어쓰기 교정 모델

2020. 5. 11. 19:57

soyspacing

참조 : https://github.com/lovit/soynlp
카카오에서 공개한 khaiii의 경우 뛰어난 성능을 보이지만 띄어쓰기가 잘 되어있지 않으면 성능이 좋지 않습니다. 그래서 lovit님이 공개한 soynlp의 soyspacing을 wikipedia 문서를 통해 학습하려고 합니다.
데이터셋은 한국어임베딩 github에서 다운받았습니다.

Library¶

In [91]:

!pip install soyspacing

Looking in indexes: http://ftp.daumkakao.com/pypi/simple
Requirement already satisfied: soyspacing in /home/ubuntu/anaconda3/envs/tg_python3/lib/python3.6/site-packages (1.0.17)
Requirement already satisfied: numpy>=1.12.0 in /home/ubuntu/anaconda3/envs/tg_python3/lib/python3.6/site-packages (from soyspacing) (1.18.3)
WARNING: You are using pip version 20.0.2; however, version 20.1 is available.
You should consider upgrading via the '/home/ubuntu/anaconda3/envs/tg_python3/bin/python -m pip install --upgrade pip' command.

In [93]:

from tqdm import tqdm_notebook
import pandas as pd
from soyspacing.countbase import CountSpace

Data Load¶

In [54]:

wiki= []

with open("/home/ubuntu/dataset/processed/processed_wiki_ko.txt", 'r') as f:
    for s in tqdm_notebook(f):
        wiki.append(s)

wiki = pd.Series(wiki).map(lambda x: x.replace("\\n", " "))

/home/ubuntu/anaconda3/envs/tg_python3/lib/python3.6/site-packages/ipykernel/__main__.py:4: TqdmDeprecationWarning: This function will be removed in tqdm==5.0.0
Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`

Data Write¶

In [55]:

# 50000건의 wiki 데이터를 text파일로 저장
with open("wiki.txt", 'w') as output:
    for row in wiki:
        output.write(str(row) )

Train¶

In [56]:

# soyspacing 학습(wiki문서 약31만건)
from soyspacing.countbase import CountSpace
corpus_fname = 'wiki.txt'
model = CountSpace()
model.train(corpus_fname)

all tags length = 21121548 --> 19479615, (num_doc = 311236)

Model Save and Load¶

In [ ]:

#Model save
model_fname = 'space-correct_wiki.model'
model.save_model(model_fname, json_format=False)

#model Loac
model_fname = 'space-correct_wiki.model'
model = CountSpace()
model.load_model(model_fname, json_format=False)

Evaluate¶

In [107]:

text = ['아버지가방에들어가신다', '고양이가죽을먹는다', '문재인대통령이연설을시작했다', '현대자동차투싼슈퍼카닷컴']
for n in text:
    print(model.correct(n)[0])

아버지가 방에 들어가신다
고양이가 죽을 먹는다
문재인 대통령이 연설을 시작했다
현대자동차 투싼슈퍼카닷컴

In [111]:

text = ['철구가의자에앉았다', '손나은은청순가련멋쟁이', '오늘저녁은뼈숯불구이다!']
for n in text:
    print(model.correct(n)[0])

철구가의 자에 앉았다
손나은은청순가련멋쟁이
오늘 저녁은뼈숯불구이다!

아래 문장은 일부로 어려운 문장을 넣어봤습니다.
모든 모델이 완벽하지는 않다고 생각하며, khaiii와 함께 사용시 좋아지지않을까? 하는 생각입니다.

In [115]:

from IPython.core.display import display, HTML
display(HTML("<style>.container {width:90% !important;}</style>"))

저작자표시 비영리 변경금지 (새창열림)

'데이터분석 > NLP' 카테고리의 다른 글

[NLP] Python WordCloud 그리기 (0)	2021.11.21
[Keras] RNN 내부동작 알아보기 (0)	2021.08.05
[Keras] Embedding에 대해 알아보자. (3)	2021.08.05

PREV 1 NEXT

Taegu

데이터분석/NLP

[NLP] Python WordCloud 그리기

drive mount

library import

data download

형태소 분석

Word Count - TF(Term Frequency)

Word Count - DF(Document Frequency)

WordCloud

WordCloud - Option

WordCloud - 상위빈도키워드

'데이터분석 > NLP' 카테고리의 다른 글

[Keras] RNN 내부동작 알아보기

'데이터분석 > NLP' 카테고리의 다른 글

[Keras] Embedding에 대해 알아보자.

'데이터분석 > NLP' 카테고리의 다른 글

[soynlp] 띄어쓰기 교정 모델

Library¶

Data Load¶

Data Write¶

Train¶

Model Save and Load¶

Evaluate¶

'데이터분석 > NLP' 카테고리의 다른 글

+ Recent posts

티스토리툴바