콘텐츠로 이동

동사·형용사 사전 활용

동사·형용사 사전으로 활용형까지 인식시키기

신조어 동사 카톡하다나 형용사 신박하다를 명사 사전에 넣으면 "카톡하다"라는 글자 그대로일 때만 인식됩니다. 하지만 한국어 용언은 "카톡했다, 카톡하는, 카톡하면"처럼 끊임없이 활용합니다. 바른동사 사전(vv_set)형용사 사전(va_set)에 등록하면, 표제어 하나로 이런 활용형까지 자동으로 인식됩니다.

이 문서는 동사·형용사 사전의 동작 원리와 등록 방법, 그리고 활용형이 어떻게 분석되는지를 설명합니다.

왜 명사 사전이 아니라 용언 사전인가

흘낏하다는 부사 흘낏에서 파생된 동사입니다. 학습 데이터에서는 이런 단어를 "부사 + 동사파생접미사"처럼 어색하게 태깅한 경우가 적지 않습니다. 바른은 이런 단어를 제대로 동사로 태깅하기 위해 동사 사전을 따로 둡니다. 소녀스럽다 같은 형용사도 같은 맥락으로 형용사 사전에서 관리합니다.

사용자도 새 용언을 정의해 등록할 수 있으며, 이때 들어가는 형태는 기본형(사전형)입니다.

  • 동사: 카톡하다, 맑내하다처럼 ~하다/~거리다/~대다로 끝나는 기본형
  • 형용사: 로맨틱하다, 신박하다, 판타스틱하다처럼 ~하다/~스럽다로 끝나는 기본형

활용형 자동 인식 원리

동사·형용사 사전에 기본형을 등록하면, 바른은 분석 단계에서 어간을 분리해 어미와 결합한 활용형을 인식합니다. 즉 카톡하다를 등록하면 어간 카톡하가 종결어미·연결어미·관형형 어미 등과 결합한 "카톡했다", "카톡하는", "카톡하며"를 모두 같은 동사로 분석합니다.

등록 예시

bareunpy 클라이언트로 동사·형용사 사전을 채우는 예시입니다.

from bareunpy import Tagger

my_tagger = Tagger('YOUR-API-KEY', 'localhost', port=5656)

cust_dic = my_tagger.custom_dict("trend_words")
# 동사 사전: 기본형(~하다)으로 등록
cust_dic.copy_vv_set({'카톡하다', '인스타하다', '맑내하다'})
# 형용사 사전: 기본형(~하다/~스럽다)으로 등록
cust_dic.copy_va_set({'신박하다', '판타스틱하다', '소녀스럽다'})
cust_dic.update()

활용형은 등록할 필요가 없습니다. 기본형 하나면 충분합니다.

활용형이 분석되는 모습

등록 후 활용된 문장을 분석하면, 어간이 동사·형용사로, 뒤따르는 어미가 별도 형태소로 분리됩니다.

어제 친구랑 카톡하다가 신박한 아이디어가 떠올랐어요.
카톡하/VV, IN_CUSTOM_DICT
다가/EC
신박하/VA, IN_CUSTOM_DICT
ㄴ/ETM

카톡하다라는 기본형 하나만 등록했는데도 활용형 "카톡하다가"가 카톡하/VV + 다가/EC로 분해되고, 신박하다는 관형형 "신박한"이 신박하/VA + ㄴ/ETM으로 분석됩니다. 두 어간 모두 out_of_vocabIN_CUSTOM_DICT로 표시되어 사용자 사전에서 왔음을 알 수 있습니다.

용언 사전의 강점

명사로 등록하면 "카톡하다"라는 글자열에만 매칭되지만, 동사 사전에 넣으면 무한히 많은 활용형을 표제어 하나로 덮을 수 있습니다. 신조어 용언일수록 용언 사전의 효과가 큽니다.

기본형으로 등록하세요

활용형(카톡했다)이나 어간만(카톡하)을 등록하지 마세요. 동사·형용사 사전은 ~다로 끝나는 기본형을 받도록 설계되어 있습니다. 또한 사전 항목에는 공백과 일부 기호를 넣을 수 없습니다.

자주 묻는 질문

Q. 동사 사전에 활용형을 넣어야 하나요?

아닙니다. 기본형(카톡하다) 하나만 등록하면 됩니다. 바른이 어간을 분리해 다양한 어미와 결합한 활용형을 자동으로 인식합니다.

Q. ~하다 동사인지 형용사인지 헷갈립니다. 어디에 넣나요?

서술 대상의 동작이면 동사(vv_set), 상태·성질이면 형용사(va_set)입니다. 예를 들어 "카톡하다"는 동작이므로 동사, "신박하다"는 상태이므로 형용사입니다. 잘못된 사전에 넣으면 활용형의 품사가 의도와 다르게 나옵니다.

Q. 같은 단어를 동사와 형용사 사전에 모두 넣어도 되나요?

같은 표제어를 두 용언 사전에 동시에 넣으면 충돌(conflict)로 보고됩니다. 용법이 하나로 정해지지 않는다면 더 자주 쓰이는 품사 한쪽에만 등록하세요.

도움이 되었나요?