콘텐츠로 이동

중의성 데이터셋

한국어 중의성 데이터셋 — 12,175건의 의미 모호성 사례

한국어에는 같은 글자가 문맥에 따라 전혀 다른 뜻이 되는 경우가 흔합니다. 가는만 해도 '가늘다', '가다', '갈다'에서 올 수 있습니다. 바른은 이런 중의성(ambiguity) 사례를 12,175건 규모로 직접 구축했고, 일부를 공개해 한국어 자연어처리 연구에 기여하고 있습니다.

중의성이란 무엇인가

중의성은 표면형 하나가 여러 형태소 분석 결과를 가질 수 있는 상태입니다. 대표적인 예가 가는입니다.

표면형 원형(어간) 의미 분석 예
가는 가늘다(VA) 두께가 얇은 가늘/VA + ㄴ/ETM
가는 가다(VV) 이동하는 가/VV + 는/ETM
가는 갈다(VV) 갈아내는 갈/VV + 는/ETM

세 경우 모두 가는으로 보이지만, 어떤 동사·형용사에서 왔느냐에 따라 분석이 완전히 달라집니다. 정답을 가르는 유일한 단서는 문맥입니다.

graph TD
  A[가는] --> C1["가는 실 → 가늘/VA"];
  A --> C2["학교에 가는 길 → 가/VV"];
  A --> C3["칼을 가는 사람 → 갈/VV"];

왜 중의성 데이터셋을 만들었나

문맥 학습의 연료

중의성은 사전 매칭만으로는 절대 풀 수 없습니다. 가는을 사전에서 찾으면 후보가 셋이지만, 어느 것이 맞는지는 문장 전체를 봐야 압니다. 바른은 문맥으로 정답을 고르도록 모델을 학습시키는데, 그러려면 중의성 사례가 풍부하게 들어 있는 학습 데이터가 필요합니다.

이를 위해 바른 팀은 12,175건의 중의성 사례를 직접 구축했습니다. 각 사례는 같은 표면형이 문맥에 따라 어떻게 다르게 분석되어야 하는지를 담고 있어, 모델이 문맥 기반 판단을 학습하는 연료가 됩니다.

모호성 해소 평가셋 — 35,396 문장 / 8,285 표면형

학습뿐 아니라 모호성을 얼마나 잘 푸는지 측정하기 위해, 바른은 별도의 평가 데이터를 구축했습니다. 규모는 35,396 문장 / 8,285 표면형이며, 데이터가 부족한 표면형은 추가로 보강했습니다.

대표적인 예가 "트는"입니다. 어절 모양은 같지만 분석이 다릅니다.

예문 원형 분석
내가 좋아하는 곡을 트는 엄마 틀다(동사) (음악을) 틀다
동이 트는 아침 트다(동사) (날이) 트다

VCP 복원 평가 — 12,129 문장

한국어에서는 서술격조사 '이'(VCP)가 자주 생략됩니다. 바른은 모두의 말뭉치에서 '이'가 포함·생략된 문장 12,129개를 추출해, 생략된 '이'를 제대로 복원하는지 평가했습니다.

어절 복원된 분석
평갑니다 평가/NNG + 이/VCP + ㅂ니다/EF
수비다 수비/NNG + 이/VCP + 다/EF
그였다 그/NP + 이/VCP + 었/EP + 다/EF
거라고 거/NNB + 이/VCP + 라고/EC

전체 47품사 태깅 평가 — 15만 문장

가장 엄격한 평가는 문장 전체 태깅입니다. 모두의 말뭉치 15만 문장을 대상으로, 한 문장 안에서 형태소가 하나라도 틀리면 그 문장 전체를 오답으로 처리합니다. 47품사 전체를 모두 맞혀야 정답이 되는, 까다로운 기준입니다.

공개 데이터셋

오픈소스로 공개

이 중의성 데이터의 일부는 누구나 활용할 수 있도록 공개되어 있습니다.

  • 저장소: github.com/bareun-nlp/korean-ambiguity-data

한국어 형태소 분석·중의성 해소 연구에 자유롭게 활용해보세요.

자주 묻는 질문

Q. 한국어 중의성이란 무엇인가요?

같은 표면형이 문맥에 따라 여러 형태소 분석 결과를 가질 수 있는 현상입니다. 예를 들어 가는은 '가늘다', '가다', '갈다' 중 어디서 왔느냐에 따라 분석이 달라집니다.

Q. 바른은 중의성 데이터를 얼마나 구축했나요?

12,175건의 중의성 사례를 직접 구축했습니다. 같은 표면형이 문맥에 따라 어떻게 다르게 분석되어야 하는지를 담아, 모델이 문맥 기반 판단을 학습하도록 합니다.

Q. 모호성 해소 성능은 어떻게 평가하나요?

35,396 문장 / 8,285 표면형 규모의 평가셋을 별도로 구축해 측정합니다. "트는"(틀다/트다)처럼 어절 모양은 같지만 분석이 다른 사례로, 바른이 문맥에 맞는 분석을 고르는지 확인합니다.

Q. VCP(서술격조사 '이') 복원 평가는 무엇인가요?

자주 생략되는 서술격조사 '이'를 제대로 복원하는지 보는 평가입니다. 모두의 말뭉치에서 '이'가 포함·생략된 문장 12,129개를 추출해, 평갑니다(평가+이+ㅂ니다)처럼 생략된 '이'를 살려 분석하는지 측정합니다.

Q. 47품사 전체 태깅은 어떻게 평가하나요?

모두의 말뭉치 15만 문장을 대상으로, 한 문장에서 형태소가 하나라도 틀리면 문장 전체를 오답으로 처리하는 엄격한 기준으로 평가합니다.

Q. 중의성 데이터셋은 공개되어 있나요?

네. 일부가 github.com/bareun-nlp/korean-ambiguity-data에 공개되어 있어 한국어 자연어처리 연구에 활용할 수 있습니다.

도움이 되었나요?