학습 말뭉치 정제
자체 구축 학습 말뭉치 — 어떻게 정제했나
좋은 모델은 좋은 데이터에서 나옵니다. 그런데 공개 말뭉치에도 태깅 오류와 일관성 문제가 있습니다.
바른은 세종·모두의 말뭉치·뉴스 말뭉치를 그대로 쓰지 않고, 오류를 수정하고 자체 태깅 지침으로
일관성을 맞추는 정제 과정을 거쳤습니다. 이 글은 그 정제 작업을 소개합니다.
정제가 필요한 이유
대규모 말뭉치는 사람이 수작업으로 태깅하므로 다음과 같은 문제가 섞여 있습니다.
| 문제 유형 | 설명 |
|---|---|
| 태깅 오류 | 형태소·품사가 잘못 붙은 사례 |
| 분절 불일치 | 같은 단어를 문서마다 다르게 끊은 사례 |
| 지침 차이 | 말뭉치마다 태깅 기준이 미묘하게 다름 |
오류가 섞인 데이터로 학습하면
모델은 데이터의 패턴을 그대로 배웁니다. 말뭉치에 같은 단어가 어떤 곳에서는 한 형태소로, 다른 곳에서는 두 형태소로 태깅되어 있으면 모델은 혼란스러운 신호를 학습해 정확도가 떨어집니다.
자체 태깅 지침으로 일관성을 맞춘다
바른은 말뭉치 전반에 일관되게 적용할 자체 태깅 지침을 만들고, 이 기준으로 데이터를 다듬었습니다.
대표적인 예가 누가의 처리입니다.
누가(대명사 '누구' + 주격조사가 결합·축약된 형태)를 어떻게 분절·태깅할지 지침으로 정하고,
말뭉치 전체에서 같은 방식으로 통일합니다. 이런 결정을 단어마다 누적해 일관된 학습 데이터를 만듭니다.
graph TD
RAW[원본 말뭉치] --> FIX[태깅 오류 수정];
FIX --> GUIDE[자체 태깅 지침 적용];
GUIDE --> UNIFY[분절·품사 일관성 통일];
UNIFY --> CLEAN[정제된 학습 말뭉치];
정제가 정확도로 이어진다
오류를 걷어내고 일관된 지침으로 다듬은 데이터로 학습하면, 모델이 깨끗하고 일관된 신호만 배웁니다. 바른의 품사 태깅 99.6%, 어절 분리/복원 99.7% 정확도의 바탕에는 이 정제 작업이 있습니다.
정제와 데이터 보강은 한 쌍이다
정제가 기존 말뭉치의 품질을 끌어올리는 작업이라면, 그 옆에는 데이터의 폭을 넓히는 보강 작업이 함께 갑니다. 바른은 문어 중심 말뭉치만으로는 약했던 구어·방언·신조어를 메우려고 음성·대화 기반 데이터셋을 더해 약 1억 어절 / 1,000만 문장 규모로 학습 데이터를 보강했습니다.
품질(정제)과 다양성(보강)을 동시에
오류를 걷어낸 깨끗한 데이터(정제)와, 실제 대화·방언·신조어를 담은 넓은 데이터(보강)는 서로를 보완합니다. 정제만 하면 표준 글말에 치우치고, 보강만 하면 신호가 흔들립니다. 바른은 둘을 한 쌍으로 진행해 정밀함과 다양성을 함께 잡습니다.
자주 묻는 질문
Q. 공개 말뭉치를 왜 그대로 쓰지 않나요?
대규모 말뭉치에는 사람이 태깅하는 과정에서 생긴 오류와 말뭉치 간 지침 차이가 섞여 있습니다. 이런 데이터를 그대로 학습하면 모델이 혼란스러운 신호를 배워 정확도가 떨어집니다.
Q. 자체 태깅 지침은 무엇을 하나요?
말뭉치 전반에 일관되게 적용할 분절·품사 기준입니다. 예를 들어 누가를 누 + 가로
처리하도록 정하고 말뭉치 전체에서 통일해, 같은 단어가 항상 같게 태깅되도록 합니다.
Q. 정제가 모델 정확도에 영향을 주나요?
네. 오류를 걷어내고 일관성을 맞춘 데이터로 학습하면 모델이 깨끗한 신호만 배웁니다. 이것이 높은 형태소 분석 정확도의 바탕입니다.
Q. 말뭉치 정제와 데이터 보강은 어떻게 다른가요?
정제는 기존 말뭉치의 오류를 수정하고 일관성을 맞춰 품질을 높이는 작업이고, 보강은 구어·방언·신조어 데이터를 더해 약 1억 어절 / 1,000만 문장 규모로 폭을 넓히는 작업입니다. 바른은 둘을 한 쌍으로 진행해 정밀함과 다양성을 함께 잡습니다.
도움이 되었나요?