콘텐츠로 이동

모델 학습 데이터

모델 학습 데이터 — 세종·모두의 말뭉치·빅카인즈 1억 어절 통합 학습

형태소 분석 모델의 품질은 결국 무엇으로 학습했는가에 달려 있습니다. 바른은 표준 말뭉치부터 대규모 뉴스 말뭉치, 자체 보강 데이터까지 폭넓게 모아 통합 학습합니다. 이 글은 바른이 어떤 데이터로 학습했는지 정리합니다.

학습 말뭉치 구성

말뭉치 규모 성격
세종 말뭉치 약 1,200만 어절 국립국어원 표준 말뭉치, 정제된 문어·구어
모두의 말뭉치 약 300만 어절 국립국어원 현대 말뭉치
뉴스(빅카인즈) 약 1억 어절 대규모 실제 뉴스 문장
자체 보강 데이터 (지속 확장) 오류·예외 사례를 직접 태깅
graph TD
  S[세종 1200만] --> MERGE[통합 학습];
  M[모두의 말뭉치 300만] --> MERGE;
  N[뉴스 1억 어절] --> MERGE;
  O[자체 보강] --> MERGE;
  MERGE --> SEG[분절 모델];
  MERGE --> TAG[태깅 모델];

왜 여러 말뭉치를 합치는가

각 말뭉치의 강점이 다르다

  • 세종·모두의 말뭉치는 표준 태그셋으로 정밀하게 태깅된 정제 데이터라 분석의 기준을 잡아줍니다.
  • 뉴스 말뭉치(빅카인즈)는 1억 어절 규모의 실제 문장이라, 다양한 어휘와 표현·고유명사를 학습합니다.
  • 자체 보강 데이터는 다른 말뭉치가 놓치는 오류·예외 사례를 메웁니다.

표준 말뭉치만 쓰면 실제 세상의 다양한 문장을 못 따라가고, 뉴스만 쓰면 태깅 일관성이 흔들립니다. 바른은 이 둘을 합쳐 정밀함과 다양성을 동시에 잡았습니다.

구어·방언·신조어를 위한 학습 데이터 보강

문어 중심 말뭉치만으로는 일상 대화·방언·신조어를 따라가기 어렵습니다. 그래서 바른은 음성·대화 기반 데이터셋을 추가로 끌어와 약 1억 어절 / 1,000만 문장 규모로 학습 데이터를 보강했습니다.

보강 데이터셋 성격
국립국어원 일상대화 2020 일상 구어 대화
NIA 감정대화 감정 표현이 담긴 대화
NIA 자유발화(일반, 10~50대) 폭넓은 연령대의 자유 발화
NIA 자유발화(노인, 60대) 노년층 발화 특성
NIA 한국인대화음성데이터 대화 음성 전사
NIA 회의음성데이터 회의 상황 발화
NIA 방언음성데이터 지역 방언 발화

보강의 효과 — 구어·방언·신조어 적응력

이 데이터로 학습 데이터를 보강하면서 바른은 글말뿐 아니라 구어·방언·신조어에 대한 적응력이 크게 높아졌습니다. 실제 대화체 문장이나 방언 표현, 새로 생긴 말에도 형태소 경계와 품사를 안정적으로 잡아냅니다.

띄어쓰기 증강 — 틀린 띄어쓰기에도 강하게

학습 데이터에는 띄어쓰기 증강(augmentation) 이 적용됩니다. 정상 문장의 띄어쓰기를 일부러 다양하게 바꾼 변형을 함께 학습시키는 방법입니다.

왜 증강하는가

실제 사용자 입력은 띄어쓰기가 들쭉날쭉합니다. 아름다운강산처럼 붙여 쓰거나 떨여 졌는데처럼 잘못 띄우기도 합니다. 띄어쓰기 증강으로 학습하면 모델이 이런 비정형 입력에도 흔들리지 않고 형태소 경계를 잡아냅니다.

이렇게 모은 통합 말뭉치와 증강 전략이 어우러져, 품사 태깅 99.6%, 어절 분리/복원 99.7%의 정확도를 만들어냅니다.

자주 묻는 질문

Q. 바른은 어떤 데이터로 학습했나요?

세종 말뭉치 약 1,200만 어절, 모두의 말뭉치 약 300만 어절, 빅카인즈 뉴스 약 1억 어절, 그리고 자체 보강 데이터를 통합해 학습했습니다.

Q. 왜 뉴스 말뭉치까지 사용하나요?

표준 말뭉치만으로는 실제 세상의 다양한 어휘와 표현, 고유명사를 충분히 담지 못합니다. 1억 어절 규모의 뉴스 말뭉치로 어휘 다양성과 실제 문장 패턴을 보강합니다.

Q. 띄어쓰기 증강이란 무엇인가요?

정상 문장의 띄어쓰기를 의도적으로 다양하게 바꾼 변형을 함께 학습시키는 방법입니다. 이를 통해 사용자가 띄어쓰기를 틀려도 형태소 경계를 정확히 잡습니다.

Q. 바른은 구어나 방언도 잘 분석하나요?

네. 바른은 국립국어원 일상대화 2020, NIA 감정대화·자유발화(일반·노인)·한국인대화음성·회의음성·방언음성 데이터셋을 더해 약 1억 어절 / 1,000만 문장 규모로 학습 데이터를 보강했습니다. 덕분에 구어·방언·신조어 적응력이 크게 높아졌습니다.

Q. 학습 데이터 보강 규모는 얼마나 되나요?

음성·대화 기반 데이터셋을 추가해 약 1억 어절 / 1,000만 문장 규모로 보강했습니다. 이 보강으로 문어 중심 말뭉치만으로는 약했던 대화체·방언·신조어 분석력이 향상됐습니다.

도움이 되었나요?