뉴스 핵심어 추출
뉴스 본문 핵심어 추출 — 빅카인즈 활용 사례
뉴스 분석에서 가장 중요한 정보는 누가(인명)·어디서(지명)·어느 조직(조직명) 입니다.
이런 고유명사를 정확히 뽑아내려면 뉴스 말뭉치로 잘 학습된 형태소 분석기가 필요합니다.
바른은 빅카인즈 뉴스 1억 어절을 포함한 대규모 말뭉치로 학습되어, 뉴스 고유명사 인식에 강합니다.
문제 상황
- 새로 등장한 인명·기관명이 일반명사로 잘못 분석되거나 쪼개집니다.
한국전자통신연구원같은 긴 조직명이 토막 나 검색·집계가 어긋납니다.- 일반명사와 고유명사가 섞여 인물·조직 중심 분석이 안 됩니다.
바른을 어떻게 적용하나
뉴스 본문을 형태소 분석해 고유명사(NNP) 만 골라내면 인명·지명·조직명 후보를 얻습니다.
바른은 빅카인즈 뉴스 말뭉치로 학습되어 시사 고유명사 인식률이 높고,
새 인물·기관은 사용자 사전(np_set)에 등록해 보강할 수 있습니다.
graph TD
NEWS[뉴스 본문] --> TAG[바른 형태소 분석];
TAG --> NNP[고유명사 NNP 추출];
NNP --> CLS[인명·지명·조직명 분류];
CLS --> TREND[핵심 인물·조직 트렌드];
from collections import Counter
from bareunpy import Tagger
tagger = Tagger("koba-XXXX-...", "localhost")
def proper_nouns(article: str):
"""뉴스 본문에서 고유명사(NNP)만 추출합니다."""
res = tagger.tags([article])
return [m for m, t in res.pos() if t == "NNP"]
article = "통일부는 판문점에서 회담을 열었다고 발표했습니다."
print(proper_nouns(article))
조직명 통일부와 지명 판문점이 고유명사로 정확히 분리됩니다.
결과와 이점
| 항목 | 일반 분석기 | 바른(뉴스 말뭉치 학습) |
|---|---|---|
| 시사 고유명사 | 오분석 잦음 | 인식률 높음 |
| 긴 조직명 | 토막 남 | 등재 시 유지 |
| 신규 인물·기관 | 미인식 | 사용자 사전 보강 |
학습 말뭉치
바른은 세종 말뭉치·모두의 말뭉치에 더해 빅카인즈 뉴스 1억 어절 을 학습에 사용합니다. 그래서 뉴스 문체와 시사 고유명사에 특히 강합니다.
자주 묻는 질문
Q. 인명·지명·조직명을 더 세분할 수 있나요?
바른은 고유명사를 NNP로 분류합니다. 인명/지명/조직명 세부 구분이 필요하면
추출한 NNP 목록을 별도 개체명 인식(NER) 단계나 사전 매칭으로 분류하세요.
Q. 최신 인물·신생 기업이 인식되지 않아요.
학습 시점 이후 등장한 고유명사는 사용자 사전의 고유명사 사전(np_set)에 등록하면
즉시 인식됩니다. 사전은 실시간으로 반영됩니다.
Q. 빅카인즈 외 다른 도메인 뉴스에도 잘 되나요?
뉴스 전반에 두루 강하지만, 특정 분야(스포츠·연예 등) 전용 고유명사는 도메인 사용자 사전으로 보강하면 더 정확합니다.
관련 문서
- 품사 태그표 — 고유명사(NNP) 등 태그 의미
- 학습 말뭉치 — 빅카인즈 등 뉴스 말뭉치 구성
- 사용자 사전으로 고유명사 보강 — 신규 인물·기관 등록
- 키워드 추출·텍스트 마이닝 — 명사 빈도 집계 응용
Q. 뉴스 분석에 바른이 다른 형태소 분석기보다 나은 점은 무엇인가요?
바른은 세종 말뭉치·모두의 말뭉치에 더해 빅카인즈 뉴스 1억 어절을 학습에 사용해 뉴스 문체와 시사 고유명사에 특히 강합니다. 품사 태깅 정확도는 99.6%이며, 학습 이후 등장한 인물·기관도 사용자 사전으로 실시간 보강할 수 있어, 변화가 빠른 뉴스 핵심어 추출에 잘 맞습니다.
도움이 되었나요?