콘텐츠로 이동

금융 문서 분석

금융 문서·기업 보고서 분석 가이드

금융 문서와 기업 보고서는 수량 표현금융 전문용어 가 핵심입니다. 12조 3천억 원, 영업이익률, 유동성위기 같은 표현을 정확히 인식하지 못하면 재무 지표 추출과 공시 분석이 빗나갑니다. 바른의 형태소 분석은 수사·수량 단위와 금융 용어를 구분해 이런 분석의 토대를 만듭니다.

문제 상황

  • 12조 3천억 원 같은 수량 표현이 잘게 흩어져 금액 추출이 어렵습니다.
  • 영업이익률, 부채비율 같은 금융 용어가 여러 명사로 쪼개집니다.
  • 보고서 특유의 표기가 일반 사전에 없어 미등록단어로 빠집니다.

바른을 어떻게 적용하나

바른은 수사(NR)·수(SN)와 단위성 의존명사 를 구분해 분석하므로, 숫자와 단위를 묶어 금액·비율을 재구성할 수 있습니다. 품사 태그의 의미는 품사 태그표에서 확인하세요. 금융 용어는 도메인 사전 구축 워크플로에 따라 사용자 사전으로 고정합니다.

graph TD
  RPT[기업 보고서] --> DICT[금융 용어 사용자 사전];
  DICT --> TAG[바른 형태소 분석];
  TAG --> NUM[수사·수량 단위 인식];
  TAG --> TERM[금융 용어 인식];
  NUM --> FIN[재무 지표 추출];
  TERM --> FIN;
from bareunpy import Tagger

tagger = Tagger("koba-XXXX-...", "localhost")

cust = tagger.custom_dict("finance_terms")
cust.copy_cp_set({"영업이익률", "부채비율", "유동성위기"})
cust.update()
tagger.set_domain("finance_terms")

res = tagger.tags(["영업이익률이 12% 상승했습니다."])
print(res.pos())
[('영업이익률', 'NNG'), ('이', 'JKS'), ('12', 'SN'), ('%', 'SW'),
 ('상승', 'NNG'), ('하', 'XSV'), ('었', 'EP'), ('습니다', 'EF'), ('.', 'SF')]

금융 용어 영업이익률은 한 단어로, 숫자 12는 수(SN)로 분리되어 금액·비율 추출이 쉬워집니다.

결과와 이점

항목 사전 미적용 금융 용어 사전 적용
금융 용어 여러 명사로 분해 한 단어 유지
수량 표현 흩어짐 수사·단위 구분
지표 추출 부정확 안정적

수량 표현 추출

수(SN)·수사(NR)와 뒤따르는 단위성 의존명사를 묶으면 12조 3천억 원 같은 금액을 하나의 값으로 재구성할 수 있습니다. 품사 태그를 기준으로 규칙을 짜세요.

자주 묻는 질문

Q. 금액 단위(조·억·원)는 어떻게 묶나요?

수사·수와 단위성 의존명사가 연속으로 나오는 구간을 하나의 수량 표현으로 묶는 규칙을 적용하세요. 바른이 품사를 정확히 붙여주므로 태그 기반 규칙이 단순해집니다.

Q. 영문 종목 코드나 기업명은요?

영문 약어·종목 코드·기업명은 사용자 사전의 고유명사 사전(np_set)에 등록하면 한 단어로 인식됩니다. 새로 생기는 종목명·신조어 등록은 신조어·고유명사 등록을 참고하세요.

Q. 표·각주가 섞인 보고서도 처리되나요?

표·각주는 먼저 텍스트로 추출한 뒤 문장 단위로 바른에 넘기세요. 문장 분할이 필요하면 분석 옵션의 자동 문장 분할을 활용할 수 있습니다.

Q. 금융 전문용어가 미등록단어로 빠지지 않게 하려면요?

영업이익률·부채비율 같은 금융 용어는 일반 사전에 없어 미등록단어로 빠지거나 여러 명사로 쪼개지기 쉽습니다. 이런 용어는 사용자 사전의 복합명사 사전(cp_set)에 등록해 한 단어로 유지하세요. 바른 형태소 분석이 품사를 정확히 붙여 줘서 재무 지표 추출 규칙이 단순해집니다.

관련 문서

도움이 되었나요?