사전학습 언어모델 구축 및 어휘 확장

#어휘 #언어모델 #사전 #딥러닝

시간 및 비용의 상승을 최소화하면서 신규 데이터 기반의 어휘 확장을 통해 특정 분야를 위한 고성능 사전학습 언어 모델을 구축할 수 있는 기술을 실현하는 사전 학습 언어모델 구죽장치 및 사전학습 언어모델의 어휘 확장 방법

기술의 특징
- 시간 및 비용의 상승을 최소화하기위해 신규 데이터(EX:특정 분야의 데이터) 기반의 어휘 확장으로 언어모델을 구축함
- 예측 어휘 집합에서 필터링된 예측 어휘에 대한 임베딩 벡터값을 획득하고, 집계연산을 통해 특정 어휘에 대한 임베딩 값을 생성하기 위해 매체에 저장된 컴퓨터프로그램임
기술의 우수성
- 소규모의 신규 데이터와 적은 계산량 및 적은 비용으로 구체적인 기술 구성들을 실현 가능함
- 새로운 기술 출현이 빈번하고 이에 따른 새로운 용어 또한 빈번하게 발생하는 환경을 감안할 때,어휘 사전 및 임베딩 계층을 용이하고 점증적으로 확장하여 사전학습 언어모델을 구축할 수 있는 요구사항을 충족시키는 효과가 있음

구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하고 그 어휘에 대한 임베딩 값을 생성하고, 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축함
특정 어휘를 특정 토큰으로 마스킹한 후 범용 사전학습 언어모델의 MLM에 입력하여 특정 토큰에 대한 예측 어휘 집합을 획득하고 예측 오류 개선 후 임베딩 값을 획득하고 그 값을 이용해 집계연산을 통해 특정 어휘에 대한 임베딩 값을 생성하는 것을 특징으로하는 사전학습 언어모델의 어휘 확장 방법임

그림 1 사전학습 언어모델의 개념 예시도 및 핵심구성 예시도

TRL1

기술원리발표

TRL2

기술컨셉설정

TRL3

기술컨셉증명

TRL4

Lab Scale 시제품개발

TRL5

구현환경 적용실험

TRL6

Full Scale 시제품개발

TRL7

유사 상용품 개발

TRL8

상용품 완성

TRL9

상용품 실시

딥러닝 사전학습 언어모델은 수십~수백 GB 이상 대용량 텍스트 데이터로부터 언어의 문법 및 의미를 학습하여 다양한 테스크에 적용할 수 있어 기존 사전학습 언어모델 대비 성능이 우수하여 산업에서 활용성을 인정받고 있음
현재 구글에서 개발한 자연어처리 사전 훈련 기술인 BERT(Pre-training of Deep Bidirectional Trnasformers for Language Understanding)이 모든 자연어 처리 분야에서 좋은 성능을 내고 있는 범용성 언어 모델임
하지만 BERT의 경우 일반 NLP모델에서 잘 작동하지만, Bio, Science, Finace 등 특정 분야의 언어모델에 사용하려면 잘 적용되지 않는 문제 등이 있어 개선을 통한 산업 응용력 향상에 대한 검토가 요구되고 있음
국내에서 개발된 언어모델인 KorBERT는 구글에서 배포한 다국어 모델 대비 우수한 성능이며, 현재까지도 학습을 개선하기 위한 많은 연구가 이루어지고 있음
(출처:ETRI, 딥러닝 사전학습 언어모델 기술 동향, 2020)

딥 러닝은 사람의 입력에 의존하지 않고 작업을 수행할 수 있는 능력과 여러 산업 분야에서 클라우드 기반 기술이 빠르게 채택되면서 딥 러닝 산업의 성장이 가속화되고 있음
글로벌 딥 러닝 시장 규모는 2022년 496억 달러이며, 연평균 33.5%의 시장성장률로 예상되며, 2030년 5,004억 달러로 성장할 것으로 전망
(출처:Grand View Research, 2022)
글로벌 NLP 시장 규모는 2021년 155억 달러이며, 연평균 40.9%의 시장성장률로
(출처:GTT KOREA, 2021)