![사전학습 언어모델 구축 및 어휘 확장](https://img.youtube.com/vi/4yzP7u-FQPI/sddefault.jpg)
사전학습 언어모델 구축 및 어휘 확장
#어휘 #언어모델 #사전 #딥러닝
기술 개요
- 시간 및 비용의 상승을 최소화하면서 신규 데이터 기반의 어휘 확장을 통해 특정 분야를 위한 고성능 사전학습 언어 모델을 구축할 수 있는 기술을 실현하는 사전 학습 언어모델 구죽장치 및 사전학습 언어모델의 어휘 확장 방법
기존 기술 문제점
- 사전학습 언어모델을 학습 할 때 사용된 데이터의 특성과 사전학습 언어모델을 적용할 분야 데이터의 특성은 서로 일치하지 않는 경우가 있음
- 확장 임베딩 계층 및 확장 인코딩 계층을 모두 학습/확장해야 하기 때문에 분야 데이터를 구축하고 추가 사전학습하는데 많은 시간과 비용 소요됨
- 임베딩 벡터의 분포 불균형 문제가 발생할 수 있고 모델의 성능 저하로 이어지는 한계점이 있음
기술의 특징 및 우수성
-
기술의 특징
- 시간 및 비용의 상승을 최소화하기위해 신규 데이터(EX:특정 분야의 데이터) 기반의 어휘 확장으로 언어모델을 구축함
- 예측 어휘 집합에서 필터링된 예측 어휘에 대한 임베딩 벡터값을 획득하고, 집계연산을 통해 특정 어휘에 대한 임베딩 값을 생성하기 위해 매체에 저장된 컴퓨터프로그램임
-
기술의 우수성
- 소규모의 신규 데이터와 적은 계산량 및 적은 비용으로 구체적인 기술 구성들을 실현 가능함
- 새로운 기술 출현이 빈번하고 이에 따른 새로운 용어 또한 빈번하게 발생하는 환경을 감안할 때,어휘 사전 및 임베딩 계층을 용이하고 점증적으로 확장하여 사전학습 언어모델을 구축할 수 있는 요구사항을 충족시키는 효과가 있음
상세 설명
- 구축된 범용 사전학습 언어모델에 추가 적용하기 위한 특정 어휘를 선별하고 그 어휘에 대한 임베딩 값을 생성하고, 범용 사전학습 언어모델의 어휘 사전 및 임베딩 계층에 추가하여 특정 분야에 대한 분야 적응형 어휘 확장 사전학습 언어모델을 구축함
- 특정 어휘를 특정 토큰으로 마스킹한 후 범용 사전학습 언어모델의 MLM에 입력하여 특정 토큰에 대한 예측 어휘 집합을 획득하고 예측 오류 개선 후 임베딩 값을 획득하고 그 값을 이용해 집계연산을 통해 특정 어휘에 대한 임베딩 값을 생성하는 것을 특징으로하는 사전학습 언어모델의 어휘 확장 방법임
![사전학습 언어모델의 개념 예시도 및 핵심구성 예시도](https://d35156dk3hq0x4.cloudfront.net/assets/images/tech/pretrained-language-model-1.png)
기술완성도 (TRL)
TRL1
기술원리발표
TRL2
기술컨셉설정
TRL3
기술컨셉증명
TRL4
Lab Scale 시제품개발
TRL5
구현환경 적용실험
TRL6
Full Scale 시제품개발
TRL7
유사 상용품 개발
TRL8
상용품 완성
TRL9
상용품 실시
활용분야 및 적용제품
-
활용분야
- 자연어 처리에 딥러닝 기술 적용 필수요소
- 자연어 처리(NLP)
- 신규 데이터 기반의 어휘 확장
-
적용제품
- 사전학습 언어모델
산업동향(기술 동향 및 트랜드 등 )
- 딥러닝 사전학습 언어모델은 수십~수백 GB 이상 대용량 텍스트 데이터로부터 언어의 문법 및 의미를 학습하여 다양한 테스크에 적용할 수 있어 기존 사전학습 언어모델 대비 성능이 우수하여 산업에서 활용성을 인정받고 있음
- 현재 구글에서 개발한 자연어처리 사전 훈련 기술인 BERT(Pre-training of Deep Bidirectional Trnasformers for Language Understanding)이 모든 자연어 처리 분야에서 좋은 성능을 내고 있는 범용성 언어 모델임
- 하지만 BERT의 경우 일반 NLP모델에서 잘 작동하지만, Bio, Science, Finace 등 특정 분야의 언어모델에 사용하려면 잘 적용되지 않는 문제 등이 있어 개선을 통한 산업 응용력 향상에 대한 검토가 요구되고 있음
-
국내에서 개발된 언어모델인 KorBERT는 구글에서 배포한 다국어 모델 대비 우수한 성능이며, 현재까지도 학습을 개선하기 위한 많은 연구가 이루어지고 있음
(출처:ETRI, 딥러닝 사전학습 언어모델 기술 동향, 2020)
시장전망(목표시장 규모 및 전망)
- 딥 러닝은 사람의 입력에 의존하지 않고 작업을 수행할 수 있는 능력과 여러 산업 분야에서 클라우드 기반 기술이 빠르게 채택되면서 딥 러닝 산업의 성장이 가속화되고 있음
-
글로벌 딥 러닝 시장 규모는 2022년 496억 달러이며, 연평균 33.5%의 시장성장률로 예상되며, 2030년 5,004억 달러로 성장할 것으로 전망
(출처:Grand View Research, 2022)
-
글로벌 NLP 시장 규모는 2021년 155억 달러이며, 연평균 40.9%의 시장성장률로
(출처:GTT KOREA, 2021)
![글로벌 딥 러닝 시장 규모 전망](https://d35156dk3hq0x4.cloudfront.net/assets/images/tech/pretrained-language-model-2.png)
![글로벌 NLP 시장 규모 전망](https://d35156dk3hq0x4.cloudfront.net/assets/images/tech/pretrained-language-model-3.png)
지재권현황
권리현황 | 등록(출원)번호 | 발명의 명칭 |
---|---|---|
등록 | 10-2476104 | 사전학습 언어모델 구축장치 및 사전학습 언어모델의 어휘 확장 방법 |
활용분야
- 자연어 처리에 딥러닝 기술 적용 필수요소
- 자연어 처리(NLP)
- 신규 데이터 기반의 어휘 확장
활용제품
- 사전학습 언어모델