국가기간뉴스 통신사 연합뉴스

국산 인공지능 '엑소브레인' 이제 구어체도 알아듣는다

송고시간2020-08-06 09:15

ETRI "사람의 대화 분석 오류 41% 줄여…API 공개"

엑소브레인 연구하는 ETRI 연구팀

[ETRI 제공. 재판매 및 DB 금지]

(대전=연합뉴스) 박주영 기자 = 한국전자통신연구원(ETRI)은 자체 개발한 언어 인공지능 '엑소브레인'(Exobrain)의 구어체 언어 분석 API를 공개했다고 6일 밝혔다.

API는 누구나 응용프로그램을 개발할 수 있도록 공개된 인터페이스를 말한다.

위키백과나 법령 등 문어체를 주로 이해하는 기존 문어체 분석 기술에 구어체까지 학습하도록 해 사람의 대화를 분석할 때 나타나는 오류를 최대 41%까지 줄였다.

한국어 의미의 최소 단위를 분석하는 형태소 분석 기술과 개체명 인식 기술이 적용됐다.

개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술이다.

예를 들어 '국민은행'이라는 단어가 명사 '국민'과 '은행'의 결합이 아닌 은행의 고유 명칭이라는 점을 인식하는 기술이다.

또 '경상돈데'라는 구어체의 경우 기존 기술은 축약 표현을 인식하지 못해 '경상돈+데'라고 분석했지만, 형태소 분석 기술을 이용해 '경상도+인데'로 분석할 수 있다.

구어체 언어 분석표

[ETRI 제공. 재판매 및 DB 금지]

구어체 언어 분석 기술은 과업 자체의 난도도 높지만, 학습데이터가 부족해 어려움이 있다.

기계학습·딥러닝 기술은 대규모 학습데이터가 필요하나 구어체 분야는 데이터 확보조차 쉽지 않은 실정이다.

실제 개체명 인식 학습 데이터의 경우 문어체는 약 27만 건에 달하지만, 구어체는 10분의 1 수준인 2만5천 건에 불과하다.

연구팀은 '전이학습'(transfer learning)과 '데이터 증강'(data augmentation) 기법을 활용해 데이터 부족 한계를 극복했다.

엑소브레인

[ETRI 제공. 재판매 및 DB 금지]

전이학습과 데이터 증강 기법은 다른 분야의 학습 모델과 소량의 학습데이터를 재사용해 학습하는 방식이다.

적용 결과 구어체 분석 API는 기존 문어체 분석 API와 비교해 형태소 분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선된 것으로 나타났다.

분석 오류도 각각 41.7%, 39.4% 감소했다.

연구팀은 기존 대비 성능을 개선한 문어체 언어 분석 API도 추가로 공개했다.

문어체 언어 분석 API의 형태소 분석과 개체명 인식 기술은 각각 96.8%, 89.4%의 높은 정확도를 보였다.

임준호 ETRI 책임연구원은 "2017년 10월 엑소브레인 언어 분석 API를 공개한 이래 사용 건수가 2천600만건에 이를 정도로 학계와 연구자들 사이에서 널리 사용되고 있다"며 "이번에 신규공개한 언어분석 API는 사람의 대화까지 정확하게 이해할 수 있어 AI 비서, 챗봇 등 언어지능 서비스 개발에 기여할 것"이라고 말했다.

jyoung@yna.co.kr

연합뉴스 홈페이지
연합뉴스 홈페이지 검색
뉴스 검색어 입력 양식