본문 바로가기

비즈니스/테크

AI, 이젠 구어체도 알아듣는다

ETRI 구어체 엑소브레인 언어분석API 공개

 

한글 문어체보다 분석하기 더 어려운 구어체를 이해하는 언어분석 인공지능(AI)기술이 국내에서 개발

구어체는 사람마다 표현 방식이 다르고 쓰는 방법도 달라 문어체보다 분석 난이도가 高

구어체 글 분석기술을 좀 더 발전시키면사투리 말까지 이해하는 AI 서비스 개발에 가속도

한국전자통신연구원(ETRI)은 구어체 언어분석 기술을 API로 공개
의미의 최소 단위인 형태소분석과 ‘국민’과 ‘은행’ 같은 일반 명사들이 섞여 있는 문장에서

‘국민은행’과 같은 고유명사를 분리해 인식하는 개체명 인식 기술

예를 들어 ‘경상도인데’를 ‘경상돈데’라고 구어체 축약표현으로 문장을 표기할 경우,

‘경상도’와 ‘인데’로 구분하지 못하는 일이 많기 때문

 

《 데이터 이슈 》

구어체 문장 데이터는 구하기 어렵다는 문제도 발생 

ETRI에 따르면 개체명 인식 학습데이터의 경우, 문어체는 약 27만 건에 이르지만 구어체 데이터는 2만5000건에 불과
전이학습과 데이터 증강기법을 통해 다른 분야의 학습 모델과 소량의 학습데이터를 재사용하여 극복

《 성능 

이번에 공개된 구어체 언어분석AI는 문어체 분석AI보다 형태소 분석 능력은 5%, 개체명 인식 능력은 7.6% 개선

오류율도 각각 41.74%와 39.38%가 감소

ETRI는 구어체 언어분석 API와 함께 성능을 개선한 문어체 언어분석 API도 추가로 공개

추가로 공개된 API는 형태소 분석과 개체명 인식 정확도가 각각 96.80%, 89.40%로 향상

구어체 언어분석 API 공개로 향후 AI 기반 가상상담과 같은 다양한 분야에서 활용도가 높아질 것으로 기대