* [외-피니언]은 '외대'와 '오피니언'의 합성어로, 외대알리 기자들의 오피니언 코너입니다. 학생 사회를 넘어 우리 사회의 사안을 바라보며, 솔직하고 당돌한 의견을 제시하고자 합니다.
지난 5월, 미국 매사추세츠공대(MIT) 컴퓨터과학 및 인공지능연구소(CSAIL) 제이콥 안드레아스 교수팀이 향유고래가 다양한 '클릭' 소리와 리듬을 결합하고 변조해 인간 언어와 유사한 복잡한 소리를 낸다는 사실을 밝혔다. 연구팀은 향유고래의 데이터가 가장 많이 저장된 '도미니카 향유고래 프로젝트' 데이터를 활용했다. 연구팀은 데이터를 분석하기 위해 머신러닝을 사용했다.
딥러닝(Deep-learning) 기술을 통해 발전한 AI가 이번 연구에 주요한 기여를 했다는 사실은 많은 연구자와 대중들에게 놀라움을 안겼다. '향유고래 음성 알파벳'을 형성할 수 있는 가능성을 가진 모든 변수의 조합 중 정기적으로 사용하는 143개를 식별한 이번 연구는 AI가 없었다면 많은 기간이 소요됐을 것으로 예측된다.
AI의 등장과 발전으로 언어공학계의 지변에도 많은 변화가 찾아온 것인가? 우선 생소한 분야인 언어공학은 무엇인가? 외대알리는 한국외국어대학교 Language & AI 융합학부 박정식 교수를 찾아갔다.
Language & AI는 무엇인가? 언어공학에 미친 AI의 영향은?
Q1. 음성언어 처리와 언어공학의 개념을 일반인들이 이해하기 쉽게 설명해 주실 수 있을까요? 이 분야가 우리 일상생활에 어떤 영향을 미치고 있나요?
A1. 언어공학 학과는 최근까지 국내에 없었을 정도로 한국에서는 많이 생소하지만, 이미 우리 일상 속에 많이 녹아있어요. 일반적으로 음성 신호를 분석하는 ‘음성언어’ 기술과 텍스트 처리와 분석을 주로하는 ‘자연어 처리' 기술, 두 가지를 아울러 언어공학이라고 말하죠.
Q2. AI 기술이 언어공학 분야에 어떤 혁신을 가져오고 있나요?
A2. AI 기술의 연구는 오래전부터 발전하고 있었습니다. 하지만 딥러닝 기술로 AI가 급속도로 발전하자, 다양한 분야에 적용이 가능해졌고, 또 적용하는 분야에 따라 AI의 성격이 달라져요. 언어공학에서 AI 기술은 음성인식 분야와 텍스트 정보처리에서 사용해요. 인간에게서 텍스트에 들어있는 의도를 분석하고 파악하는 후처리 과정을 담당하는 분야는 ‘뇌'인데, AI 모델을 이러한 맥락에서 뇌와 같이 사용하는 것이죠.
실제로 음성공학계에 가장 큰 연구 분야였던 ‘음성 합성 기술'은 딥러닝으로 발전한 AI의 도움으로 연구 개발의 종점을 눈 앞에 두고 있는 것 같다고 박 교수는 말했다. 이전의 음성 합성 기술은 “우리가 로봇을 생각하면 떠올리는 기계음 섞인 목소리"였다면, “특정인물을 흉내내고, 심지어 도전의 분야에 속해있던 싱잉 보이스 제작 또한 많이 진행되고 있다"라고 말했다. 실제로 해외 가수가 한국의 가요를 부르거나, 죽은 가수의 목소리로 현대의 곡을 리메이크 하는 기술은 방송에서도 나와 예능의 요소로 사용되고 있다.
박 교수는 “이제 상업화의 단계만이 남은 것 같다"며, “현재는 저작권의 문제로 함부로 만드는 것을 막고있지만, 앞으로는 세상에 없는 목소리로, 음악, 영화, 드라마를 제작할 것"이라고 의견을 밝혔다.
Q3. 향유고래의 '음성 알파벳' 연구에서 AI가 중요한 역할을 했다고 합니다. 이 연구가 언어공학 분야에 어떤 의미를 가지나요? 인간 언어 혹은 인간 이외의 커뮤니케이션 시스템을 이해하는데 AI 를 활용하는 것이 왜 중요한가요? A3. 향유고래의 알파벳 연구에 AI 기술을 사용했다는 것이 틀린 말은 아니지만, 보통 AI 기술을 사용했다는 것은, 언어 모델을 만드는 것을 의미하기 때문에, 연구 수준이 조금 부족하다고 할 수 있어요. 만약 리듬패턴, 템포의 유형을 분석해서 향유고래의 언어 모델을 개발했다고 한다면, AI가 언어공학에 사용됐다고 말할 수 있겠죠.
하지만 커뮤니케이션 시스템을 이해하는데 AI를 사용하는 것은 중요하다고 말한다. 커뮤니케이션을 단순 언어 정보 교환 따위의 행동으로 치환할 수 없다. 얼굴의 표정이나 억양, 표현 등 여러 유형의 정보를 토대로 하나의 결과를 만드는 행위로써 커뮤니케이션은, 우리 자신도 인식하지 못한 채, 여러 정보들을 동시에 처리하는 것이다.
음성정보와 시각정보를 동시에 처리하는 모델을 다중모델(mutiple model)이라고 하는데, 이러한 맥락에서 우리의 커뮤니케이션 시스템을 이해하는데 AI 기술의 발전은 도움을 줄 수 있다고 말한다. 실제로 박교수는 “로봇과 인간 간의 상호 작용에서 기본 커뮤니케이션 방식인 언어는 중요하다"며, 오감을 기계가 처리할 수 있도록 조합 후 인간과 상호작용 할 수 있는 방향으로 연구를 하고 있다"라고 밝혔다.
Q4. 음성 인식 기술의 정확도가 크게 향상되었지만, 여전히 방언이나 악센트 인식에 어려움이 있습니다. 이러한 문제를 해결하기 위해 어떤 연구가 진행되고 있나요?
A4. 현재 음성인식 개선의 주요한 화두가 바로 방언과 악센트 관련 연구라고 할 수 있어요. 가장 확실한 방법은 해당 방언, 악센트의 데이터를 대량으로 확보한 후 관련 모델을 만드는 것이겠지요. 하지만 실제로 많은 데이터를 수집할 수 없는 방언의 특성이 있죠. 그러므로 많은 AI 모델은 가장 많은 데이터를 가진 표준어로 만들기 때문에, 표준어를 기준으로 서비스를 제공해요. 이러한 난점을 해결하기 위한 ‘적응(Adaptation) 기술'이 있어요. 표준어 모델에 소량의 방언 데이터를 인식시켜, 기존 값을 변경하는 것이 바로 이 기술이에요. 이를 트랜스포머 모델이라고 부르기도 해요.
또한 기자는 AI 기술의 난점인 할루시네이션(Hallucination)에 관해서도 물었다. 할루시네이션이란, AI가 정보를 출력해내는 과정에서 발생하는 오류로, 허위 정보를 생성하고 이를 마치 '사실'처럼 말하는 현상을 말한다. 이에 대해 박 교수는 “여전히 찾고 있고, 언어공학자들이 연구하고 있는 부분"이라며, “일반적으로는 계속된 업그레이드로 데이터를 축적하며, 정확성을 확보하는 것이 해결 방법"이라고 말했다. 실제로 “chat-gpt와 같은 언어모델은 사용자와의 대화를 통해 새로운 정보를 얻으며 발전하고 있다"고 했다.
AI의 영향, 이에 따른 여러 문제들과 해결 방법은?
Q5. 음성 기반 사용자 인터페이스에서 프라이버시와 보안 문제가 중요한 이슈로 대두되고 있는데, 이러한 문제들을 해결하기 위해 어떤 접근 방식들이 연구되고 있나요?
A5. 프라이버시와 관련해서 사람들이 자신의 음성 데이터를 개인정보로 생각하고, 이 정보가 유출되는 것을 걱정하는 것 같아요. 실제로 AI 스피커나 다른 여러 시스템 같은 경우 자신의 목소리 데이터가 원격 서버에 도달하고, 이를 처리해 답을 주는 것이기 때문에, 본사 서버 시스템에 저장이 되지 않을까 걱정하는 것 같아요. 하지만 음성 데이터는 저장할 수 없는 것이 원칙이고, 또 법으로 정해져 있기 때문에 걱정할 정도는 아닌 것 같아요. 카메라 같은 경우도 시각 정보이지만 걱정하지 않고 사용하잖아요? 그리고 보안 같은 경우, 지문이나 패턴을 대신해서 보이스로 인증하는 기술을 말하는데, 이 경우 ‘화자 인식'이라는 기술을 활용해 목소리를 보다 정확히 인식하는 기술을 연구중에 있어요.
Q6. 음성 합성 기술이 발전하면서 많은 문제들이 발생하고 있다고 해요. 실제로 아무 답신도 없는전화를 받았을 때, 대답하는 소리들을 데이터로 저장하고, 이를 보이스피싱에 악용하는 경우도 있다고 해요. 사이버 범죄자가 신뢰할 수 있는 주체 또는 장치로 가장하여, 해커에게는 이득이지만 사용자에게는 해로운 행위를 하도록 유도하는 행동의 유형, 소위 스푸핑(spoofing)이라고 말하는 문제가 대두되고 있어요. 이에 대응하는 기술들이 있을까요?
A6. 범죄를 막는 방향으로 많은 연구들이 진행되고 있는데, 특히 음성 합성 기술로 보이스를 만드는 과정은 윤리적으로도 문제가 될 수 있기 때문이죠. 이는 화자 인식 기술의 발전에 명운이 달려있어요. 실제로 국내 검찰청에서도 이러한 보이스 피싱을 막기 위해 연구 중에 있다고 해요.
AI의 단점, 사실 알고보니 장점?
Q7. 지금까지 직접적인 기술의 악용 가능성으로 말미암은 문제들을 다뤘다면, 조금은 시선을 바꿔보려고 해요. 지금도 노년층들은 기술 발전에 적응하지 못해 많은 문제들을 직면하고 있어요. 만약 언어공학 기술의 발전으로 이러한 정보 격차가 더 벌어지면 어떻게 해야하죠?
A7. 실제로 키오스크 같은 경우 그런 정보격차를 체감할 수 있죠. 하지만 저는 언어공학 중 음성 인식 기술의 발전으로 오히려 디지털 격차를 극복할 수 있을 것이라고 생각해요. 왜 키오스크에 어려움을 겪을까요? 물론 화면 속 정보들을 읽고 클릭하는 것은 디지털에 익숙한 세대들에게 좋은 수단일 수 있겠지만, 직관적이고 자연스러운 수단은 아니죠. 하지만 말하는 행위는 어떤가요? 쉽고 자연스러운 행위 아닌가요? 언어공학의 발전에 발 맞추어 디바이스들이 개발된다면, 음성 인식 기술의 보급은 확대될 것이에요. 음성 인터페이스를 통해 격차를 줄여나가는 것이지요.
Q8. AI 언어학습으로 교사가 대체될 수도 있다는 사실은 어떤 영향을 미치는 것인가요?
A8. AI 언어학습의 목표는 교사를 대체하는 것이죠. AI 언어학습은 연령대에 따라 다른 학습을, 또 기초, 중급, 고급별 수준에 맞는 교육을 적절히 제공할 수 있을 거에요. 특히 음성 데이터를 받고 피드백을 하는 과정을 통해 발음까지 교육하는 기술은 지금 상업화가 되어있죠. 앞서 언어공학은 음성인식과 자연어 처리 두가지 분야로 나뉘어진다고 말했는데, 말하기와 관련한 부분은 음성인식 기술로, 텍스트와 관련한 부분은 자연어 처리 기술로 어학 시험을 자동 채점하는 기술은 연구중에 있어요.
Q9. 감정 인식 기술이 발전하면서, AI가 사용자의 감정 상태를 파악하고 그에 맞게 반응할 수 있게 됐어요. 로봇과 감정을 상호 교환한다고 하니, 조금 무섭게 다가오는데, 우리 삶에 어떤 영향을 미칠까요?
A9. 감정 인식의 발전은 정말 어려운 분야죠. 음성과 표정, 두 가지 데이터를 처리하는 다중 모델 개발도 어렵지만, 감정같은 경우에는 정형화돼있지 않기 때문에, 연구에 난항을 겪고 있어요. 하지만 조금 더 시간이 지나면 감정 상태를 파악하는 기술이 도래할 수 있어요. 이는 우울증을 겪는 소외계층, 특히 독거노인들에게 좋은 영향을 미칠 수 있답니다.
AI 기술의 올바른 방향성: 독거 노인들을 위한 AI 감성로봇.
현재도 인공지능 돌봄 로봇인 말동무 인형을 통해 노인들의 우울증 및 치매를 예방, 평가 할 수 있다. 그뿐만 아니라 주간, 월간 리포트를 제공하여 보호자가 관리 할 수 있다.
울산 동구와 울주군 등 지자체에서는 인공지능 돌봄 인형 업체와 계약을 체결해 홀로 계신 어르신들의 정서적 안정을 위해 말벗과 안부 확인, 식사 및 약 복용 알림 등 고독감 해소와 건강지원에 기여하고 있다.
작년 기준 대한민국의 독거노인 수는 약 940만 명으로 7년전과 비교하면 약 200만 명이 늘었으며, 계속해서 증가하고 있는 추이다.
이와 함께 2019년, 2,412명이던 고독사로 인한 사망자는 2021년 3,378명으로 증가했으며, 50-60대가 전체 고독사 인원중 50%이상을 차지한다고 보건복지부는 2022년 밝혔다.
이는 독거노인에만 국한된 문제가 아니다. 20-30대는 고독사 인원 중 6%로 소수지만, 각각 20대가 56.6%, 30대가 40.2%가 자살로 인해 사망하는 것으로 밝혀졌다. 이러한 청년층 자살부터 독거노인들의 고독사까지 인공지능 돌봄 로봇을 통해 예방할 수 있다는 것이다.
인간과 인간이 만나기 쉽지 않아지는 고립의 시대, 새로운 학문의 발전으로 인해 더욱 인간 같아질 수 있는 AI의 등장은 긍정적으로 보인다.
다만, 알맞은 방향으로의 학문에 대한 연구의 목표가 희미해진다면, 악용될 가능성이 농후한 기술인만큼, 엄격한 윤리적 기준과 도덕적 잣대가 필요하지 않을까.
박찬빈 기자(chan.b2an@gmail.com)