[567호 2025년 6월] 뉴스 모교소식
김건희 교수팀 ‘사람처럼 말하는 AI’ 기술 개발
김건희 교수팀 ‘사람처럼 말하는 AI’ 기술 개발
NAACL 2025 최고 논문상 수상

(왼쪽부터) 김강욱 연구원(컴공18·학사과정), 김건희 교수, 이세훈 연구원(컴공15·박사과정)
공과대학 컴퓨터공학부 김건희 교수 연구팀이 사람의 말버릇, 추임새, 끼어들기 같은 ‘대화 행동’을 AI가 이해하고 구현할 수 있는 첨단 음성 대화 생성 기술을 개발했다. 이 기술은 기존 인공지능 대화 시스템의 기계적인 말투를 넘어, 실제 사람처럼 자연스럽고 몰입감 있는 대화를 만들어낸다는 점에서 큰 의미를 지닌다.
김 교수팀은 이번 연구에서 세계 최대 규모의 대화 행동 기반 음성 데이터셋 ‘Behavior-SD’를 구축하고, 이를 바탕으로 대화 행동을 반영한 AI 모델 ‘BeDLM’을 제안했다. 이 연구는 지난 4월 29일부터 5월 4일까지 미국 뉴멕시코주 앨버커키에서 열린 세계적 자연어처리 학회 NAACL 2025에서 구두 발표되었으며, 음성처리 및 음성언어이해 분야 최고 논문상(Senior Area Chair Award)을 수상했다.
연구팀은 사람들이 실제 대화를 나눌 때 “음…”, “그니까…” 같은 말버릇, “맞아”, “응” 등의 추임새, 그리고 간헐적인 끼어들기 등 다양한 행동을 자연스럽게 활용한다는 점에 주목했다. 하지만 기존 AI 시스템은 이러한 미묘한 표현을 반영하지 못해 대화가 기계적이고 부자연스럽다는 한계가 있었다.
이 문제를 해결하기 위해 연구팀은 실제 사람의 대화 행동을 정밀하게 반영한 음성 데이터를 대규모로 수집·분석했다. 10만 개의 대화 패턴, 총 2000시간 분량의 음성을 담은 Behavior-SD 데이터셋은 다양한 대화 행동이 주석 처리된 것이 특징이다. 이를 기반으로 개발된 BeDLM은 대화 상대의 행동 패턴에 따라 추임새를 넣거나 말을 끊는 타이밍을 조정해, 훨씬 더 사람에 가까운 음성 대화를 생성한다.
BeDLM은 향후 AI 상담사, 음성 비서, 팟캐스트 제작 등 감정적 교감과 자연스러운 대화가 중요한 분야에서 다양하게 활용될 전망이다. 특히 교육, 돌봄, 심리 상담처럼 정서적 연결이 중요한 영역에서 AI의 활용 폭을 넓히는 데 기여할 것으로 기대된다. 이번에 개발된 데이터셋과 모델은 모두 오픈소스로 공개되어, 국내외 연구자들이 자유롭게 활용할 수 있는 점도 큰 의미를 지닌다.
김건희 교수는 “사람은 대화 중에도 상대의 음성과 표정에 반응하면서 대화를 이어가는데, 기존 AI 모델은 이런 ‘즉흥적 적응’이 어려웠다”며 “이번 연구는 인간과 AI 간 소통의 간극을 실질적으로 좁힌 사례”라고 설명했다. 제1저자 이세훈 연구원은 “AI가 단순한 문장 생성을 넘어, 사람 특유의 대화 행동까지 이해하고 반영할 수 있는 가능성을 보여준 것”이라며 “이 기술이 실제 서비스에 적용되어 몰입감 있는 음성 대화를 구현하길 바란다”고 말했다.
NAACL 2025 최고 논문상 수상
(왼쪽부터) 김강욱 연구원(컴공18·학사과정), 김건희 교수, 이세훈 연구원(컴공15·박사과정)
공과대학 컴퓨터공학부 김건희 교수 연구팀이 사람의 말버릇, 추임새, 끼어들기 같은 ‘대화 행동’을 AI가 이해하고 구현할 수 있는 첨단 음성 대화 생성 기술을 개발했다. 이 기술은 기존 인공지능 대화 시스템의 기계적인 말투를 넘어, 실제 사람처럼 자연스럽고 몰입감 있는 대화를 만들어낸다는 점에서 큰 의미를 지닌다.
김 교수팀은 이번 연구에서 세계 최대 규모의 대화 행동 기반 음성 데이터셋 ‘Behavior-SD’를 구축하고, 이를 바탕으로 대화 행동을 반영한 AI 모델 ‘BeDLM’을 제안했다. 이 연구는 지난 4월 29일부터 5월 4일까지 미국 뉴멕시코주 앨버커키에서 열린 세계적 자연어처리 학회 NAACL 2025에서 구두 발표되었으며, 음성처리 및 음성언어이해 분야 최고 논문상(Senior Area Chair Award)을 수상했다.
연구팀은 사람들이 실제 대화를 나눌 때 “음…”, “그니까…” 같은 말버릇, “맞아”, “응” 등의 추임새, 그리고 간헐적인 끼어들기 등 다양한 행동을 자연스럽게 활용한다는 점에 주목했다. 하지만 기존 AI 시스템은 이러한 미묘한 표현을 반영하지 못해 대화가 기계적이고 부자연스럽다는 한계가 있었다.
이 문제를 해결하기 위해 연구팀은 실제 사람의 대화 행동을 정밀하게 반영한 음성 데이터를 대규모로 수집·분석했다. 10만 개의 대화 패턴, 총 2000시간 분량의 음성을 담은 Behavior-SD 데이터셋은 다양한 대화 행동이 주석 처리된 것이 특징이다. 이를 기반으로 개발된 BeDLM은 대화 상대의 행동 패턴에 따라 추임새를 넣거나 말을 끊는 타이밍을 조정해, 훨씬 더 사람에 가까운 음성 대화를 생성한다.
BeDLM은 향후 AI 상담사, 음성 비서, 팟캐스트 제작 등 감정적 교감과 자연스러운 대화가 중요한 분야에서 다양하게 활용될 전망이다. 특히 교육, 돌봄, 심리 상담처럼 정서적 연결이 중요한 영역에서 AI의 활용 폭을 넓히는 데 기여할 것으로 기대된다. 이번에 개발된 데이터셋과 모델은 모두 오픈소스로 공개되어, 국내외 연구자들이 자유롭게 활용할 수 있는 점도 큰 의미를 지닌다.
김건희 교수는 “사람은 대화 중에도 상대의 음성과 표정에 반응하면서 대화를 이어가는데, 기존 AI 모델은 이런 ‘즉흥적 적응’이 어려웠다”며 “이번 연구는 인간과 AI 간 소통의 간극을 실질적으로 좁힌 사례”라고 설명했다. 제1저자 이세훈 연구원은 “AI가 단순한 문장 생성을 넘어, 사람 특유의 대화 행동까지 이해하고 반영할 수 있는 가능성을 보여준 것”이라며 “이 기술이 실제 서비스에 적용되어 몰입감 있는 음성 대화를 구현하길 바란다”고 말했다.