[548호 2023년 11월] 기고 에세이

SNU 그랜드 퀘스트② 암호화된 데이터로 인공지능과 소통할 수 있을까?

과학·공학 10가지 도전적 질문 ②

암호화된 데이터로 인공지능과 소통할 수 있을까?

천정희 모교 수리과학부 교수

안정호 (전기공학96-00)

모교 지능정보융합학과 교수

모교 국가미래전략원의 ‘과학과 기술의 미래 클러스터’(클러스터장 이정동)에서 최근 ‘2023 Grand Quests’ 10개 주제를 선정하고 이에 대한 포럼을 진행하고 있습니다. 이정동 클러스터장은 “도전적 질문(Grand Quest)이 진정한 혁신의 출발점”이라고 말합니다. 10개의 도전적 질문을 통해 최신 과학·공학의 이슈도 살펴볼 수 있습니다. 서울대총동창신문에서 10회에 걸쳐 그 내용을 전합니다.-편집자 주

Grand Quests 연재 순서

1.집적회로기반 양자컴퓨팅

2.프라이버시 기반 인공지능

3.효소모방 촉매

4.추론하는 인공지능

5.체화 인지구조 인공지능

6.인공지능 기반 항체설계

7.노화의 과학

8.초미세/초저전력 반도체

9.환경적응적 로봇

10.초경량 배터리

개인이나 조직의 중요한 정보를 인공지능에게 제공하지는 않으면서도 인공지능을 활용할 수 있는 방법은 없을까?

암호화된 상태의 데이터로 인공지능을 학습시키고, 암호화된 질문을 던지고 암호화된 답변을 받을 수 있는 궁극의 암호체계를 만들 수 있을까?

암호기술은 중요한 정보를 안전하게 전달하는 수단으로 고대로부터 광범위하게 사용되어 왔다. 컴퓨터 등장 이후의 암호는 패스워드나 인증과 같은 초창기 기술을 넘어 데이터를 암호화하여 컴퓨터에 저장하고 암호화된 데이터를 전송할 수 있는 단계까지 발전하였다. 현재 암호학의 최종적인 목적은 컴퓨터의 모든 작업을 암호화된 데이터로 수행하는 것이다. 이를 위해서는 암호화된 상태에서 복호화 없이 데이터를 계산할 수 있도록 하는 것이 필수적이라 할 수 있다. 컴퓨터가 암호화된 데이터로 특정 연산을 수행한 후 암호를 해독할 수 있도록 하는 기술인 동형암호는 암호화된 데이터의 계산 문제를 해결할 수 있는 미래 기술이다.

현재 AI를 활용하기 위해서는 암호화되지 않은 상태에서 데이터를 학습시켜야 한다. 이 과정에서 데이터가 제3자에게 노출될 가능성이 매우 높다. 따라서 군용 데이터나 기업의 데이터 등 기밀 자료들을 안전하게 보호하면서 인공지능을 활용하려면 근본적으로 데이터를 암호화한 상태에서 인공지능을 학습시킬 수 있어야 한다. 이때 필요한 것이 동형암호 기술이다. 동형암호는 데이터의 기밀을 보호하면서도 컴퓨터의 모든 연산 기능을 수행할 수 있도록 하기 때문에, 학습과 추론을 수행하는 AI는 자신이 활용한 데이터의 내용을 알 수 없다.

동형암호화된 데이터에 바로 AI를 적용하는 것은 쉽지 않다. 지금 사용하고 있는 AI 소프트웨어들은 현재의 컴퓨터에서 작동하도록 프로그램 되었기 때문에, 동형암호화된 데이터에서는 작동하지 않는다. 새로운 계산 모델로 동형암호를 활용하기 위해서는 기존의 소프트웨어를 동형컴퓨터, 즉 암호문 상에서 동작하는 계산기가 이해할 수 있는 소프트웨어로 완전히 새롭게 변화시켜야 한다. 기존의 컴퓨터 알고리즘에서는 데이터를 비트로 인코딩하여 연산하지만, 동형암호의 계산 알고리즘은 데이터를 다항식으로 인코딩하고 다항식의 덧셈과 곱셈을 반복하여 연산을 수행한다. 따라서 동형암호를 활용하기 위해서는 기존의 알고리즘들을 모두 새로 만들어야 하고, 기존 알고리즘 위에서 작동하던 컴퓨터 언어와 프로그램, 시스템들도 기초부터 새롭게 구성하여야 한다. 이런 거대한 작업을 수행하기 위해서는 여러 분야의 지식을 아우르는 융합연구가 반드시 필요하다.

이미 학계에서는 암호화 상태에서 계산을 수행하는 크립토계산(Cryptographic Computing)의 기초연구가 다양하게 진행되고 있다. 수학적으로는 임의의 계산을 다항식 계산으로 표현하기 위해 정수론과 해석학을 기반으로 새로운 기반을 만들고 있다. 또한 정수론에 기반하여 작동하는 알고리즘들도 새로 작성되고 있다. 이러한 알고리즘을 실제로 사용할 수 있도록 새로운 컴퓨터 언어와 컴파일러 및 데이터베이스를 개발하는 연구들도 활발하게 진행되고 있다. 현재는 암호화된 상태에서 간단한 머신러닝 계산을 수행할 수 있는 소프트웨어들도 공개되고 있다.

동형암호를 실현시킬 자원들이 구비되면 이를 바탕으로 새로운 컴퓨터시스템을 구축할 수 있을 것으로 예상된다. 암호화된 데이터를 활용한 머신러닝이 상용화 되는 것은 3~6년 정도, 챗GPT가 사용한 LLM(Large Language Model)은 5~10년이 걸릴 것으로 보인다. 또한, 특정 AI모델을 넘어 임의의 계산을 암호화된 상태로 수행하는 인크립티드 컴퓨터(Encrypted Computer)의 상용화는 10~20년이 걸릴 것으로 예상된다. 더불어 이를 가속화하기 위한 소프트웨어 및 하드웨어 가속기의 연구와 개발도 한편으로 활발하게 이루어지고 있다. 머신러닝과 인공지능에 동형암호를 기반으로 암호화된 데이터를 학습시키기 위해 이 기술들은 꼭 필요한 기술들이다.

얼마나 좋은 정보를 얼마나 많이 가지고 있는가는 역사 속에서 두 집단 간의 승패를 결정짓는 데 언제나 결정적인 역할을 해왔다. 마찬가지로 AI 시대에서는 국가나 기업이 얼마나 데이터를 잘 보호하면서도 활용할 수 있는지에 따라 경쟁력이 달라질 것이다. 이제까지는 AI의 획기적인 기능과 유용성에도 불구하고 개인적이거나 중요한 정보는 다수의 기관과 업체에서 사용을 금지하는 등 활용되지 못하고 있었다. 만일 데이터를 암호화한 상태로 계산하는 동형암호 기술이 보편화된다면, 보안과 프라이버시 등의 이유로 사용이 제한되던 주요 데이터들도 AI에 마음껏 안전하게 활용할 수 있다. 따라서 이런 프라이버시 기반 인공지능(Private AI) 기술을 널리 활용할 수 있는 국가나 기업, 그리고 개인은 압도적인 경쟁력을 갖게 될 것이다.

1세대 암호로 일컬어지는 패스워드와 인증이 역사에 등장한 것은 3000년전이고, 저장데이터의 보호를 위해 등장한 2세대 대칭키 암호는 2000년, 통신데이터의 보호를 위해 등장한 3세대 공개키 암호는 50년, 그리고 계산데이터의 보호를 위해 등장한 4세대 동형암호는 14년의 역사를 가지고 있다. 이들 기술들은 알려지고 나서도 실제로 널리 쓰이기까지 많은 시간이 걸렸다. 그러나 일단 채택되면 순식간에 가속이 붙는다. 3세대 공개키 암호의 경우 인터넷통신 보호를 위해 https라는 기술을 활용하고 있는데, 2013년경 10퍼센트 정도에 미치던 활용률이 불과 5년 후에는 80퍼센트를 넘기게 되었다.

이것은 공개키 암호의 알고리즘 기술뿐만 아니라 상용화를 위한 여러가지 공학적인 기술들이 동시에 발전하였기 때문에 가능한 일이었다. 동형암호의 경우에도 현재 알고리즘 기술 뿐만 아니라 이를 상용화하기 위해 필요한 다양한 공학적 기술과 응용기술이 융합적으로 동시에 개발되어야 한다. 때문에 현재 동형암호 알고리즘, 가속기, 프로그램언어/컴파일러, 머신러닝 등 여러 분야에 걸쳐 다양한 전문가들이 협업하면서 발전하고 있으며, 이러한 협업이 지속되어야 한다.