[밸류체인타임스 = 이아림 칼럼니스트] AI는 현재도 끊임없이 진화하고 있다. 공상과학 소설에서 시작된 개념이 불과 몇 년 만에 큰 가치를 형성하는 데 성공했다. 짧은 기간 내에 방대한 데이터를 학습하고 대부분의 질문에 답을 제공하는 AI는 사람들에게 무한한 신뢰를 얻고 있다. 그러나 은연중에라도 AI와 나눈 수많은 대화 중 발생된 '오류'에 대해 깊이 생각해 본 적이 있는가?
초기 Chat GPT가 등장했을 때, 국내에서는 '버락 오바마는 미국 무슬림 대통령이었다', ‘조선왕조실록에 세종대왕 맥북 던짐 사건이 기록되어 있다'는 등 엉뚱한 답변을 내놓아 큰 화제를 모았다. 그럼에도 불구하고 사람들은 대부분의 문제에 대해 AI는 정확한 답변을 제공할 것이라는 근거 없는 신뢰를 가지고 있다.
그러나 생성형 AI의 근본적인 작동 방식을 이해해 보자. AI 생성의 가장 기본적인 개념은 '빅데이터'에 기반을 두고 있다. AI는 방대한 양의 데이터 중에서 당신이 묻는 질문에 가장 적합한 내용을 비율에 따라 제공한다. 그렇다면 '오류'는 AI의 고의적인 거짓말이 아닌 학습 데이터 자체의 문제에 기인한다. 부족한 정보를 숨기기 위해 때때로 '오류'를 '진실'로 포장하는 경우가 있다.
(사진=Unsplash)
이러한 사실이 아닌 조작된 정보를 사실인 것처럼 제시하는 현상을 '할루시네이션(Hallucination)'이라고 정의한다. '허상, 환각'이라는 의미를 가진 라틴어 'Hallucinari'에서 유래했다. 할루시네이션은 트레이닝 데이터를 통해 판단하지 않는 것처럼 보이는 AI의 확신적인 답변으로 인간심리학에서의 '환각 현상'에 비유된다.
할루시네이션의 근본 원인은 생성 알고리즘의 오류가 약점으로 드러나지 않도록 하기 위함이다. 그러나 AI가 심어주는 거짓 신뢰는 고객 서비스, 금융, 법률, 의료 업계를 포함해 광범위한 응용산업에 큰 영향을 미칠 수 있다.
할루시네이션은 AI모델이 지원되지 않는 출력을 생성할 경우, 학습 데이터의 오류나 부적절성, 모델 자체의 편향으로 인해 발생한다. 또한 생성형 AI는 데이터를 수집하고 추론할 뿐 진위 여부를 검증하거나 가치 판단을 하지 못하는 한계가 있다.
할루시네이션 현상이 발생하는 대표적인 프로그램은 Chat GPT, Bard 등이 있으며, 이들 모두 생성형 AI라는 공통점을 가진다. 생성형 AI의 포함된, 보다 정교한 LLM의 기술은 '오류'를 '진실'로 말하는 환각을 일으킨다. 특히 대규모 언어모델(LLM)이 편견과 부적절한 정보가 만연한 오픈 데이터를 통해 학습되었을 경우 예측 못할 위험성이 증가한다.
(사진=Unsplash)
가장 대표적인 오류는 정치, 인종, 성별 등 진실에 대한 접근성이 까다로운 문제들에서 나타난다. 생성형 AI는 기존 데이터를 기반으로 생성되므로 기존 데이터에 편향된 정보의 비율은 편향적인 출력물의 생성량과 비례할 수밖에 없다. 예를 들어, 역사적 기록이나 사회적 통념에 편향된 데이터가 AI의 학습에 사용될 경우, AI는 이를 그대로 반영한 부정확한 정보를 생성할 가능성이 높다.
AI 모델의 성능은 학습 데이터에 크게 의존한다. 학습 데이터 자체가 편향되었거나 불충분한 경우, AI 모델은 접근 가능한 데이터에 대해 제한된 이해를 바탕으로 할루시네이션을 일으킬 수 있다. 또한 특정 도메인이나 작업을 위해 설계된 AI 모델은 해당 도메인이나 외부의 입력이 제공될 때 할루시네이션을 일으킬 가능성이 크다.
이는 관련 출력에 필요한 지식이나 맥락이 부족하기 때문이다. AI 모델이 특정 언어에 대해 제한적으로 이해할 경우, 해당 언어의 문화적 맥락이나 역사적 배경을 반영하지 못해 할루시네이션이 발생할 수 있다.
(사진=Unsplash)
AI 모델이 과적합(overfitting)되는 경우, 학습 데이터에 구체적이지만 새 데이터에 일반적이지 않은 출력을 생성하게 된다. 이는 할루시네이션의 발생을 초래하거나 사용자의 요구와 관련 없는 출력을 생성하는 인공지능 모델로 전락할 수 있다.
생성형 AI가 인간의 삶에 막대한 영향을 끼칠 것으로 예상됨에 따라, 할루시네이션 현상의 잠재적 위험성도 부각되고 있다. 생성형 AI의 할루시네이션은 매우 정교해 여론의 큰 파동을 일으킬 충분한 매개체가 될 수 있다. 단순히 엉뚱한 답변이라면 웃어넘길 수 있지만, AI 이미지 생성 프로그램이 독일 나치군을 아시아인으로 묘사하거나 아인슈타인을 흑인으로 묘사하는 등 사회적으로 민감한 분야의 오류는 큰 논란을 일으켰다.
AI 기술의 이용 방향성도 민감한 문제지만 더 근본적인 '데이터'부터 시작되는 할루시네이션 현상의 해결은 생성형 AI를 개발하는 기업들의 최우선 과제로 꼽힌다. 현재까지는 이론상에도 '할루시네이션 현상 해결' 방법이 완전히 확립되지 않았으며, 현상의 빈도를 줄이는 방법만이 존재한다. 그럼에도 불구하고 '오류'를 없애기 위한 노력은 지속되고 있다.
(사진=Unsplash)
할루시네이션 현상 빈도를 줄이기 위해 사용되는 대표적인 방법은 고품질 데이터 사용, 정확성 검증 시스템 구축, 사용자 피드백 반영, 모델 구조 개선 및 특화 모델 개발, 지속적인 모델 업데이트, 투명성 및 설명 가능성 강화가 있다.
고품질 데이터를 사용한다면 다양한 배경, 관점, 지식을 포함한 데이터를 활용함으로써 편향적인 출력물을 줄일 수 있다. 또한 데이터를 정제하여 의미 없는 정보와 오류를 제거한다.
정확성 검증 시스템의 구축은 모델이 생성한 응답의 신뢰성을 전문가와의 협업을 통해 검증받아 보다 정확한 정보를 사용자에게 제공되는 시스템이 구축된다.
이 외에 생성된 응답을 학습된 데이터뿐 아니라 외부 데이터와 비교해 사실 가능성 검증을 하는 알고리즘 도입 시스템, 이중 확인 과정 등이 포함된다. 그러나 이때에도 외부 데이터 즉, 오픈 데이터 형태의 학습을 하기 때문에 정확하지 않은 답이 '사실 가능성'이 높다고 판단해 오류를 낼 가능성이 상당히 높다.
사용자 피드백은 가장 이롭지만 그만큼 리스크가 큰 방안으로 고려된다. 사용자로부터의 피드백을 통해 AI의 답변을 지속적으로 개선한다. 이는 AI의 답변을 인간이 직접 수정함으로써 이루어지지만, 편향적이거나 부적절한 정보가 학습될 위험도 함께 존재한다.
지속적인 모델 업데이트를 통해 최신 정보와 지식을 모델에 반영한다면 새로운 지식과 사용자 피드백이 실시간으로 반영되어 보다 완벽한 AI를 추구할 수 있다. 그러나 이 역시 한계점은 존재한다.
투명성 및 설명 가능성 강화는 AI 모델이 생성한 답변의 근거와 출처를 명확히 표시해 옳지 않은 정보로 일으켜지는 여론의 파장을 예방한다. 이러한 메커니즘을 구축하여 사용자가 결과를 신뢰할 수 있도록 한다. 그러나 '완벽한 AI'라는 착각의 인식을 갖고 지식의 습득을 AI의 의존한다면 인류의 판단 능력은 도태되기 마련이다.
할루시네이션은 AI와 공존하며 살아갈 인류에게 고질적인 문제이자 지속적으로 해결해야 할 과제다. 할루시네이션에 대한 깊은 연구와 이론적 고찰이 반복된다면, 언젠가는 할루시네이션의 '완벽한 해결책'을 제시할 수 있을 것이다. 인류는 지금까지 불가능을 가능으로 바꾸어 왔으며, 앞으로도 미래를 상상하고 실현할 능력을 가진 생명체로서 이 문제를 극복할 것이다.
저작권자 © 밸류체인타임스 무단전재 및 재배포 금지
[밸류체인타임스 = 이아림 칼럼니스트]
[밸류체인타임스 = 이아림 칼럼니스트] AI는 현재도 끊임없이 진화하고 있다. 공상과학 소설에서 시작된 개념이 불과 몇 년 만에 큰 가치를 형성하는 데 성공했다. 짧은 기간 내에 방대한 데이터를 학습하고 대부분의 질문에 답을 제공하는 AI는 사람들에게 무한한 신뢰를 얻고 있다. 그러나 은연중에라도 AI와 나눈 수많은 대화 중 발생된 '오류'에 대해 깊이 생각해 본 적이 있는가?
초기 Chat GPT가 등장했을 때, 국내에서는 '버락 오바마는 미국 무슬림 대통령이었다', ‘조선왕조실록에 세종대왕 맥북 던짐 사건이 기록되어 있다'는 등 엉뚱한 답변을 내놓아 큰 화제를 모았다. 그럼에도 불구하고 사람들은 대부분의 문제에 대해 AI는 정확한 답변을 제공할 것이라는 근거 없는 신뢰를 가지고 있다.
그러나 생성형 AI의 근본적인 작동 방식을 이해해 보자. AI 생성의 가장 기본적인 개념은 '빅데이터'에 기반을 두고 있다. AI는 방대한 양의 데이터 중에서 당신이 묻는 질문에 가장 적합한 내용을 비율에 따라 제공한다. 그렇다면 '오류'는 AI의 고의적인 거짓말이 아닌 학습 데이터 자체의 문제에 기인한다. 부족한 정보를 숨기기 위해 때때로 '오류'를 '진실'로 포장하는 경우가 있다.
(사진=Unsplash)
이러한 사실이 아닌 조작된 정보를 사실인 것처럼 제시하는 현상을 '할루시네이션(Hallucination)'이라고 정의한다. '허상, 환각'이라는 의미를 가진 라틴어 'Hallucinari'에서 유래했다. 할루시네이션은 트레이닝 데이터를 통해 판단하지 않는 것처럼 보이는 AI의 확신적인 답변으로 인간심리학에서의 '환각 현상'에 비유된다.
할루시네이션의 근본 원인은 생성 알고리즘의 오류가 약점으로 드러나지 않도록 하기 위함이다. 그러나 AI가 심어주는 거짓 신뢰는 고객 서비스, 금융, 법률, 의료 업계를 포함해 광범위한 응용산업에 큰 영향을 미칠 수 있다.
할루시네이션은 AI모델이 지원되지 않는 출력을 생성할 경우, 학습 데이터의 오류나 부적절성, 모델 자체의 편향으로 인해 발생한다. 또한 생성형 AI는 데이터를 수집하고 추론할 뿐 진위 여부를 검증하거나 가치 판단을 하지 못하는 한계가 있다.
할루시네이션 현상이 발생하는 대표적인 프로그램은 Chat GPT, Bard 등이 있으며, 이들 모두 생성형 AI라는 공통점을 가진다. 생성형 AI의 포함된, 보다 정교한 LLM의 기술은 '오류'를 '진실'로 말하는 환각을 일으킨다. 특히 대규모 언어모델(LLM)이 편견과 부적절한 정보가 만연한 오픈 데이터를 통해 학습되었을 경우 예측 못할 위험성이 증가한다.
(사진=Unsplash)
가장 대표적인 오류는 정치, 인종, 성별 등 진실에 대한 접근성이 까다로운 문제들에서 나타난다. 생성형 AI는 기존 데이터를 기반으로 생성되므로 기존 데이터에 편향된 정보의 비율은 편향적인 출력물의 생성량과 비례할 수밖에 없다. 예를 들어, 역사적 기록이나 사회적 통념에 편향된 데이터가 AI의 학습에 사용될 경우, AI는 이를 그대로 반영한 부정확한 정보를 생성할 가능성이 높다.
AI 모델의 성능은 학습 데이터에 크게 의존한다. 학습 데이터 자체가 편향되었거나 불충분한 경우, AI 모델은 접근 가능한 데이터에 대해 제한된 이해를 바탕으로 할루시네이션을 일으킬 수 있다. 또한 특정 도메인이나 작업을 위해 설계된 AI 모델은 해당 도메인이나 외부의 입력이 제공될 때 할루시네이션을 일으킬 가능성이 크다.
이는 관련 출력에 필요한 지식이나 맥락이 부족하기 때문이다. AI 모델이 특정 언어에 대해 제한적으로 이해할 경우, 해당 언어의 문화적 맥락이나 역사적 배경을 반영하지 못해 할루시네이션이 발생할 수 있다.
(사진=Unsplash)
AI 모델이 과적합(overfitting)되는 경우, 학습 데이터에 구체적이지만 새 데이터에 일반적이지 않은 출력을 생성하게 된다. 이는 할루시네이션의 발생을 초래하거나 사용자의 요구와 관련 없는 출력을 생성하는 인공지능 모델로 전락할 수 있다.
생성형 AI가 인간의 삶에 막대한 영향을 끼칠 것으로 예상됨에 따라, 할루시네이션 현상의 잠재적 위험성도 부각되고 있다. 생성형 AI의 할루시네이션은 매우 정교해 여론의 큰 파동을 일으킬 충분한 매개체가 될 수 있다. 단순히 엉뚱한 답변이라면 웃어넘길 수 있지만, AI 이미지 생성 프로그램이 독일 나치군을 아시아인으로 묘사하거나 아인슈타인을 흑인으로 묘사하는 등 사회적으로 민감한 분야의 오류는 큰 논란을 일으켰다.
AI 기술의 이용 방향성도 민감한 문제지만 더 근본적인 '데이터'부터 시작되는 할루시네이션 현상의 해결은 생성형 AI를 개발하는 기업들의 최우선 과제로 꼽힌다. 현재까지는 이론상에도 '할루시네이션 현상 해결' 방법이 완전히 확립되지 않았으며, 현상의 빈도를 줄이는 방법만이 존재한다. 그럼에도 불구하고 '오류'를 없애기 위한 노력은 지속되고 있다.
(사진=Unsplash)
할루시네이션 현상 빈도를 줄이기 위해 사용되는 대표적인 방법은 고품질 데이터 사용, 정확성 검증 시스템 구축, 사용자 피드백 반영, 모델 구조 개선 및 특화 모델 개발, 지속적인 모델 업데이트, 투명성 및 설명 가능성 강화가 있다.
고품질 데이터를 사용한다면 다양한 배경, 관점, 지식을 포함한 데이터를 활용함으로써 편향적인 출력물을 줄일 수 있다. 또한 데이터를 정제하여 의미 없는 정보와 오류를 제거한다.
정확성 검증 시스템의 구축은 모델이 생성한 응답의 신뢰성을 전문가와의 협업을 통해 검증받아 보다 정확한 정보를 사용자에게 제공되는 시스템이 구축된다.
이 외에 생성된 응답을 학습된 데이터뿐 아니라 외부 데이터와 비교해 사실 가능성 검증을 하는 알고리즘 도입 시스템, 이중 확인 과정 등이 포함된다. 그러나 이때에도 외부 데이터 즉, 오픈 데이터 형태의 학습을 하기 때문에 정확하지 않은 답이 '사실 가능성'이 높다고 판단해 오류를 낼 가능성이 상당히 높다.
사용자 피드백은 가장 이롭지만 그만큼 리스크가 큰 방안으로 고려된다. 사용자로부터의 피드백을 통해 AI의 답변을 지속적으로 개선한다. 이는 AI의 답변을 인간이 직접 수정함으로써 이루어지지만, 편향적이거나 부적절한 정보가 학습될 위험도 함께 존재한다.
지속적인 모델 업데이트를 통해 최신 정보와 지식을 모델에 반영한다면 새로운 지식과 사용자 피드백이 실시간으로 반영되어 보다 완벽한 AI를 추구할 수 있다. 그러나 이 역시 한계점은 존재한다.
투명성 및 설명 가능성 강화는 AI 모델이 생성한 답변의 근거와 출처를 명확히 표시해 옳지 않은 정보로 일으켜지는 여론의 파장을 예방한다. 이러한 메커니즘을 구축하여 사용자가 결과를 신뢰할 수 있도록 한다. 그러나 '완벽한 AI'라는 착각의 인식을 갖고 지식의 습득을 AI의 의존한다면 인류의 판단 능력은 도태되기 마련이다.
할루시네이션은 AI와 공존하며 살아갈 인류에게 고질적인 문제이자 지속적으로 해결해야 할 과제다. 할루시네이션에 대한 깊은 연구와 이론적 고찰이 반복된다면, 언젠가는 할루시네이션의 '완벽한 해결책'을 제시할 수 있을 것이다. 인류는 지금까지 불가능을 가능으로 바꾸어 왔으며, 앞으로도 미래를 상상하고 실현할 능력을 가진 생명체로서 이 문제를 극복할 것이다.
저작권자 © 밸류체인타임스 무단전재 및 재배포 금지
[밸류체인타임스 = 이아림 칼럼니스트]