RDX 공식블로그

가상 데이터 AI의 미래를 위한 열쇠 본문

Tech.Trend

가상 데이터 AI의 미래를 위한 열쇠

Redesign X(리디자인엑스) 2021. 8. 20. 10:05

AI  모델은 학습한 데이터만큼 훌륭하지만,  합성 데이터는 모델 요구와 데이터 가용성 간의 격차를 해소할 수 있다.

 

(2021.08.13.) 오늘날의 고급 AI 개발은 "쓰레기를 넣으면, 쓰레기가 나온다 (Garbage in, Garbage out)"라는 문구를 포함하여 1950년대 컴퓨터 과학 철학에 여전히 깊이 뿌리를 두고 있다. 이 속담은 AI 모델이 학습된 데이터만큼만 우수하다는 것을 상기시켜준다.

 

 고급 암 검진에서 새 영화 제안에 이르기까지 모든 작업에서 데이터 과학자는 AI 모델을 훈련하기 위해 크고 다양한 데이터셋이 필요하다. 이는 실제 데이터에서 중대한 과제가 될 수 있다. 종종 개인 정보 보호를 위해 보호되는 정통 데이터는 얻기 어려울 수 있으며 소스 비용이 많이 들 수 있고 잠재적으로 원하는 만큼 다양하지 않을 수 있다.

 

 다행히 AI는 가상 데이터셋, 즉 다양하고 익명의 교육 데이터를 충분히 제공할 수 있는 컴퓨터 생성 시뮬레이션으로 스스로 구조할 수 있다. 데이터는 완전히 익명이며, 일반적인 적대적 네트워크나 더 많은 비 AI 절차를 사용하는 시뮬레이터와 같은 다양한 방법을 사용하여 만들 수 있다. AI 개발자는 합성 데이터셋을 사용함으로써 고성능의 강력한 모델을 활용할 수 있다.

 

데이터 중복 제거

 

 개발자는 쉽게 이용할 수 있는 데이터의 한계에 도달하면 모델을 개선하기 위한 곧 다른 곳을 찾아야 한다. 합성 데이터는 컴퓨터 시뮬레이션 또는 알고리즘이 모델 요구와 데이터 가용성 사이의 격차를 채우기 위해 실제 데이터의 대안으로 생성하는 정보이다.

 

 데이터 과학자는 합성 데이터를 생성하는 여러 가지 방법을 가지고 있다. 시뮬레이션과 3D 렌더링은 훌륭한 시작점이다. 예를 들어, 자율주행 자동차는 실제 도로를 주행하기 전에 수천 마일의 가상 도로를 주행하도록 하여 훈련되는 경우가 많다. 새로운 데이터를 생성하는 생성 모델인 일반 적대 네트워크도 데이터 생성에 사용할 수 있다. 덕분에 가상 데이터 수집에 대한 접근성과 효율성이 그 어느 때보다 높아졌다.

 

 애널리스트 회사 가트너 (Gartner)는 최근 합성 데이터가 인공 지능의 미래를 뒷받침하는 주요 원동력이 되기 위한 궤적에 있다고 보고했다. 가트너는 한 연구에서 "합성 데이터는 소규모 조직이 많은 데이터 없이 AI 모델을 생성하여 초기 문제를 효과적으로 해결할 수 있도록 함으로써 경쟁의 장을 민주화합니다."라고 말했다.

 

인공지능의 중요한 요구를 해결하는 인공 데이터

 

 의료, 소매, 엔터테인먼트, 자율주행차, 스마트 스페이스 등을 넘나드는 AI가 미래로 가속화하는 스마트 기기와 기술로 우리 생활에 통합되면서 이미 어디에서나 볼 수 있다.

 

 AI를 디지털 미러로 활용하는 것이 진화의 다음 단계다. 그러나 특정 환경의 변화는 셀 수 없이 많을 수 있다. 셔츠의 색상은 여러 가지 색조와 색조를 가질 수 있다. 방의 조명은 태양의 움직임이나 램프와 조명이 켜짐에 따라 변한다.

 

 복잡한 조건을 포착하는 것은 AI 모델 제작에 있어 다양한 합성 데이터셋이 필수적이다. 가상 데이터를 수집하여 기본 소스에서 데이터를 수집하는 데 필요한 시간 및 비용보다 훨씬 적은 비용으로 디지털 트윈을 구동할 수 있다. 이를 통해 다량의 다양한 데이터에 대한 액세스를 극대화하고 개인 정보 보호 문제로부터 자유로워지는 이점을 얻는다.

 

 또한 가트너는 AI 자산의 중요성을 언급하며 "합성 데이터는 종종 낮은 품질의 대체물로 인식되며, 실제 데이터를 얻기가 불편하거나 비싸거나 규제에 의해 제약될 때만 유용하다고 간주됩니다. 이는 합성 데이터의 진정한 잠재력을 놓치는 것이고, 사실 합성 데이터 없이는 고품질의 고부가가치 AI 모델을 구축할 수 없습니다."라고 말했다.

 

현실의 임의성

 

 AI 모델 구축에는 다양한 교육 데이터셋이 핵심이지만 실제 데이터는 부족할 수 있다. 도메인 무작위화를 위한 내장 기능을 사용하면 로봇 공학 시뮬레이션 애플리케이션 및 합성 데이터 생성 도구인 Nvidia Isaac Sim이 시뮬레이션에서 텍스처, 색상, 조명 및 배치를 무작위로 변경할 수 있다.

 

 자율주행차 테스트를 위한 시뮬레이션 플랫폼인 Nvidia Drive Sim도 마찬가지이다. 그것은 거리 표지판의 크기나 언어, 태양의 위치를 바꿀 수 있는 능력을 가지고 있다.

 

 시뮬레이션에서 안전과 효율성이 우선임을 강조하는 오레일리미디어 (O'Reilly Media) 보고서 '합성 데이터를 이용한 AI 가속 (Accelerating AI with Synthetic Data)'에는 이런 기능이 강조돼 있다. 보고서에 따르면, "합성 데이터를 이용해 해결할 수 있는 일부 문제는 (자율주행 교육 모델의 경우 등) 비용이 너무 많이 들거나 위험할 수 있으며, 그렇지 않으면 해결할 수 없다"고 밝혔다.

 

 보다 정확한 AI 모델을 위한 다양한 합성 훈련 데이터를 만들기 위해서는 조명, 색상, 물체 배치 등 조건 임의화가 필수. 이러한 디지털 세계의 변화는 예상치 못한 것과 예측할 수 없는 것이 주기적으로 발생하는 현실의 변화를 반영한다.

 

 예를 들어 공장에서는 다른 작업자가 동일한 개체를 처리할 때 한 작업자가 처리한 개체가 다른 위치에 있게 될 수 있다. 위치 지정과 같은 환경 조건의 변화는 합성 데이터와 시뮬레이션을 사용하여 실제 공장에서 작업하는 방법을 로봇에게 교육할 때 매우 중요하다. 이러한 능력은 견고한 스마트 공장과 도시의 생산을 가능하게 했다.

 

그래픽과 AI의 중요한 연결 고리

 

 가상도시와 공장을 넘어 3D로 세계를 시뮬레이션하는 것이 AI 모델 훈련의 핵심 구성요소가 되면서 합성 데이터가 컴퓨터 그래픽 분야에서 르네상스의 발판을 마련했다. 3D 세계에서는 물체가 떨어지고, 신체 부위가 구부러지며, 피부는 인간의 움직이는 모든 부분과 매우 흡사하게 질감이 느껴져야 한다.

 

 개인이 가상 세계에 나타날 수 있는 다양한 방법, 자연스러운 신체 변화, 얼굴 특징 및 행동은 합성 데이터의 진정한 힘을 보여준다. 다양한 합성 데이터가 중력 법칙부터 신체 작용, 피부 질감까지 다양한 특징에 있어 가상 세계와 실제 세계 사이의 차이를 정밀하게 메울 수 있다.

 

 인간은 다양한 피부색, 반응 및 표정으로 미디어 프로덕션 및 디지털 복제품에서 표시될 수 있다. 조명 및 물체 위치 지정과 같은 환경 조건은 컴퓨터 그래픽 및 시뮬레이션만큼 중요하기 때문에 디지털 인간은 그 퍼즐들의 한 부분일 뿐이다.

 

 예를 들어, 자율주행 자동차는 해가 하늘에서 낮아 잠재적으로 가시성을 방해할 때 대응할 수 있어야 한다. 합성 데이터는 현실의 진정한 디지털 트윈인 보다 사실적인 가상 환경을 만들어 시뮬레이션 세계를 개선하는 데 도움이 될 수 있다. 물리적으로 정확한 물리적 기반 환경과 인간을 생성하는 것은 매우 어려운 일이며 고급 시뮬레이션, 고성능 컴퓨팅 리소스 및 대량의 데이터가 필요하다.

 

자신만의 미래를 개척하는 AI

 

 인공지능이 합성 데이터를 사용하여 자신을 개선할 수 있는 능력은 AI를 독특하고 강력한 기술로 만든다. 데이터 합성은 고급 모델 및 시뮬레이션을 위한 강력한 훈련 데이터의 품질과 양을 향상시키는 핵심이다.

 

 각각의 AI 혁신 물결은 마지막 단계 위에 구축된다. 합성 데이터의 기회는 기존 AI 응용 분야를 넘어 농업, 자율주행차, 헬스케어, 로봇 등 산업 전반으로 확장될 것이다.

 

 인공지능을 위한 데이터 소스를 개발할 때, "인공""합성"이라는 단어에 단념하게 하지 말자. 데이터가 인위적으로 생성될 수도 있지만, 그 결과는 진정한 성공을 위해 필수적이다. 곧 가상 데이터를 사용하여 효율적이고 정확하게 구축된 믿을 수 없을 정도로 정확한 디지털 미러가 존재할 것이다.

 

[출처] https://www.eetasia.com/synthetic-data-key-to-the-future-of-ai/

 

Synthetic Data: Key to the Future of AI - EE Times Asia

An AI model is only as good as the data it's trained on, but synthetic data can bridge the gap between model needs and data availability.

www.eetasia.com

 

Editor Song

Comments