오픈AI, 차세대 이미지 생성 모델 '챗GPT 이미지 2.0' 공개…실무 활용도 대폭 강화

사고(thinking) 기반 첫 이미지 모델…한국어 포함 다국어 텍스트 렌더링 성능 향상

[테크수다 기자 도안구 eyeball@techsuda.com] 오픈AI가 차세대 이미지 생성 모델 '챗GPT 이미지 2.0(ChatGPT Images 2.0)'을 22일 공개했다. 이번 모델은 오픈AI 최초로 사고(thinking) 기반 구조를 적용한 이미지 모델로, 단순 이미지 생성 단계를 넘어 실무 제작 도구 수준으로 활용 범위를 넓힌 것이 특징이다. 작은 텍스트와 복잡한 레이아웃까지 정밀하게 구현하고, 한국어를 포함한 다국어 이미지 생성 성능을 대폭 강화했다는 설명이다. 오픈AI는 이를 통해 기획서, 마케팅 소재, 교육 자료 등 실제 업무 결과물을 바로 활용 가능한 형태로 만들 수 있을 것으로 기대하고 있다.

주요 내용:

챗GPT 이미지 2.0은 작은 글자, 아이콘, UI 요소, 촘촘한 레이아웃 등 고난도 영역에서 정밀도를 높였으며, 최대 3:1~1:3의 다양한 화면 비율을 지원한다.
한국어, 일본어, 중국어, 힌디어, 벵골어 등 다국어 텍스트 렌더링 품질을 개선했고, 한 번에 최대 10개의 이미지를 동시 생성할 수 있다.
오픈AI 최초의 사고(thinking) 기반 이미지 모델로, 웹 검색을 통한 정보 탐색과 하나의 프롬프트 기반 복수 이미지 생성, 결과 점검 기능을 지원한다.

챗GPT 이미지 2.0은 사용자의 세부 지시를 정밀하게 반영해 기존 대비 활용도 높은 결과물을 제공한다. 이미지 내 사물의 위치와 관계를 정교하게 구성하며, 작은 글자, 아이콘, UI 요소, 촘촘한 레이아웃, 스타일 제약 등 고난도 영역에서도 향상된 결과를 내놓는다는 설명이다. 또한 최대 3:1에서 1:3까지의 다양한 화면 비율을 지원하고, 사진과 만화, 영화 등 여러 스타일을 정밀하게 재현할 수 있어 실제 제작 환경에서의 활용 범위가 넓어졌다. 이를 통해 기획서와 마케팅 소재, 교육 자료, 인포그래픽, 소셜 콘텐츠 등을 바로 활용 가능한 결과물 형태로 생성할 수 있다.

다국어 성능도 크게 강화됐다. 챗GPT 이미지 2.0은 한국어와 일본어, 중국어, 힌디어, 벵골어 등 다양한 언어에서 텍스트 렌더링 품질을 개선했고, 최대 10개의 이미지를 한 번에 생성할 수 있다. 이에 따라 포스터와 설명 자료, 다이어그램, 만화 등에서 언어를 읽히는 문자로 자연스럽게 구현할 수 있다는 것이 회사 측 설명이다. 특히 이번 모델은 오픈AI 최초의 사고(thinking) 기반 이미지 모델이라는 점에서 업계의 주목을 받고 있다.

챗GPT에서 thinking 또는 pro 모델을 선택할 경우 웹 검색을 통한 정보 탐색, 하나의 프롬프트 기반 복수 이미지 생성, 결과 점검 기능이 지원된다. 챗GPT 이미지 2.0은 챗GPT와 코덱스에서 사용할 수 있으며, 사고 기반의 고급 출력 기능은 챗GPT 플러스(Plus)와 프로(Pro), 비즈니스(Business) 사용자에게 제공된다. 동일한 기반 모델인 'gpt-image-2'는 API를 통해 제공되며, 출력 품질과 해상도에 따라 가격이 달라진다고 회사는 밝혔다. 2K를 초과하는 고해상도 출력은 현재 베타 형태로 제공된다는 설명이다.

챗GPT 이미지 2.0, 이런 점이 궁금하다

Q1. 챗GPT 이미지 2.0이 기존 이미지 생성 모델과 가장 크게 달라진 점은 무엇인가.

A. 오픈AI 최초로 사고(thinking) 기반 구조를 적용한 이미지 모델이라는 점이 핵심이다. 단순히 이미지를 생성하는 데 그치지 않고 웹 검색을 통한 정보 탐색, 하나의 프롬프트 기반 복수 이미지 생성, 결과 재확인 기능을 제공해 검증된 결과물로 구체화하는 과정까지 지원한다.

Q2. 한국어 이미지 생성 품질은 어느 정도 개선됐나.

A. 챗GPT 이미지 2.0은 한국어와 일본어, 중국어, 힌디어, 벵골어 등 다국어 텍스트 렌더링 품질을 개선했다. 이에 따라 포스터와 설명 자료, 다이어그램, 만화 등에서 한국어를 읽히는 문자로 자연스럽게 구현할 수 있으며, 한 번에 최대 10개의 이미지를 동시에 생성할 수 있다.

Q3. 챗GPT 이미지 2.0은 어떤 사용자가 이용할 수 있나.

A. 챗GPT 이미지 2.0은 챗GPT와 코덱스에서 기본적으로 사용할 수 있다. 사고(thinking) 기반의 고급 출력 기능은 챗GPT 플러스, 프로, 비즈니스 사용자에게 제공되며, 동일한 기반 모델인 'gpt-image-2'는 API를 통해 이용할 수 있다. 2K를 초과하는 고해상도 출력은 현재 베타로 제공된다.