본문 바로가기
반응형

생성형AI4

오픈AI, GPT‑4o 이미지 생성 기능 공개…텍스트 기반 고정밀 시각 출력 지원 오픈AI가 GPT‑4o에 텍스트 기반 고정밀 이미지 생성 기능을 기본 탑재하며 생성형AI 활용 범위를 확장했다. 현지시간 지난 25일, 오픈AI는 자사 멀티모달 모델 GPT‑4o에 이미지 생성 기능을 공식 도입했다고 밝혔다. 이번 기능은 텍스트 프롬프트를 기반으로 사실적이고 유용한 이미지를 정밀하게 생성할 수 있도록 설계됐다. 오픈AI는 언어 모델에 이미지 생성 기능이 필수라고 판단하고, GPT‑4o에 고도화된 생성기를 통합했다. 이를 통해 단순한 장식용 이미지를 넘어 정보 전달, 분석, 소통 등 실질적인 목적을 위한 이미지 생성이 가능해졌다고 밝혔다. GPT‑4o는 텍스트와 이미지를 동시에 처리하며, 사용자 입력을 정확히 반영해 다양한 스타일의 시각 콘텐츠를 만들어낸다.  특히 텍스트 내 기호와 시각 .. 2025. 3. 26.
구글 CEO 선다르 피차이 “AI 개발 둔화… 더 큰 돌파구 필요” 구글 CEO 선다르 피차이(Sundar Pichai)가 AI 기술 발전 속도가 둔화되고 있으며 앞으로 더 큰 기술적 돌파구가 필요할 것이라고 언급했다. 현지시간 지난 4일 구글 CEO 선다르 피차이는 ‘뉴욕 타임즈 딜북 서밋(The New York Times DealBook Summit)’에서 현재 생성형 AI 기술의 발전이 점차 어려워지고 있다고 말헀다. 그는 “2025년을 보면 이미 쉬운 성과들은 사라졌다”며 “개발 난이도가 어려워지고 다음 단계로 가기 위해서는 더 깊은 돌파구가 필요할 것이다”고 설명했다. 피차이는 챗GPT, 구글의 제미나이(Gemini), 메타의 라마(Llama)와 같은 현재의 언어 모델이 점진적으로 개선될 것이라고 전망했다. 특히 “추론화 과정에서 더 안정적으로 작업을 수행하는 .. 2024. 12. 11.
새로운 AI 모델 ‘MultiFoley’ 연구 중 무음 영상에 고품질의 소리를 추가할 수 있는 기술적 가능성을 제시한 새로운 AI 기반 사운드 생성 모델 ‘MultiFoley’의 연구가 발표됐다. 현지시간 지난달 26일 오픈 엑세스 논문 저장소 ‘아카이브(arXiv)’에 ‘MultiFoley’라는 AI 모델 연구 자료가 발표됐다. 이 모델은 무음 영상에 적합한 고품질 소리를 자동으로 생성할 수 있는 기술이다. MultiFoley는 텍스트, 오디오, 비디오 등 다양한 입력 데이터를 활용해 특정 상황에 적합한 소리를 생성한다. 예를 들어, 스케이트보드의 바퀴 소리만을 생성하거나 사자의 울음소리를 고양이의 울음소리로 변환하는 등 창의적인 사운드 디자인을 지원한다. 이 모델은 인터넷 비디오 데이터셋과 전문 사운드 효과(SFX) 데이터를 함께 학습해 최대 48k.. 2024. 12. 1.
런웨이, AI 기반 영상 생성 모델 'Gen-3' 출시 AI 기반 영상 제작 플랫폼 '런웨이(Runway)'가 'Gen-3 알파' 모델을 업데이트하며 기존 기능을 대폭 강화했다고 밝혔다. 지난달 22일 런웨이는 'Gen-3 알파' 모델에 새로운 카메라 조작 기능을 추가해 영상 제작의 가능성을 한층 확장했다. 이번 업데이트를 통해 사용자는 텍스트 입력만으로 카메라의 줌, 패닝, 틸트 등 세밀한 움직임을 조정할 수 있게 됐다.  이를 통해 더욱 사실적이고 몰입감 있는 장면 연출이 가능해졌으며, 해당 기능은 10월 발표와 동시에 모든 사용자에게 적용됐다. 런웨이 관계자는 "Gen-3는 AI 기반 영상 제작의 새로운 표준을 제시하는 제품"이라며 "영상 제작의 패러다임을 바꾸는 도구로 자리잡을 것"이라고 밝혔다. 한편 지난 6월 출시된 'Gen-3 알파'는 최대 72.. 2024. 11. 14.
반응형