728x90
반응형
이 IT 뉴스 영상은 최신 AI 기술 동향을 빠르게 훑어볼 수 있도록 구성되었습니다. 오픈AI의 음성 모델및 o1-Pro API공개부터, GTC 2025, 휴머노이드근황, UAE 스타게이트투자, 안무 생성, LG 엑사원 딥, 바이브 코딩등 다양한 주제를 다룹니다. 특히, 오픈AI의 새로운 음성 모델은 한국어 오류율을 낮추고 다양한 감정 표현을 가능하게 하여 AI 음성 기술의 발전을 보여줍니다. 또한, 구글의 보안 기업 인수와 같은 IT 업계의 주요 이슈를 통해 기술 트렌드를 파악할 수 있습니다. 이 영상은 AI 기술의 현재와 미래를 조망하며, IT 업계 종사자뿐만 아니라 AI 기술에 관심 있는 일반 시청자에게도 유익한 정보를 제공합니다.
반응형
1. 📰 최신 IT 뉴스: 젠슨 황과 퍼플렉시티의 움직임 [00:00:00] (15분)
- 엔비디아 CEO 젠슨 황은 과거 데니스 패스트푸드점의 디시워셔 경력을 통해 엔비디아 창업 아이디어를 얻었다고 한다.
- 퍼플렉시티라는 미국 검색 AI 스타트업이 틱톡 인수를 추진 중이며, 이정재가 출연하는 광고를 통해 경쟁사인 구글을 겨냥하고 있다.
- 구글이 보안업체인 위즈를 46조 원 규모로 인수하여 클라우드 보안을 강화하려는 움직임을 보이고 있다.
- 위즈는 사이버 보안 솔루션을 제공하며, 기업의 보안 위험을 해결하는 데 기여하고 있다고 한다.
- 비록 보안 분야에 대한 깊이 있는 이해는 부족하지만, 구글의 최대 규모 인수로 인해 보안에 대한 관심이 증가하고 있다.
1.1. 라이브 방송 인사 및 업데이트 소개 [00:00:00] (1분)
- 1만 팔로워 달성을 축하하며 시청자에게 인사한다.
- 방송 시간이 6시 5분이 되었으며, 진행량이 많아 시간이 오버될 가능성이 있다고 언급한다.
- 다수의 시청자에게 안부 인사를 전하며 친근감을 표한다.
- 11랩스의 음성 관련 업데이트가 많아 이를 후속으로 소개할 예정이라고 알린다.
1.2. ️ 오픈AI 음성 업데이트 소개 [00:01:33] (41초)
- 최근 오픈AI를 포함한 주요 기업들이 음성 관련 업데이트를 진행하고 있다.
- 후원 관련하여, 특정 사용자의 아이디를 기억한 후 실습을 통해 감사 인사 음성을 제작할 계획이다.
- 본 방송은 다소 늦어졌지만, 신속하게 진행될 예정이다.
- 참가자들의 응원과 후원이 방송에 긍정적인 영향을 미치고 있다.
- 방송 진행자들이 서로 인사를 나누며 편안한 분위기를 조성하고 있다.
1.3. IT 기업 행사 증가 예상 [00:02:15] (1분)
- 4월과 5월에는 다양한 IT 기업 행사들이 더욱 많아질 것으로 보인다.
- 엔비디아를 포함해 구글, 메타, 마이크로소프트 등의 주요 기업들이 행사에 참여할 예정이다.
- 채팅에서 자주 소통하는 팬들과의 직접 만남이 특히 반가운 경험으로 언급되었다.
1.4. 젠슨 황의 패스트푸드 경력과 엔비디아 창립 [00:03:19] (3분)
- 엔비디아 CEO인 젠슨 황이 GTC 행사에서 패스트푸드점 데니스의 앞치마를 두르고 등장한 장면이 공개되었다.
- 젠슨 황의 직전 경력은 데니스의 DC워셔로, 이곳에서 5년간 일한 후 엔비디아를 창립한 것으로 알려졌다.
- 그는 1993년 실리콘밸리의 데니스에서 친구들과 만나 3D 그래픽용 칩 제작에 관한 사업 아이디어를 구상한 것으로 추정된다.
- 젠슨 황은 15살 때 데니스에서 아르바이트를 시작했으며, 이 경험이 그의 성공에 기여했을 것으로 보인다.
- 데니스에서의 아르바이트 경험이 그가 엔비디아를 창립한 것과 연결되어 있어 효율적 사고가 돋보이는 사례로 평가된다.
1.5. 퍼플렉시티의 틱톡 인수 및 광고 전략 [00:06:57] (4분)
- 퍼플렉시티는 틱톡 인수를 추진 중이며, 이를 21일 공식 블로그를 통해 공개하였다.
- 틱톡 인수 후보 중 하나로, 미스터비스트와 같은 다른 회사들과 경쟁하고 있다.
- 광고에서 이정재를 출연시켜 경쟁사를 저격하는 내용을 선보였으며, "Answer three questions"라는 형식으로 진행된다.
- 퍼플렉시티의 광고는 구글 검색의 단점을 조롱하며, 이를 통해 자사의 우수성을 강조하고 있다.
- 광고 마지막에 이정재가 M2상을 수상한 사실을 언급하여, 브랜드의 아이덴티티를 구축하였다.
1.6. ️ 구글의 보안기업 위즈 인수 소식 [00:11:14] (15초)
- 구글이 보안기업 위즈를 인수했으며, 인수 규모는 46조원으로 사상 최대이다.
- 위즈는 구글 클라우드에 합류하여, 클라우드 보안과 멀티 클라우드 역량 강화를 목표로 하고 있다.
- 구글은 이미 보안 분야에서 강점을 가지고 있지만, 위즈 인수로 보안 솔루션을 더욱 강화하려는 것으로 추정된다.
- 위즈는 기업의 보안 위험을 해결하는 사이버 보안 솔루션을 제공하는 기업이다.
- 이번 인수로 인해 보안 업계에 대한 관심이 급증하고 있는 상황이다.
2. 🎤 오픈AI 차세대 음성 모델과 O1 Pro API 출시 [00:15:10] (18분)
- 오픈AI가 차세대 음성 모델을 출시하여 한국어 오류율이 낮아졌고, 개발자들은 API를 통해 보다 세부적으로 음성 톤을 조절할 수 있게 되었다.
- 새로운 모델에서는 목소리와 감정을 프롬프트를 통해 지정할 수 있으며, 예시로 부산 국밥집 욕쟁이 할머니 목소리 등을 체험할 수 있다.
- 새로운 트랜스크라이브 기능인 GPT-4O가 발표되어, 이전의 위스퍼모델보다 오류율이 더 낮아지고 여러 언어에 대한 처리 성능이 개선되었다.
- O1 Pro API는 기존 프로 모드의 성능을 유지하면서도 가격이 인풋 150달러, 아웃풋 600달러로 설정되어, 과거 OpenAI API와 비교할 때 상대적으로 매우 비쌉니다.
- TTS 모델은 가격 측면에서 11랩스보다 85% 저렴하게 출시되었으며, 사용자는 API를 통해 새로운 음성 모델과 기능을 직접 활용할 수 있다.
2.1. ️ 오픈AI의 차세대 음성 모델 출시 [00:15:10] (3분)
- 오픈AI는 차세대 음성 모델을 출시했으며, 한국어의 오류율이 낮다고 소개되었다.
- 개발자들에게 유용한 API를 통해 음성 모델을 사용할 수 있게 하여, 음성 스타트업에 도움이 될 것으로 보인다.
- 새로운 API는 사용자가 음성 톤 등을 세부적으로 조절할 수 있게 해주며 , 시스템 프롬프트를 입력하여 다양한 목소리를 선택할 수 있는 기능을 제공한다.
- 예를 들어, '부산 국밥집 욕쟁이 할머니'라는 특색 있는 목소리로 대화가 가능하며, 이는 직접 체험할 수 있다.
- 재미있는 멘트를 추가하는 것도 가능하여, 사용자가 원하는 방식으로 음성을 변경하고 활용할 수 있다.
2.2. 차세대 음성 모델 소개 [00:19:03] (4분)
- 새로운 음성 모델은 감정 조절과 같은 세부 설정이 가능하며, 이를 통해 더욱 세밀한 목소리 조정이 가능해졌다.
- 예를 들어, 로봇의 목소리 톤과 감정을 구체적으로 설정할 수 있으며, 스크립트의 프롬프트를 통해 다양한 스타일의 음성을 생성할 수 있다.
- 여러 상황에 맞는 목소리를 만드는 데 활용될 수 있으며, 게임 캐릭터와 같은 다양한 캐릭터에 맞춰 커스터마이징 가능한 점이 강조된다.
- 이 음성 모델은 스토리텔링과 같은 다양한 콘텐츠에 적용 가능하여, 사용자가 원하는 분위기에 맞는 목소리를 만들 수 있도록 지원한다.
2.3. ️ GPT-4O Transcribe 기능과 TTS 모델 공개 [00:23:56] (4분)
- GPT-4O Transcribe는 위스퍼 모델을 기반으로 하여 소리를 텍스트로 변환하는 새로운 기능이다. 이 모델은 이전보다 더 정확한 성능을 발휘한다고 한다.
- 기존의 위스퍼모델에 비해 단어 오류 비율(에러레이트)이 낮아졌으며, 한국어의 경우 4.07%의 에러레이트를 기록하여 이전의 위스퍼보다 개선되었다.
- 새로운 모델은 다국어 처리에서도 뛰어난 성능을 보여줌으로써, 다양한 언어의 소리를 자막으로 변환하는 데 강점을 지닌다.
- 한국어, 영어 등 특정 언어에 대한 개발이 중점적으로 이루어졌으며, 그 결과 한국어 성능도 1% 가량 향상되었다.
- OpenAI는 새로운 TTS 모델도 출시했으며, 기술을 활용해 창의적인 사용법을 공유한 참가자들에게 경품을 제공하는 이벤트를 진행한다고 밝혔다.
2.4. 오픈AI의 가격 구조 [00:28:14] (4분)
- 오픈AI의 GPT-4 미니 TTS 모델은 오디오 분당 0.015달러로, 11랩스보다 85% 저렴하다고 알려져 있다.
- 인풋 가격은 2.5달러, 아웃풋 가격은 10달러로 설정되어 있으며, 미니 모델은 인풋 기준 1.25달러, 아웃풋 기준 5달러다.
- 트랜스크라이브 기능은 자막을 생성하며, 그 가격은 낮은 편이다.
- 11랩스의 가격과 비교하기 쉽지 않지만, 오픈AI솔루션이 더 저렴하게 제공되는 경향이 있다.
- 전체적으로 오픈AI의 서비스는 비용 효율성을 중시하여 출시된 것으로 추정된다.
2.5. 오픈AI O1 Pro API 출시 및 가격 분석 [00:32:22] (1분)
- O1 Pro API는 오픈AI에서 출시된 가장 비싼 API로, 프로 결제 사용자만 사용할 수 있는 추론 모드를 포함하고 있다.
- 이 API의 가격은 인풋이 150달러, 아웃풋이 600달러로 설정되어 있어 역대급으로 비쌉니다.
- 다른 오픈AIAPI와 비교했을 때, 예를 들어 5원 기준의 인풋 가격은 15달러, 아웃풋 가격은 60달러로 10분의 1 가격에 해당한다.
- O1 Pro API는 기존 API보다 10배 비싼 가격을 자랑하며, 추론 시간이 긴 특징을 가지고 있다.
- 전체적으로 O1 Pro API는 그 비용에 비해 제공되는 서비스의 고급성과 성능을 고려할 때, 시장에서 높은 가격을 지속적으로 유지할 것으로 보인다.
3. 💻 오픈AI API와 최근 AI 기능의 개선 [00:34:07] (19분)
- 오픈AI의 API 출시가 안내되었고, 이 API는 추론이 많이 필요한 작업에서 사용할 수 있는 가능성을 지닌다.
- 비트코인 투자 자동화에 사용하기에는 비용이 비싸다, 하지만 무료 이벤트가 진행 중이므로 무료 기간에 활용해 볼 필요가 있다.
- 오픈AIAPI의 초기 반응은 미온적이며, 사용자들은 간단한 문제 해결에도 어려움을 겪고 있다는 보고가 있다.
- 구글의 재미나 2.0 멀티모달기능을 통해 이미지 생성 및 변형이 가능하며, 특히 물을 지우는 기능이 주목받고 있다.
- 그러나 이런 기능이 악용될 가능성이 있어, 저작권 문제와 관련한 논란이 제기되고 있다.
3.1. ️ 오픈AI의 신규 API와 무료 이벤트 정보 [00:34:07] (3분)
- 오픈AI의 신규 모델이 출시되었으며, API를 통해 다양한 작업에 활용할 수 있는 가능성이 있다.
- 비트코인 투자 자동화에는 비용이 너무 비쌀 수 있지만, 무료 기간 동안 사용해 볼 의향이 있다.
- 현재 오픈AI에서 진행 중인 1백만 토큰 무료 이벤트가 있으며, 이를 통해 무료로 사용할 수 있는 기회를 제공받을 수 있다.
- 그러나 새로운 모델에 대한 초기 반응은 미온적이며, 사용자들은 간단한 작업에도 어려움을 겪고 있다.
- 구글의 재미나 2.0 멀티모달기술에는 이미지 생성및 변형 기능이 포함되어 있으며, 특정 이미지에서 워터마크 제거가 가능하다는 점이 논란이 될 수 있다.
3.2. 이미지 편집 기술의 발전 [00:37:58] (7분)
- 유튜브 썸네일을 사람의 표정을 강조하는 등 다양한 방식으로 수정할 수 있어 활용도가 높다.
- 애니메이션용 이미지를 GIF로 만들어 움직이는 장면을 제작할 수 있는 가능성이 있다.
- 제품 사진을 자동으로 전문적으로 수정할 수 있는 능력이 신기하다는 의견이 있다.
- 구글의 이미지 수정 기능이 워터마크를 제거할 수 있어 논란을 일으키고 있으며, 저작권 문제와 관련된 우려가 있다.
- 그록에서도 이미지 수정 기능이 추가되어 사용자가 원하는 스타일로 이미지를 바꿀 수 있어, 이 역시 폭넓게 활용될 수 있다.
3.3. 성형과 이미지 변화 시연 [00:45:49] (4분)
- 양악 수술을 통해 얼굴이 어떻게 변화하는지를 그려줘 라는 요청을 통해 이해할 수 있다.
- 성형수술의 결과에 대해 자연스러운 형태의 예시를 보여주며, 남자 턱의 이상적인 형태에 대한 의견이 제기된다.
- 다양한 피어싱 형태와 스타일을 추가하여 얼굴 이미지가 바뀌는 과정을 나타내었고, 이 과정에서 자연스러운 변화가 중요해 보인다.
- 특정 모델(차은우)를 예시로 들어 연예인 얼굴에 대한 변화 과정을 실험해보았고, 성공률이 어느 정도 변동성이 있음을 알게 되었다.
- 결국, 여러 번의 시도가 필요하며, 얼굴 이미지의 변화는 머리 스타일과 자연스럽게 어우러질 수 있다.
3.4. ️ XAI 이미지 및 비디오 생성 API 출시 [00:50:45] (3분)
- XAI가 이미지 생성API를 출시하였으며, 이는 필터가 없는 특징을 가지고 있다. 그래서 사용자가 요청할 경우 유명인의 얼굴을 즉시 생성할 수 있다.
- 이미지 생성 API는 이미지 아웃풋만 지원하며, 이미지 인풋은 지원하지 않는 것으로 보인다.
- XAI는 동영상 생성 AI 스타트업인 핫샷을 인수하였고, 이로 인해 비디오 모델이 출시될 예정이라고 한다.
- 기능적으로 유명인의 필터가 없어 다양한 영상을 생성할 수 있는 가능성이 커졌으며, 이는 품질에도 긍정적인 영향을 미칠 것으로 추정된다.
- XAI는 플럭스와 협력하여 이미지 생성방식을 개선했으며, 자체 이미지 모델을 추가한 것으로 보인다.
4. 🎤 오픈AI와 구글의 음성 생성 기술 업데이트 [00:54:07] (27분)
- 오픈AI가 음성 생성 API를 출시하며, 구글 또한 멀티링구얼 네이티브 오디오 출력을 공개했다. 이를 통해 다양한 언어로 자연스러운 음성 생성이 가능해진다.
- 새로운 Gemini 2.0 모델은 사용자가 음성과 말투를 지정할 수 있는 기능을 제공하여, 단순한 TTS 시스템을 넘어서 더욱 자연스러운 음성을 생성할 수 있다.
- 이 기술은 일상적인 대화뿐 아니라, 날씨와 같은 정보 전달 시에도 감정을 담아 표현하는 것을 가능하게 하여, 더 표현력 있는 결과물을 생성할 수 있다.
- 한국어의 경우, 자연스럽지 못한 점이 아쉬움으로 지적되었으나, 여전히 다양한 언어로의 전환이 가능하다는 점은 장점으로 작용한다.
- 구글은 AI 아바타기능을 통해 음성에 감정을 담은 경험을 제공하며, 다양한 목소리와 감정을 조절하여 아바타를 제작하는 새로운 가능성을 열었다.
4.1. 오픈AI 음성 생성 API와 멀티링구얼 오디오 출력 [00:54:07] (3분)
- 오픈AI는 음성 생성 API를 출시하였고, 구글도 유사한 기능을 공개하였다고 한다.
- 구글의 Gemini 2.0은 멀티링구얼 네이티브 오디오 출력을 도입하여 사용자는 음성을 생성할 수 있다고 설명된다.
- 네이티브 오디오는 전통적인 TTS 시스템과 다르며, 사용자가 AI에게 어떻게 말할지 뿐만이 아니라 어떻게 말할지를 지정할 수 있다는 장점이 있다.
- 예를 들어, 사용자가 강조해야 할 부분을 지정하여 발음의 자연스러움을 향상시킬 수 있다고 주장된다.
- 한국어 지원 여부에 대한 실험도 진행되었으며, 오픈AI와 유사하게 한국어에서도 자연스러운 전환이 가능하다고 보고된다.
4.2. AI 음성 표현의 다양성 [00:57:37] (9분)
- AI 에이전트는 날씨를 다르게 전달할 수 있으며, 예를 들어 맑은 날에는 "오늘의 날씨는 74도이며 하루 종일 맑습니다"와 같은 표현을 사용할 수 있다.
- 비 오는 날에는 언어가 달라져 "오늘의 날씨는 좀 별로예요"와 같은 식으로 전달될 수 있다.
- 현재의 TTS 기술은 매우 발전하여 자연스러운 음성을 제공할 수 있다는 점에서 긍정적으로 평가되며, API 수준에서도 활용이 가능하다.
- AI의 음성 변환 기술은 다양한 캐릭터 목소리를 생성할 수 있으나, 한국어 음성의 품질에 대해서는 아쉬운 점이 존재한다.
- 언어 필터링이 있어 특정 나이나 캐릭터의 목소리에 제한이 있을 수 있으며, AI 기술이 실제 영상 제작과 연기에 유용하게 사용될 가능성이 있다.
4.3. AI 아바타 제작을 위한 새로운 기능 소개 [01:06:42] (2분)
- 헤이젠은 AI 아바타제작을 위한 디렉터 모드 아바타를 공개하였다.
- 아바타에 목소리를 입힐 때, 특정한 효과인 위스퍼링을 사용하면 매우 작은 소리로 표현할 수 있다.
- 목소리에 감정을 담기 위한 다양한 옵션들이 있으며, 예를 들어, 감정 표현으로 Very Excited를 지정할 수 있다.
- 오픈AI와 함께 다양한 감정을 활용할 수 있는 API가 제공됨으로써, 아바타 제작에 유용한 활용이 가능할 것으로 보인다.
4.4. ️ 구글의 AI 기능 업데이트 [01:09:07] (4분)
- 구글은 AI 기능을 서로 가져오는 방식으로 업데이트를 진행하고 있으며, 이는 오픈 AI와 클로드의 캔버스 기능을 모방한 것이다.
- 새로운 대화형 코딩 툴이 추가되었으며, 사용자는 코드 기능을 통해 다양한 작업을 수행할 수 있다.
- 데모를 통해 사용자는 HTML로 테트리스 게임을 쉽게 생성할 수 있으며, 코드와 미리 보기 기능이 통합된 형태로 제공된다.
- 구글의 오디오 기능은 히트작 노트북 LM에서 발전된 기능으로, 팟캐스트 AI를 위한 도구로도 활용할 수 있다.
- AI 기업들이 서로 비슷한 기능을 지속적으로 모방하고 있으며, 이로 인해 기능 압축 현상이 발생하고 있다.
4.5. ️ 구글 재미나이의 AI 팟캐스트 기능 추가 [01:14:01] (2분)
- 구글 재미나이의 딥 리서치에 AI 팟캐스트 기능이 추가되었다.
- 딥 리서치는 여러 출처를 조사하여 레포트를 작성하는 기능을 갖춘 제품이다.
- 핀테크 스타트업과의 미팅을 위한 산업 트렌드 조사를 지원하며, VC와 협력하여 보고서를 제공한다.
- AI는 단순히 자료를 읽어주는 것이 아니라, 토의를 통해 정보를 전달하여 이해도를 높인다.
- 이러한 추가 기능으로 정보 전달 방식이 보다 효율적으로 개선되었다.
4.6. 구글 음성 모델 및 노트북 LM 업데이트 [01:16:12] (4분)
- 구글이 개발자 플랫폼에 음성 모델인 CHURP3를 추가했으나, 사용자는 아직 실사용 경험이 부족하다고 언급된다.
- CHURP3의 음성 합성품질이 다소 어색하다고 느끼지만, 세사미 AI와의 비교를 통해 품질을 검토할 필요가 있다고 강조된다.
- 구글 노트북 LM에 마인드맵스 기능이 추가되어, 사용자가 자료를 세부 주제로 나누어 정리하고 아이디어를 구조화할 수 있게 되었다.
- 마인드맵기능은 자료가 방대할 때 정리를 돕고, 구조화된 생각을 도출하는 데 유용하다고 한다.
- 쿠타이에서 모시비스라는 AI 기술로 오디오 생성 모델을 오픈 소스로 공개해, 관련된 여러 샘플도 소개된다.
5. 🤖 오픈소스 AI 모델의 혁신과 활용 가능성 [01:21:07] (31분)
- 실시간 소통이 가능한 AI 모델이 이미지 인식 기능을 갖추고 있어 효율적인 상호작용이 가능하다.
- 오픈소스로 공개되어 상업적 사용이 가능하며, 모델 웨이츠와 라이센스 정보가 제공된다.
- M4 프로칩에서 7ms의 빠른 속도로 작동하여 거의 실시간 소통을 실현하는 가벼운 AI 모델이다.
- 로블록스에서 오픈소스로 출시한 3D 생성 AI 모델이 게임 제작에 효과적일 것으로 보이며, 다양한 3D 에셋을 즉석에서 생성할 수 있다.
- 스테빌리티 AI의 새로운 기술이 3D 변환 및 다양한 비디오 효과를 추가하는 기능을 제공하지만 비상업적 라이센스여서 활용에 제약이 있다.
5.1. AI 모델의 이미지 인식 기능 [01:21:07] (2분)
- AI 모델이 거의 실시간 대화가 가능하며, 이미지 인식 기능도 포함되어 있다.
- 이미지 업로드 후, 얼굴 특징을 인식할 수 없기 때문에 특정 인물을 식별하지 못하는 경우가 있다.
- 테스트 과정에서 사용한 이미지에 대한 설명은 무영상일 수 있으며, 예를 들어 유튜버 조코딩이라는 이름만 언급되었다.
- AI가 인식한 인물에 대한 정보는 정확하지 않거나 모호할 수 있으며, 실시간 소통이 가능하지만 이미지 인식의 정확도는 한계가 있는 것으로 보인다.
- 여러 예시를 통해 AI의 솔직한 반응과 함께 이미지 인식의 결과가 어떤 방식으로 제공되는지 보여주었다.
5.2. ️ 오픈 소스로 공개된 음성 모델의 특징 [01:23:09] (3분)
- 새로운 음성 모델이 자연스러운 표현을 가능하게 하며, 이전 모델보다 향상된 성능을 자랑한다.
- 이 모델은 오픈소스로 공개되었고, 상업적 사용이 가능하다는 점이 큰 장점이다.
- 모델의 파라미터 수는 약 2억으로 적은 편이며, M4 프로칩에서 7ms의 추론 시간을 기록하여 거의 실시간 소통이 가능하다.
- 실제 사용 시, 음성 관련 스타트업에 적합한 시점이라는 점에서 다양한 재밌는 API나 모델들이 개발되고 있다는 긍정적인 전망이 있다.
- 모델은 Fully Open Source로 제공되므로 누구나 쉽게 다운받아 실험해볼 수 있다.
5.3. 로블록스의 3D 그래픽 생성 AI 모델 공개 [01:27:01](2분)
- 로블록스에서 3D 그래픽 생성 AI 모델을 오픈소스로 출시했다.
- 이 AI 모델은 퀄리티가 우수하며, 게임 제작에 유용하게 활용될 수 있다.
- 사용자는 간단한 설명만으로도 게임 내 3D 오브젝트를 즉시 생성할 수 있어 제작이 편리하다.
- 예를 들어, "골드 헬리콥터"라는 설명을 입력하면 게임 내에서 즉시 황금 헬리콥터가 생성된다.
- 다른 플랫폼에서도 사용할 수 있도록 별도의 오픈 소스 버전도 출시되었다.
5.4. ️ 스테빌리티 AI의 3D 변환 AI 모델 출시 [01:29:15] (1분)
- 스테빌리티 AI에서 사진을 3D로 변환하는 AI 모델을 출시했다.
- 해당 모델은 가상 카메라와 3D 카메라 제어를 통해 멀티뷰 비디오를 생성하는 기술을 공개했다.
- 이 회사는 과거에는 스테이블 디퓨전으로 유명했으나, 최근에는 플럭스도 많이 사용되고 있다.
- 변환된 이미지에서 줌 아웃, 거울 이미지 등의 다양한 효과를 적용할 수 있으며, 360도 회전이 가능하다.
- 그러나 모델은 비상업적 라이센스 하에 공개되어 연구용에만 사용할 수 있다.
5.5. 최신 AI 댄스 및 영상 생성 기술 [01:31:14] (7분)
- 리캠 마스터 기술을 통해 특정 뷰에서 다른 각도의 영상을 생성할 수 있어, 타이타닉 장면과 같은 다양한 각도를 안정적으로 제공한다.
- LHM 기술은 Alibab 그룹에서 개발한 기능으로, AI가 전신 이미지를 3D 인간 애니메이션으로 변환하는 기능을 제공한다.
- 뮤직 인퓨저는 영상을 음악에 맞춰 춤추게 하는 기능으로, 과거와 비교해 더욱 발전된 기술을 보여준다.
- AI 기반의 안무 생성기술은 안무가의 일자리를 위협할 수 있으며, 이는 앞으로 더 발전할 가능성이 있다.
- 오픈소스로 공개된 다양한 기술들은 사용자들이 직접 활용해 볼 수 있는 기회를 제공한다.
5.6. 모션 스트리밍 및 오디오 생성 기술 [01:38:44] (10분)
- 모션 스트리머는 디퓨전 모델을 기반으로 동작을 실시간으로 생성하고 스트리밍할 수 있는 기술이다. 이 기술은 예를 들어 "A man crawls forward like a zombie" 와 같은 명령어를 입력하면 즉각적으로 좀비가 기어가는 동작을 나타낸다.
- 사용자는 텍스트 명령을 통해 다양한 동작의 생성이 가능하며, 게임이나 로봇 기술 등에 적용할 수 있다. 예를 들어 "A person is dancing"이라고 하면 즉석에서 춤추는 장면이 생성된다.
- 오디오 X라는 새로운 기술은 다양한 소리와 음악을 생성하는 기능을 가지고 있으며, 예를 들어 "cat meowing twice"라는 명령어로 고양이 소리를 바로 생성할 수 있다.
- 이 기술은 비디오에서 오디오를 생성하는 기능도 지원해, 입력된 영상에 적합한 소리를 즉각적으로 만들어낼 수 있다.
- 더불어 오디오 인페인팅 기술이 가능하여, 빈 구간의 소리를 자연스럽게 채워넣는 것이 가능하다.
5.7. ️ 이미지 및 비디오 관련 기술 공개 [01:49:16] (3분)
- 복해 디퓨전 기술이 도입되어 이미지의 배경을 자연스럽게 흐리게 만들 수 있으며, 조절 기능도 제공된다.
- 피칼렙스에서 공개한 새로운 기술은 비디오 속의 특정 캐릭터나 객체를 조작할 수 있어, 나머지 영상은 unchanged 상태를 유지한다.
- 사용자들은 이를 통해 자동차나 사과와 같은 특정 객체를 강조하거나 특수 효과를 추가하는 것을 가능하게 할 수 있다.
- 영상의 구도를 유지하며 잡지에서 튀어나오는 이미지나, 특정 인물의 춤을 구현하는 등의 다양한 활용 사례를 보여줄 수 있다.
- 이러한 기술들은 영화 제작에 효과적으로 사용될 것으로 보이며, 피규어와 같은 특정 객체를 움직이는 등의 기획이 가능하다.
6. 🤖 엔비디아 GTC와 로봇 기술의 최신 발전 [01:52:45] (48분)
- 엔비디아 GTC 행사에서는 차세대 AI 칩인 블랙웰 칩과 루빈, 파인만 GPU의 출시 계획이 발표되었으며, 2028년까지 신규 GPU를 지속적으로 출시하겠다고 밝혔다.
- 휴머노이드용 오픈소스 모델인 아이작 그루트 N1이 공개되어 다양한 작업에 대한 사전 훈련과 추가 학습이 가능하다고 선언되었다.
- 보스턴 다이나믹스의 로봇은 새로운 영상에서 뛰어다니며 복잡한 동작을 수행하는 모습을 보여주었고, 광고 제작에서도 활용될 가능성이 제시되었다.
- 테슬라의 옵티머스 로봇은 대규모 생산을 목표로 하고 있으며, 연내 5천 대 생산, 내년에 5만 대 생산할 계획이라고 발표하였다.
- 엔진 AI는 댄스하는 로봇을 선보이며, 로봇이 예술 분야에서도 활발히 활동할 날이 멀지 않았음을 시사하였다.
6.1. 엔비디아 GTC 2025 및 AI 기술 공개 [01:52:45] (5분)
- 엔비디아 GTC 행사에서 루빈, 울트라, 파인만이라는 차세대 AI 칩과 GPU에 대한 미래 계획이 공개되었다. 이 계획은 2028년까지 신규 GPU를 지속 출시하겠다는 내용을 담고 있다.
- 내년 하반기에는 HBM4를 탑재한 루빈 시리즈가 출시될 예정이며, 현재의 블랙웰 칩도 공급이 어려운 상황이다.
- 엔비디아 DGX 스파크가 예약 가능 상태로 출시되었으며, 블랙웰 슈퍼칩이 탑재되어 AI 연구에 유용할 것으로 예상된다.
- DGX 스파크는 128GB의 통합 메모리를 갖추고 있어 AI 연구용으로 적합하나, HBM 메모리는 탑재되어 있지 않아 상대적으로 느릴 것으로 추정된다.
- 이 제품은 가격 대비 우수한 AI 연산 성능을 제공할 것으로 보이며, 이동이 용이하여 다양한 장소에서 AI 연구와 서빙이 가능하다.
6.2. 휴머노이드 로봇 아이작 그루트 N1의 공개 및 활용 [01:58:29] (5분)
- 아이작 그루트 N1은 휴머노이드훈련을 위해 오픈소스로 공개된 범용 파운데이션 모델이다.
- 이 모델은 다양한 작업을 수행할 수 있도록 사전 훈련된 상태로 제공되며, 특정 목적에 맞춰 추가 학습이 가능하다.
- 원엑스와 엔비디아가 협업하여 네오 로봇을 아이작 그루트 N1 기반으로 추가 훈련했고, 이 로봇의 데모에서는 설거지 등의 작업을 수행하는 모습이 나타났다.
- 엔비디아의 모델을 사용한 네오 로봇은 GTC 행사장에서 직접 청소 시연을 하였으며, 인간 보조 없이도 금방 적용될 것으로 예상된다.
- 2025년까지 수백 가구에서 이 휴머노이드로봇이 테스트될 예정이며, 이미 현장에 투입될 계획이다.
6.3. 보스턴 다이나믹스의 로봇 혁신 [02:04:05] (3분)
- 보스턴 다이나믹스의 새로운 로봇 영상이 공개되었으며, 로봇이 뛰거나 무릎 꿇고 기어가는 등 다양한 움직임을 보여준다.
- 로봇의 동작은 모션 슈트와 강화 학습 기법을 활용하여 개선되었고, 그 결과 놀라운 움직임이 가능해졌다.
- 보스턴 다이나믹스는 세계 최대 광고 회사인 WPP와 협력하여 로봇이 영화 촬영 및 가상 광고 제작을 연구하고 있다.
- 이러한 로봇의 영화 촬영 기술은 카메라 관련 직업에 위협이 될 수 있으며, 광고 감독 역할도 AI 로봇이 맡을 가능성이 있다.
- 새롭게 공개된 데모 영상에서는 로봇이 자동차 광고 촬영 등 다양한 작업을 수행하는 모습을 보여준다.
6.4. 로봇 기술의 발전과 활용 사례 [02:07:58] (4분)
- 멜사데츠 벤츠와 엔비디아가 협업하여 앱트로닉의 휴머노이드로봇이 공장에서 테스트를 진행하고 있다.
- BMW, 보스턴 다이나믹스, 현대자동차 등 여러 자동차 공장에서 로봇을 투입해 생산성을 높이고 있으며, 기계와의 협업이 활발히 이루어지고 있다.
- 엔진 AI가 개발한 로봇이 자연스러운 댄스를 선보였으며, 이는 댄서의 훈련을 통해 가능해졌다.
- 이 로봇의 성능은 공연과 같은 실전에서도 활용될 가능성이 있으며, G-Dragon과 같은 아티스트의 공연에서도 로봇과 함께하는 모습을 기대할 수 있다.
- 현재 로봇이 공연에서 춤을 추는 모습이 현실로 다가오고 있으며, 실제 공연에서의 활용 여부는 앞으로의 관건로 추정된다.
6.5. 옵티머스 로봇의 최신 소식과 대량 생산 계획 [02:12:57] (2분)
- 유니트리에서 공개한 새 영상에서는 균형감과 능동성이 뛰어난 로봇의 모습을 보여준다.
- 테슬라의 옵티머스는 22자유도의 팔과 손을 탑재한 새로운 모델이 현재 생산 중이라는 소식이다.
- 옵티머스는 대규모의 지능형 휴머노이드 로봇 제작에 필요한 모든 재료를 갖춘 유일한 회사라고 강조된다.
- 올해 5천 대, 내년에 5만 대의 옵티머스 로봇을 생산할 계획이며, 이는 미래에 수천만 대에 이를 것으로 예상된다.
- 로봇의 대량 생산이 이뤄질 경우, 사람과 로봇의 비율에 따라 군단 형태로 로봇을 관리하는 시스템이 필요할 것으로 추정된다.
6.6. 드론의 악용 가능성과 한국 AI 시장의 중요성 [02:15:53] (6분)
- 중국의 장난감 드론을 15만 원에 전쟁 무기로 변환할 수 있는 가능성이 제기되었으며, 태무와 알리익스프레스에서 무기 부품을 판매하고 있다.
- 100달러만 추가하면 드론에 폭탄을 장착할 수 있을 정도로, 드론이 악용될 수 있는 경향이 있다.
- 이러한 배경에서, 휴머노이드로봇도 유사하게 위험하게 발전 가능성이 있다는 우려가 있으며, 이러한 기술들은 철저한 관리가 필요하다.
- 엔트로픽은 클로드에 실시간 검색 기능을 추가한다고 발표했으며, 이를 위해 브레이브 서치를 활용할 예정이다.
- 한국이 AI 분야에서 긍정적으로 평가받는 이유는, 채착피티 사용량이 전 세계에서 2, 3위에 해당하며, 이는 한국이 AI 기술을 빠르게 받아들이고 있다는 것을 의미한다.
6.7. LG 엑사원 딥의 성과와 한계 [02:22:00] (4분)
- LG가 세계 최고 수준의 추론 모델인 엑사원 딥을 오픈 소스로 공개했으며, 이는 한국의 AI 분야에 큰 긍정적인 영향을 미친다.
- 엑사원 딥의 추론 성능은 32 billion이며, 이는 딥시크의 671 billion과 대등한 수준으로 평가된다.
- 이 모델은 레딧에서 높은 평가를 받고 있으며, "2.4 billion 모델이 매우 뛰어나다"는 의견이 있다.
- 하지만 상업적 사용이 금지되어 있어, 기업이 이 모델을 활용하여 직접적인 수익을 창출하는 제품이나 서비스를 개발할 수는 없다.
- 따라서 엑사원 딥은 비영리 및 연구용으로 공개된 모델로, LG의 성과에도 불구하고 상업적인 보급에는 한계가 있다.
6.8. 바이브 코딩과 게임 개발 대회 소식 [02:26:26] (15분)
- 레벨스 아이오는 바이브 코딩게임 잼 대회를 개최하여 참여자들이 만든 게임을 제출하고 심사하는 방식으로 진행되었다.
- 이 대회에서 참가자들은 3js를 이용해 마인크래프트와 포트나이트와 유사한 게임들을 만들었으며, 일부는 37시간 만에 게임을 완성하고 제출하였다.
- 여러 종류의 게임이 개발되었으며, 예시로 좀비 게임, 온라인 멀티플레이어 본버맨, 피카츄를 잡는 포켓몬 게임 등이 소개되었다.
- 대회에 참여한 게임들은 다양한 장르와 형식으로 매우 창의적이며, 많은 작품들이 제출되어 화제를 모았다.
- 참가자는 3js를 권장하고, 무거운 로딩 화면 없이 게임을 제작해야 하며, 수상 시 상품도 제공된다.
728x90
7. 🌟 UAE의 대규모 AI 투자 소식 [02:41:41] (1분)
- UAE가 미국 스타게이트의 3배 규모로 AI에 투자한다고 하여, 이는 지금 AI 업계에 어마어마한 자금이 유입되고 있음을 나타낸다.
- AI 분야에 대한 투자 소식이 지속적으로 증가하고 있으며, 앞으로도 많은 발전이 기대된다.
- AI를 활용한 투자 관리의 사례로, 딥시크 창립자 양원평이 AI를 통해 수익을 창출한 것이 화제가 되었다.
- 조코딩 유튜브 채널에서는 AI를 이용한 투자 방법에 대한 강의가 제공되고 있으며, 이를 통해 비트코인 투자도 가능하다.
- 현재 투자 상황에 대한 언급으로, 지난 한때 상승장에서는 수익률이 30%에 달했으나 최근에는 마이너스 15%로 하락세를 보이고 있음을 알렸다.
LIST