OpenAI o3-mini vs DeepSeek R1 - First TESTS and Impressions

IT/AI news&info

OpenAI o3-mini vs DeepSeek R1 - First TESTS and Impressions

soures 2025. 2. 25. 08:38

728x90

이 영상은 OpenAI o3-mini와 DeepSeek R1 모델 간의 성능 비교를 통해 각 모델의 특징과 성능을 직접 테스트하는 내용을 담고 있습니다. 다양한 코딩 테스트와 AI 에이전트 오케스트레이션을 통해 두 모델의 출력 결과를 비교하며, 해결능력과 응답의 질을 검토합니다. o3-mini는 높은 출력 토큰 수와 우수한 작업 할당 능력을 보여주었고, DeepSeek R1은 특정 작업에서 더 나은 안정성을 나타냈습니다. 최종적으로 두 모델의 성능을 총체적으로 평가하며, 앞으로의 발전 가능성에 대한 시사점을 제공합니다. 이 영상은 인공지능 모델의 비교 분석을 통해 독자에게 깊이 있는 통찰을 제공합니다.

1. 🤖 O3 Mini와 DeepSeek R1 비교 테스트 [00:00:00] (5분)

O3 Mini와 DeepSeek R1's 다양한 기능을 비교하기 위해 3D 애니메이션 생성, 비디오 클립 편집 코드 작성, 텍스트 추출 등의 코딩 테스트를 실시한다.
O3 Mini는 출력 토큰 수가 100,000개로 상당히 많고, DeepSeek R1은 8,000개로 상대적으로 적다.
첫 번째 코딩 테스트에서 DeepSeek R1은 3D 브라우저 바람 터널 시뮬레이션 코드 생성을 시도했으며, 바람 속도 조절과 입자 투명도 조정 등의 기능이 일부 작동했다.
O3 Mini는 해당 작업에서 만족스러운 결과를 보여주지 못해, 초기 평가에서 DeepSeek R1이 더 나은 성능을 보였다고 판단된다.

2. 🖥️ 두 모델의 성능 비교 테스트 [00:05:49] (4분)

Python 코드를 사용하여 MP3 및 MP4 파일을 처리하는 소규모 비디오 편집 테스트를 수행하였으며, O3 mini와 DeepSeek R1 두 모델을 사용하여 결과를 비교하였다.
첫 번째 테스트에서는 두 모델 모두 비디오 클립을 15초로 잘라내고 배경 소리를 추가하는 데 성공하였으며, 두 모델의 성능이 비슷하게 나타났다.
이후 두 번째 테스트로 PDF 파일에서 모든 URL을 추출하는 HTML 코드 작성을 요청하였고, 두 모델 모두 구조화된 클릭 가능한 리스트로 URL을 반환하는 데 성공하였다.
DeepSeek R1이 첫 번째 테스트에서 더 나은 코드를 생성했기 때문에 약간의 우위를 부여하였고, 두 번째 테스트에서는 두 모델 모두 합격하였다.
전반적으로 두 모델이 비슷한 성능을 보였으나 DeepSeek이 덜 실수한 것으로 평가된다.

3. 🤖 O3 Mini와 DeepSeek R1의 비교 테스트 결과 [00:10:39] (6분)

O3 Mini는 비트코인의 현재 상태 및 Nvidia 주식에 대한 정보를 수집하고, 최근 기술 주식 시장의 뉴스와 변동을 파악하는 목표를 설정하였다.
비트코인 가격은 2025년 2월 1일 기준으로 102,000달러에 거래되었으며, 최근 5일 동안 101,000달러에서 104,000달러 사이의 moderate volatility를 보였다.
Nvidia 주식은 11%에서 16.9% 하락하며, 이에 따른 시장 가치 손실은 6000억 달러에 달하였다.
두 시스템 모두 성공적으로 작업을 수행하였으나, O3 Mini가 정보 호출 및 결과의 정확성에서 더 뛰어난 성과를 보였다.
DeepSeek R1은 사용자의 요구를 이해하고 작업을 수행했으나, O3 Mini의 도구 활용 및 정보 처리에서 뒤쳐졌다.

4. 🧩 퍼즐 문제 해결 비교 [00:17:11] (5분)

OpenAI o3 mini와 DeepSeek R1 모델 모두, 유명한 퍼즐 문제를 성공적으로 해결했지만, DeepSeek R1이 약간 더 나은 성능을 보인 것으로 판단된다.
퍼즐의 핵심은 강아지와 양배추를 건너기 위한 방법이며, 모델이 학습 데이터에 너무 의존하지 않고 새로운 문제를 해결할 수 있는지를 평가하는 것이다.
DeepSeek R1 모델은 대체로 원래 퍼즐의 문맥을 참조하며, 프로세스를 설명하면서 안전하게 문제를 해결하는 방법을 명시하였다.
O3 mini 모델은 이전 교육 데이터를 상기시키지 않은 채, 직관적으로 퍼즐을 해결하며 100%의 신뢰도를 기록하였다.
두 모델 모두 "Breaking Free from the training data" 문제를 성공적으로 해결하여, 기대에 부합하는 성과를 보였다.

728x90

5. 🔍 DeepSeek R1과 o3-mini 비교 결과 [00:23:02] (7분)

DeepSeek R1은 문제의 다양한 단서를 잘 분석하며, 상황을 올바르게 해석하여 최종 답변을 제공했다. 이 모델은 사용자의 요구를 충족시켰다.
반면, o3-mini는 예상한 성과에 미치지 못해 사고 상황을 다루었으며, 원하는 정보는 제공하지 않았다. 이는 사용자가 찾던 임신과 관련된 긴급 상황과는 거리가 있었다.
두 모델의 출력 토큰 수를 비교했을 때, DeepSeek R1은 2,200개, o3-mini는 20,300개를 생성했다. 그러나 출력된 숫자는 사고에 대한 정보를 반영하지 못했다.
o3-mini는 특정 작업에서 안정적인 성과를 보였지만, 전체적으로 DeepSeek R1과 비교했을 때 일관되게 더 우수하다고 평가하기는 어려웠다. 일부 분야에서 더 나은 결과를 나타냈으나, 3D 애니메이션과 훈련 데이터의 한계를 극복하는 데는 실패했다.
전반적으로 두 모델의 퍼포먼스가 흥미로웠으며, 추가 연구를 통해 더 많은 정보를 얻고 성능을 비교해 나갈 계획이다.

원본영상

https://youtu.be/0KtfAdPdA1A

LIST

'IT > AI news&info' 카테고리의 다른 글

생성형 AI에서 AGI까지ㅣ카이스트 김대식 교수ㅣ2025 글로벌 비즈니스 트렌드 (0)	2025.02.26
2025-02-24 조코딩 AI 뉴스 Grok-3 공개, 구글 AI 연구자, Veo2 공개, 오픈AI 돈 버는 벤치마크, GPT-5 계획, AI 리얼돌 등 (1)	2025.02.25
생성형 AI에서 AGI까지ㅣ카이스트 김대식 교수ㅣ2025 글로벌 비즈니스 트렌드 (1)	2025.02.24
DeepSeek-R1 Blows My Mind Again! - 5 TESTS on Local Models (2)	2025.02.21
[100분토론] 딥시크 ‘AI 전쟁’‥위기냐 기회냐? (1085회) - 2025년 02월 11일 밤 11시 30분 (0)	2025.02.21

현재글OpenAI o3-mini vs DeepSeek R1 - First TESTS and Impressions

니케, AI윤리, AI교육, 버튜버, 거의없다, 대안뉴스, 인공지능, 양지열, AI, NIKKE, 스텔라이브, 기추자, 미래기술, ai기술, AI혁신, 법규, 오블완, AI미래, 티스토리챌린지, ai에이전트,

shipofsale 님의 블로그