1. 🤖 O3 Mini와 DeepSeek R1 비교 테스트 [00:00:00] (5분)

-
O3 Mini와 DeepSeek R1's 다양한 기능을 비교하기 위해 3D 애니메이션 생성, 비디오 클립 편집 코드 작성, 텍스트 추출 등의 코딩 테스트를 실시한다.
-
O3 Mini는 출력 토큰 수가 100,000개로 상당히 많고, DeepSeek R1은 8,000개로 상대적으로 적다.
-
첫 번째 코딩 테스트에서 DeepSeek R1은 3D 브라우저 바람 터널 시뮬레이션 코드 생성을 시도했으며, 바람 속도 조절과 입자 투명도 조정 등의 기능이 일부 작동했다.
-
O3 Mini는 해당 작업에서 만족스러운 결과를 보여주지 못해, 초기 평가에서 DeepSeek R1이 더 나은 성능을 보였다고 판단된다.
2. 🖥️ 두 모델의 성능 비교 테스트 [00:05:49] (4분)

-
Python 코드를 사용하여 MP3 및 MP4 파일을 처리하는 소규모 비디오 편집 테스트를 수행하였으며, O3 mini와 DeepSeek R1 두 모델을 사용하여 결과를 비교하였다.
-
첫 번째 테스트에서는 두 모델 모두 비디오 클립을 15초로 잘라내고 배경 소리를 추가하는 데 성공하였으며, 두 모델의 성능이 비슷하게 나타났다.
-
이후 두 번째 테스트로 PDF 파일에서 모든 URL을 추출하는 HTML 코드 작성을 요청하였고, 두 모델 모두 구조화된 클릭 가능한 리스트로 URL을 반환하는 데 성공하였다.
-
DeepSeek R1이 첫 번째 테스트에서 더 나은 코드를 생성했기 때문에 약간의 우위를 부여하였고, 두 번째 테스트에서는 두 모델 모두 합격하였다.
-
전반적으로 두 모델이 비슷한 성능을 보였으나 DeepSeek이 덜 실수한 것으로 평가된다.
3. 🤖 O3 Mini와 DeepSeek R1의 비교 테스트 결과 [00:10:39] (6분)

-
O3 Mini는 비트코인의 현재 상태 및 Nvidia 주식에 대한 정보를 수집하고, 최근 기술 주식 시장의 뉴스와 변동을 파악하는 목표를 설정하였다.
-
비트코인 가격은 2025년 2월 1일 기준으로 102,000달러에 거래되었으며, 최근 5일 동안 101,000달러에서 104,000달러 사이의 moderate volatility를 보였다.
-
Nvidia 주식은 11%에서 16.9% 하락하며, 이에 따른 시장 가치 손실은 6000억 달러에 달하였다.
-
두 시스템 모두 성공적으로 작업을 수행하였으나, O3 Mini가 정보 호출 및 결과의 정확성에서 더 뛰어난 성과를 보였다.
-
DeepSeek R1은 사용자의 요구를 이해하고 작업을 수행했으나, O3 Mini의 도구 활용 및 정보 처리에서 뒤쳐졌다.
4. 🧩 퍼즐 문제 해결 비교 [00:17:11] (5분)

-
OpenAI o3 mini와 DeepSeek R1 모델 모두, 유명한 퍼즐 문제를 성공적으로 해결했지만, DeepSeek R1이 약간 더 나은 성능을 보인 것으로 판단된다.
-
퍼즐의 핵심은 강아지와 양배추를 건너기 위한 방법이며, 모델이 학습 데이터에 너무 의존하지 않고 새로운 문제를 해결할 수 있는지를 평가하는 것이다.
-
DeepSeek R1 모델은 대체로 원래 퍼즐의 문맥을 참조하며, 프로세스를 설명하면서 안전하게 문제를 해결하는 방법을 명시하였다.
-
O3 mini 모델은 이전 교육 데이터를 상기시키지 않은 채, 직관적으로 퍼즐을 해결하며 100%의 신뢰도를 기록하였다.
-
두 모델 모두 "Breaking Free from the training data" 문제를 성공적으로 해결하여, 기대에 부합하는 성과를 보였다.
5. 🔍 DeepSeek R1과 o3-mini 비교 결과 [00:23:02] (7분)

-
DeepSeek R1은 문제의 다양한 단서를 잘 분석하며, 상황을 올바르게 해석하여 최종 답변을 제공했다. 이 모델은 사용자의 요구를 충족시켰다.
-
반면, o3-mini는 예상한 성과에 미치지 못해 사고 상황을 다루었으며, 원하는 정보는 제공하지 않았다. 이는 사용자가 찾던 임신과 관련된 긴급 상황과는 거리가 있었다.
-
두 모델의 출력 토큰 수를 비교했을 때, DeepSeek R1은 2,200개, o3-mini는 20,300개를 생성했다. 그러나 출력된 숫자는 사고에 대한 정보를 반영하지 못했다.
-
o3-mini는 특정 작업에서 안정적인 성과를 보였지만, 전체적으로 DeepSeek R1과 비교했을 때 일관되게 더 우수하다고 평가하기는 어려웠다. 일부 분야에서 더 나은 결과를 나타냈으나, 3D 애니메이션과 훈련 데이터의 한계를 극복하는 데는 실패했다.
-
전반적으로 두 모델의 퍼포먼스가 흥미로웠으며, 추가 연구를 통해 더 많은 정보를 얻고 성능을 비교해 나갈 계획이다.
'IT > AI news&info' 카테고리의 다른 글
생성형 AI에서 AGI까지ㅣ카이스트 김대식 교수ㅣ2025 글로벌 비즈니스 트렌드 (0) | 2025.02.26 |
---|---|
2025-02-24 조코딩 AI 뉴스 Grok-3 공개, 구글 AI 연구자, Veo2 공개, 오픈AI 돈 버는 벤치마크, GPT-5 계획, AI 리얼돌 등 (1) | 2025.02.25 |
생성형 AI에서 AGI까지ㅣ카이스트 김대식 교수ㅣ2025 글로벌 비즈니스 트렌드 (1) | 2025.02.24 |
DeepSeek-R1 Blows My Mind Again! - 5 TESTS on Local Models (2) | 2025.02.21 |
[100분토론] 딥시크 ‘AI 전쟁’‥위기냐 기회냐? (1085회) - 2025년 02월 11일 밤 11시 30분 (0) | 2025.02.21 |