Januari 31, 2025

Table of Content

Apakah DeepSeek Lebih Unggul dari ChatGPT dan Claude?

Perkembangan Artificial Intelligence (AI) yang pesat menghadirkan berbagai pilihan tools yang dapat membantu kita dalam berbagai aktivitas.

DeepSeek menjadi salah satu AI yang banyak dibicarakan belakangan ini, digadang-gadang memiliki kemampuan yang mumpuni dengan biaya yang lebih efisien.

Lantas, benarkah DeepSeek lebih unggul dibandingkan AI lainnya? Apakah klaim tersebut sesuai dengan kenyataan, atau hanya sebatas strategi pemasaran?

Mari kita telusuri lebih dalam untuk menemukan jawabannya.

1. Performa DeepSeek: Kecepatan dan Akurasi

Ketika kita menggunakan AI, dua hal yang penting adalah seberapa cepat AI tersebut memproses dan memberikan jawaban, dan seberapa akurat jawaban yang diberikan. DeepSeek menawarkan performa yang cukup baik dalam hal kecepatan dan akurasi, terutama jika dibandingkan dengan harganya yang lebih terjangkau.

Berdasarkan data, DeepSeek R1 mampu memproses 21 token per detik. Sebagai perbandingan, model o1 dari OpenAI mampu memproses 182 token per detik, dan Gemini 2.0 Flash (versi cepat dari Gemini) mampu memproses 168 token per detik.

Jadi, dari sisi kecepatan pemrosesan, DeepSeek R1 memang masih di bawah o1 dan Gemini 2.0 Flash. Namun, perlu diingat bahwa kecepatan ini tidak selalu berarti lebih baik dalam segala hal.

Dalam hal akurasi, DeepSeek R1 menunjukkan hasil yang mengesankan pada berbagai tes. Misalnya, pada tes matematika AIME 2024, DeepSeek R1 mendapat skor 79.8%, lebih tinggi dari o1 yang mendapat skor 72.6%. Pada tes coding Codeforces, DeepSeek R1 juga unggul dengan skor 96.3, dibandingkan o1 yang mendapat skor 90.6.

Untuk tes GPQA Diamond pun, DeepSeek R1 mendapat skor 71.5, sementara o1 mendapat skor 62.1. Begitu pula pada tes MATH-500, DeepSeek R1 kembali unggul dengan skor 97.2, dibandingkan o1 yang hanya 96.4.

Pada tes MMLU, DeepSeek R1 mendapat skor 90.8, sedikit di bawah o1 yang memperoleh 91.8. Terakhir, pada tes SWE-bench Verified, DeepSeek R1 mendapat skor 49.2, lebih baik dari o1 dengan skor 48.9.

2. Kemampuan Bahasa: Multilingual dan Pemahaman Konteks

DeepSeek sering disebut unggul dalam hal kemampuan multibahasa. Untuk menilai klaim ini, mari kita lihat data dari Artificial Analysis yang disajikan dalam dua grafik.

Grafik pertama menunjukkan indeks multibahasa dari berbagai model AI di delapan bahasa: Inggris, Spanyol, Prancis, Jerman, Swahili, Bengali, Mandarin, dan Jepang.

DeepSeek V3 terlihat memiliki kemampuan yang baik dan konsisten di semua bahasa tersebut, hampir menyamai GPT-4o dan Claude 3.5 Sonnet di beberapa bahasa, seperti yang ditunjukkan oleh berbagai warna pada grafiknya.

Grafik kedua menunjukkan indeks kemampuan multibahasa secara rata-rata di berbagai bahasa. DeepSeek V3 mendapat skor 86, berada di urutan ketiga setelah Claude 3.5 Sonnet (88) dan GPT-4o (87).

Hasil ini menunjukkan bahwa DeepSeek V3 memiliki kemampuan multibahasa yang kompetitif, meskipun tidak selalu menjadi yang terbaik di setiap bahasa.

3. Keahlian Coding: Presisi dan Efisiensi Algoritma

Dalam hal kemampuan coding, DeepSeek menunjukkan performa yang sangat baik. Berdasarkan data dari Artificial Analysis, DeepSeek R1 (warna biru) menjadi yang teratas dengan skor 98%, melampaui Claude 3.5 Sonnet (96%), GPT-4o (93%), dan Gemini 2.0 Flash (91%) pada benchmark HumanEval.

DeepSeek V3 juga menunjukkan hasil yang mengesankan dengan skor 91%, setara dengan Gemini 2.0 Flash. Hal ini menunjukkan bahwa kedua model DeepSeek sangat mahir dalam memahami dan menghasilkan kode.

Data dari LiveCodeBench (LCB) menunjukkan kemampuan coding yang sedikit berbeda. Di sini, DeepSeek R1 mendapatkan skor coding average sebesar 66.74, LCB_generation sebesar 79.49, dan coding_completion sebesar 54. DeepSeek V3 sedikit di bawah R1 dengan skor 61.77, 61.54, dan 62 secara berurutan.

Namun, perlu dicatat bahwa DeepSeek R1 masih mengungguli beberapa model lain seperti Gemini-Exp-1206 (63.41, 62.82, 64) dan GPT-4o (51.44, 44.87, 58).

4. Kemampuan Problem-Solving Matematika

DeepSeek juga menunjukkan kemampuan yang mengesankan dalam menyelesaikan problem matematika yang kompleks. Berdasarkan data dari Artificial Analysis, DeepSeek R1 (warna biru) memimpin dalam benchmark MATH-500 dengan skor luar biasa, yaitu 97%.

Skor ini jauh melampaui model-model AI lainnya, termasuk Gemini 2.0 Flash (90%), DeepSeek V3 (86%), dan GPT-4o mini (79%). Ini menunjukkan bahwa DeepSeek R1 memiliki kemampuan yang sangat baik dalam memahami dan memecahkan soal-soal matematika.

Data dari LiveCodeBench (LCB) juga memperlihatkan hasil yang menarik. Di sini, DeepSeek R1 meraih skor mathematics average sebesar 79.54, AMPS_Hard sebesar 88, math_comp sebesar 88.54, dan olympiad sebesar 62.07.

Sementara itu, DeepSeek V3 mendapatkan skor mathematics average sebesar 60.54, AMPS_Hard sebesar 67, math_comp sebesar 60.42, dan olympiad sebesar 54.20. Meskipun tidak setinggi R1, V3 tetap menunjukkan performa yang lumayan.

Sebagai catatan, model-model lain seperti GPT-4o, Claude 3.5 Sonnet, dan Claude 3.5 Haiku tidak ada di tabel LCB, yang mengindikasikan bahwa skor mereka kemungkinan di bawah model-model yang tercantum.

5. Penalaran Logis: Deduktif dan Terstruktur

Kemampuan penalaran logis merupakan aspek penting dari kecerdasan buatan. Berdasarkan data dari Artificial Analysis, model o1 dari OpenAI memimpin dalam benchmark MMLU (Massive Multitask Language Understanding) dengan skor 92%.

DeepSeek R1 berada di posisi kedua dengan skor 91%, menunjukkan kemampuan penalaran logis yang juga sangat baik. Claude 3.5 Sonnet menyusul dengan skor 89%, kemudian diikuti oleh Gemini 2.0 Flash dan DeepSeek V3 dengan skor 87%.

Data dari LiveCodeBench (LCB) memberikan perspektif tambahan. Di sini, o1 kembali memimpin dengan skor reasoning average 91.58, web_of_lies_v2 100, zebra_puzzle 88.75, dan spatial 86. DeepSeek R1 berada di urutan kedua dengan skor 83.17, 100, 75.50, dan 74 secara berurutan.

Sementara itu, DeepSeek V3 meraih skor 56.75, 86, 34.25, dan 50 secara berurutan. Hasil ini menunjukkan bahwa meskipun DeepSeek R1 memiliki kemampuan penalaran yang kuat, performanya masih di bawah o1 dalam beberapa aspek.

6. Efisiensi Biaya: Harga API

Salah satu daya tarik utama DeepSeek adalah efisiensi biayanya, termasuk dari segi harga API. Berikut perbandingan harga API DeepSeek R1 dan model o1-class dari OpenAI per 1 juta token dalam bentuk tabel:

Kategori	DeepSeek R1	o1-mini	o1-preview	o1
Input (Cache Hit)	$0.14	$1.5	$7.5	$7.5
Input (Cache Miss)	$0.55	$3	$15	$15
Output	$2.19	$12	$60	$60

Keterangan:

Harga dalam satuan dolar Amerika Serikat (USD) per 1 juta token.

Cache Miss: Situasi di mana data yang Anda minta (input) belum tersedia di dalam “memori” sementara (cache) model AI. Karena data belum tersedia, model AI perlu memproses data tersebut terlebih dahulu sebelum memberikan respons (output). Hal ini membutuhkan waktu dan sumber daya yang lebih banyak, sehingga biayanya lebih mahal. Ibaratnya, Anda bertanya kepada seseorang tentang sesuatu yang belum dia ketahui, sehingga dia perlu mencari informasi terlebih dahulu sebelum bisa menjawab.

Input: Data yang Anda berikan ke model AI untuk diproses. Misalnya, ketika Anda memberikan pertanyaan kepada chatbot, pertanyaan tersebut adalah input.

Output: Data yang dihasilkan oleh model AI sebagai respons terhadap input yang diberikan. Misalnya, jawaban yang diberikan oleh chatbot atas pertanyaan Anda adalah output.

Cache Hit: Situasi di mana data yang Anda minta (input) sudah tersedia di dalam “memori” sementara (cache) model AI. Karena data sudah tersedia, model AI dapat memberikan respons (output) dengan lebih cepat dan efisien. Ibaratnya, Anda bertanya kepada seseorang tentang sesuatu yang sudah dia ketahui jawabannya, sehingga dia bisa langsung menjawab tanpa perlu berpikir lama.

7. Aksesibilitas dan Fleksibilitas Penggunaan

Model R1 dari DeepSeek bersifat open-source. Artinya, developer dapat mengunduh, memodifikasi, dan menjalankan model ini secara lokal tanpa batasan.

Hal ini memberikan fleksibilitas yang tinggi bagi developer untuk menyesuaikan model dengan kebutuhan spesifik mereka. Sebaliknya, model AI seperti GPT-4 bersifat proprietary dan hanya dapat diakses melalui API yang terbatas.

DeepSeek juga menawarkan API yang kompatibel dengan OpenAI, sehingga developer dapat beralih dengan mudah. Ditambah lagi, DeepSeek tidak menerapkan rate limit yang ketat pada API-nya, memungkinkan penggunaan dalam skala besar tanpa hambatan.

8. Keterbatasan DeepSeek

Meskipun memiliki banyak keunggulan, DeepSeek juga memiliki beberapa keterbatasan. AI ini masih kurang matang dalam percakapan umum jika dibandingkan dengan ChatGPT.

Selain itu, DeepSeek mungkin masih memiliki bias atau sensor tertentu karena terikat dengan regulasi di Tiongkok. Data pengguna juga disimpan di server yang berlokasi di Tiongkok.

Hal ini dapat menimbulkan masalah privasi bagi sebagian pengguna. DeepSeek juga belum memiliki kemampuan multimodal seperti menghasilkan gambar atau suara, tidak seperti GPT-4o atau Gemini.

Kesimpulan

DeepSeek menawarkan kemampuan yang mengesankan, terutama dalam hal penalaran teknis, efisiensi biaya, dan fleksibilitas. Namun, AI ini juga memiliki keterbatasan, seperti dalam hal percakapan umum dan potensi masalah privasi.

Pemilihan AI yang tepat bergantung pada kebutuhan spesifik Anda. Jika Anda membutuhkan AI untuk tugas-tugas teknis, coding, matematika, dan efisiensi biaya adalah prioritas, DeepSeek adalah pilihan yang sangat baik.

Namun, jika Anda mencari AI untuk percakapan yang natural, kreatif, dan interaksi yang lebih user-friendly, ChatGPT atau Claude mungkin lebih sesuai.

Pada akhirnya, setiap AI memiliki kelebihan dan kekurangannya masing-masing, dan DeepSeek jelas merupakan pemain kuat yang patut dipertimbangkan.