Ada lebih banyak model AI daripada apa yang Anda lihat di berita dan di media sosial. Ada ratusan, termasuk model open-source, yang pribadi, dan raksasa teknologi sendiri: Gemini, Claude, Openai, Grok, Deepseek. Apa sebenarnya model itu? Apakah itu hanya kotak data blok? Hampir! Anda dapat menganggapnya sebagai file zip Internet dengan sedikit kode C ++ yang berkomunikasi dengan file zip. Saya menghargai analogi ini dengan Andrej Karpathy, meskipun saya tidak yakin apakah itu idenya, tetapi dia adalah pakar industri yang sebenarnya.
Model AI adalah jaringan saraf yang menggunakan serangkaian data besar untuk mengenali pola tertentu. Sekarang adalah waktu untuk memanfaatkannya dan memilih dengan bijak baik untuk bisnis, bantuan pribadi, atau peningkatan kreativitas. Tujuan dari panduan ini bukan tentang “pelatihan model”; Ini ditujukan untuk individu yang baru ke bidang AI yang menginginkan pemahaman yang lebih baik dan untuk memanfaatkan teknologi. Anda dapat membangun dengan AI, bukan di atasnya, jadi setelah membaca panduan ini, pengetahuan yang diperoleh harus memahami konsep umum, penggunaan, dan akurasi pengukuran.
Dalam panduan AI ini, Anda akan mempelajari yang berikut, sehingga Anda dapat melompat ke bagian mana pun, tetapi jika Anda seorang pemula, baca seluruh artikel ini:
- Kategori model
- Tugas model yang sesuai
- Penamaan Konvensi Model
- Kinerja akurasi model
- Referensi Benchmark
Sebagai seorang pemula atau hanya mendengar tentang alat-alat populer, perhatikan bahwa tidak ada satu jenis, model kasus multi guna yang melakukan semua yang Anda minta untuk dilakukan. Dari antarmuka, mungkin Anda hanya mengetik ke chatbot, tetapi ada banyak lagi yang dieksekusi di latar belakang. Analis bisnis, manajer produk, dan insinyur yang mengadopsi AI dapat mengidentifikasi tujuan yang mereka miliki dan pilih dari kategori model AI.
Berikut adalah 4 kategori model di antara banyak:
- Pemrosesan Bahasa Alami (Umum)
- Generatif (gambar, video, audio, teks, kode)
- Diskriminatif (Visi Komputer, Analisis Teks)
- Pembelajaran Penguatan
Sementara sebagian besar model berspesialisasi dalam satu kategori, yang lain multi-modal dengan tingkat akurasi yang berbeda. Setiap model telah dilatih pada data tertentu dan, oleh karena itu, dapat melakukan tugas -tugas spesifik yang terkait dengan data yang dilatih. Berikut daftar tugas umum yang dapat dilakukan oleh setiap kategori model:
Pemrosesan bahasa alami
Memungkinkan komputer untuk menafsirkan, memahami, dan menghasilkan bahasa manusia alami menggunakan tokenisasi dan model statistik. Contohnya adalah chatbots, dan yang paling umum adalah chatgpt, yang merupakan singkatan dari “transformator pra-terlatih generatif”. Sebagian besar model sebenarnya adalah transformator pra-terlatih.
Generatif (gambar, video, audio, teks, kode)
Mereka adalah Generative Adversarial Networks (GANS), yang menggunakan dua sub-model yang dikenal sebagai generator dan diskriminator. Citra realistis, audio, teks, dan kode dapat diproduksi berdasarkan banyak data yang dilatih. Difusi stabil adalah metode paling populer untuk menghasilkan gambar dan video.
Diskriminatif (Visi Komputer, Analisis Teks)
Ini menggunakan algoritma yang dirancang untuk mempelajari berbagai kelas set data untuk pengambilan keputusan. Mereka termasuk analisis sentimen, pengenalan optik, dan analisis sentimen.
Pembelajaran Penguatan
Menggunakan metode coba-coba dan penegakan manusia untuk menghasilkan hasil yang berorientasi pada tujuan, seperti robotika, permainan, dan mengemudi yang otonom.
Penamaan Konvensi Model
Sekarang setelah Anda memahami jenis model dan tugasnya, langkah selanjutnya adalah mengidentifikasi kualitas model dan kinerja. Ini dimulai dengan nama model. Mari kita uraikan penamaan model. Ada konvensi resmi untuk penamaan model AI, tetapi yang paling populer hanya akan memiliki nama diikuti oleh nomor versi, seperti ChatGPT #, Claude #, Grok #, Gemini #.
Namun, model open-source yang lebih kecil dan model khusus tugas akan memiliki nama yang lebih lama. Ini dapat dilihat di huggingface.co, yang akan berisi nama organisasi, nama model, ukuran parameter, dan terakhir ukuran konteksnya.
Mari kita rumit dengan contoh:
MISTRALAI/MESTRAL-SMALL-3.1-24B-INSTRUCT-2053
- Mistralai adalah organisasi
- Mistral-Small adalah nama model
- 3.1 adalah nomor versi
- 24b-instruct adalah jumlah parameter dalam miliaran data pelatihan
- 2053 adalah ukuran konteks atau jumlah token
Google/GEMMA-3-27B
- Google adalah organisasi
- Gemma adalah nama model
- 3 adalah nomor versi
- 27b adalah ukuran parameter dalam miliaran
Detail tambahan, yang akan Anda lihat dan perlu ketahui, adalah format kuantisasi dalam bit. Semakin tinggi format kuantisasi, semakin banyak RAM komputer dan penyimpanan diperlukan untuk mengoperasikan model. Format kuantisasi diwakili dalam floating point, seperti 4, 6, 8, dan 16. Format lain dapat mencakup GPTQ, NF4, dan GGML, yang menunjukkan penggunaan untuk konfigurasi perangkat keras tertentu.
Kinerja akurasi model
Jika Anda telah melihat berita utama tentang rilis model baru, jangan segera mempercayai hasil yang diklaim. Kompetisi kinerja AI sangat kompetitif saat ini sehingga perusahaan memasak angka kinerja untuk hype pemasaran. Berapa banyak orang yang akan menguji mereka sendiri alih -alih mempercayai hype pemasaran? Tidak banyak sama sekali, jadi jangan jatuh cinta pada “figur berhalusinasi”. Referensi https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artifically-boosted-llama-4s-benchmark-scores/ dan https://lmarena.ai/?leaderboardboard
Cara nyata untuk menentukan kualitas model adalah dengan memeriksa skor benchmark dan papan peringkat. Ada beberapa tes yang bisa Anda katakan semi-standar atau mungkin sepenuhnya standar, tetapi pada kenyataannya, kami menguji “kotak hitam” dengan banyak variabel. Ukuran terbaik adalah memeriksa jawaban dan tanggapan dari AI dengan fakta dan sumber ilmiah lainnya.
Situs web papan peringkat akan menunjukkan peringkat yang dapat diurutkan dengan suara, skor interval kepercayaan, biasanya dalam nilai persentase. Tolok ukur umum adalah tes yang mendorong model AI dengan pertanyaan dan mendapatkan jawaban yang diukur. Mereka dapat mencakup: AI2 Reasoning Challenge, Hellaswag, MMLU, Futlulqa, Winogrande, GSM8K, Humaneval.
Berikut adalah deskripsi singkat tentang metode pembandingan:
AI2 Reasoning Challenge (ARC) -7787 pertanyaan sains pilihan ganda dari sekolah dasar
Hellaswag – Latihan penalaran akal sehat melalui penyelesaian kalimat
Mmlu – Pemahaman bahasa multitask besar untuk pemecahan masalah
Sejujurnya – Menilai kebenaran dengan mendorong kepalsuan dan menghindari tanggapan seperti “Saya tidak yakin”.
Winogrande -Tantangan Skema Winograd dengan dua kalimat yang hampir identik berdasarkan kata pemicu
GSM8K – 8.000 pertanyaan matematika tingkat sekolah dasar
Humaneval – Mengukur kemampuan untuk menghasilkan kode python yang benar di 164 tantangan
Situs web papan peringkat untuk referensi:
https://www.vellum.ai/blog/llm-benchmarks-overview-limits-and-model-comparison
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
https://scale.com/leaderboardhttps://artitifialanalysis.ai/leaderboards/models
https://epoch.ai/data/notable-ai-odels
https://openlm.ai/chatbot-arena/
https://lmarena.ai/?leaderboard
Awalnya diterbitkan di sini