Saya telah menguji 7 model AI paling populer untuk melihat seberapa baik mereka memproses faktur di luar kotak, tanpa penyesuaian.
Baca terus untuk belajar:
- Model mana yang lebih mengungguli setidaknya 20%
- Mengapa Google AI gagal bekerja dengan data terstruktur
- Lihat model yang mana menangani pemindaian resolusi rendah yang terbaik
Model yang diuji
Untuk memenuhi tujuan tes ini, saya mulai mencari model AI menggunakan kriteria ini:
-
Kepopuleran: Model populer memiliki dukungan dan dokumentasi yang lebih baik.
-
Kemampuan pemrosesan faktur: Model harus dapat memproses faktur dari awal, tanpa menyempurnakan atau melatih API.
-
Integrasi: Karena hasil tes ini dimaksudkan untuk digunakan dalam praktik, penting bagi setiap model untuk memiliki kemampuan integrasi API untuk integrasi yang mudah.
Saya telah mendarat di 7 model AI yang diuraikan di bawah ini. Saya telah memberikan nama panggilan masing -masing untuk kenyamanan:
- Amazon Menganalisis API Pengeluaran, atau “AWS“
- Azure AI Document Intelligence – Model Prebuilt Faktur, atau “Biru langit“
- Google Document AI – Parser Faktur, atau “Google“
- GPT -4O API – Input Teks dengan OCR pihak ke -3, atau “Gptt“
- GPT -4O API – Input gambar, atau “Gpti“
- Gemini 2.0 Pro Experimental, atau “Gemini“
- Deepseek V3 – Input Teks, atau “Deepseek-t“
Dataset Faktur
Model -model diuji pada dataset 20 faktur dari berbagai tata letak dan bertahun -tahun (dari 2006 hingga 2020).
Tahun faktur |
Jumlah faktur |
---|---|
2006 – 2010 |
6 |
2011 – 2015 |
4 |
2016 – 2020 |
10 |
Metodologi
Menganalisis setiap faktur, saya telah menentukan daftar 16 bidang utama yang umum di antara semua faktur dan berisi data yang paling penting:
Invoice Id, Invoice Date, Net Amount, Tax Amount, Total Amount, Due Date, Purchase Order, Payment Terms, Customer Address, Customer Name, Vendor Address, Vendor Name, Item: Description, Item: Quantity, Item: Unit Price, Item: Amount.
Bidang yang diekstraksi oleh model dipetakan ke konvensi penamaan umum untuk memastikan konsistensi. Model LLM (GPT, Deepseek, dan Gemini) secara khusus diminta untuk mengembalikan hasilnya menggunakan nama -nama bidang umum ini.
Deteksi Item Faktur
Untuk setiap faktur, saya telah mengevaluasi seberapa baik model -model yang diekstraksi bidang item kunci:
Description, Quantity, Unit Price, Total Price
Metrik efisiensi
Saya telah menggunakan metrik efisiensi tertimbang (EFF, %) untuk menilai keakuratan ekstraksi. Metrik ini menggabungkan:
Bidang Esensial yang ketat: kecocokan yang tepat, seperti ID faktur, tanggal, dll.
Bidang penting yang tidak ketat: Pencocokan parsial diizinkan jika kesamaan (RLD, %) melebihi ambang batas.
Item Faktur: Dievaluasi hanya benar jika semua atribut item diekstraksi secara akurat.
Rumus
Efisiensi Keseluruhan (EFF, %): EFF, % = (countif (bidang ESS ESS yang ketat, positif) + countif (bidang ess.
Efisiensi tingkat item (EFF-I, %): EFF-I, % = Positif if (semua (kuantitas, harga satuan, jumlah-positif) dan RLD (deskripsi)> ambang batas) * 100
Hasil pengenalan faktur
Catatan: Hasil Google dihilangkan dari ini karena Google gagal mengekstrak item dengan benar.
Wawasan teratas
Azure bukan yang terbaik dengan deskripsi item.
Salah satu faktur dalam dataset berisi nama karyawan sebagai item. Dalam faktur ini, Azure gagal mendeteksi nama item lengkap, hanya mengenali nama depan, sedangkan model lain berhasil mengidentifikasi nama lengkap di semua 12 item.
Masalah ini secara signifikan memengaruhi efisiensi Azure pada faktur ini, yang terutama lebih rendah (33,3%) dibandingkan dengan model lainnya.
💡 Ketidakmampuan Azure untuk menguraikan deskripsi multi-kata di bidang terstruktur menyoroti batasan kritis dibandingkan dengan pesaing.
Resolusi faktur yang rendah secara praktis tidak mempengaruhi kualitas deteksi.
Resolusi rendah (seperti yang dirasakan oleh mata manusia) dari faktur umumnya tidak menurunkan kualitas deteksi. Resolusi rendah terutama menghasilkan kesalahan pengakuan kecil, misalnya, di salah satu faktur, Deepseek mengira koma untuk titik, yang mengarah ke nilai numerik yang salah.
💡 Model OCR dan AI modern kuat untuk masalah resolusi, meskipun kesalahan pemformatan langka dapat terjadi.
Google gagal mendeteksi item.
Google menggabungkan semua bidang item menjadi satu string, yang membuatnya tidak mungkin untuk membandingkan hasilnya dengan model lain. Hasil Pengakuan Google:
Faktur yang sebenarnya:
Semua layanan lain memiliki deteksi yang benar 100% dengan gangguan oleh atribut.
💡 AI Google tidak mampu mengekstraksi data terstruktur tanpa menyempurnakan.
Deskripsi item multi-line tidak mempengaruhi kualitas deteksi.
💡 Kecuali untuk kasus Google AI di atas, deskripsi item multi-line tidak berdampak negatif pada kualitas deteksi di semua model.
Gemini memiliki “perhatian terhadap detail” terbaik.
LLMS seperti GPT, Gemini, dan Deepseek dapat diminta untuk mengekstrak lebih banyak data daripada model pengenalan faktur yang sudah dibangun. Di antara semua LLM, Gemini memiliki akurasi terbaik dalam hal mengekstraksi data tambahan dari item faktur. GPT sering mengekstraksi bidang yang benar tetapi nilai lapangan yang salah, dan Deepseek melakukan yang terburuk dari 3 model dengan akurasi ekstraksi nilai bidang termiskin.
Contoh Faktur:
Hasil Gemini:
Hasil GPT:
Hasil Deepseek:
💡 Gemini memiliki akurasi ekstraksi item tertinggi dibandingkan dengan LLM lainnya: ia mengekstrak semua bidang, bukan hanya yang standar, dan memiliki akurasi tertinggi dalam menjaga teks dan nilai numerik.
Membandingkan biaya
Saya telah menghitung biaya pemrosesan 1000 faktur oleh masing -masing model, serta biaya rata -rata pemrosesan satu faktur:
Melayani |
Biaya |
Biaya per halaman (rata -rata) |
---|---|---|
AWS |
$ 10 /1000 halaman (1) |
$ 0,01 |
Azure AI Document Intelligence |
$ 10 /1000 halaman |
$ 0,01 |
Google Document AI |
$ 10 /1000 halaman |
$ 0,01 |
“GPTT”: GPT-4O API, input teks dengan pihak ketiga OCR |
Token input $ 2,50 / 1 juta, token output $ 10,00 / 1 juta (2) |
$ 0,021 |
“GPTI”: GPT-4O saja |
Token Input $ 2,50 / 1 juta, Token Keluaran $ 10,00 / 1 juta |
$ 0,0087 |
Gemini 2.0 Pro |
$ 1,25, input meminta ≤ 128k token |
$ 0,0045 |
Deepseek V3 API |
$ 10 /1000 halaman + $ 0,27 / 1 juta token input, token output $ 1,10 / 1 juta |
$ 0,011 |
Catatan:
(1) – $ 8 /1000 halaman setelah satu juta per bulan
(2) – tambahan $ 10 per 1000 halaman untuk menggunakan model pengenalan teks
Temuan utama
🚀 Paling efisien: Gemini dan GPT-4O memimpin dalam efisiensi dan konsistensi ekstraksi di semua faktur.
⚠️ Pemain terburuk: Google AI adalah yang terburuk dari semua model yang diuji ketika datang ke ekstraksi item, membuat skor efisiensi keseluruhan rendah. Google menggabungkan semua bidang item menjadi satu baris, menjadikannya pilihan terburuk untuk menggunakannya di luar kotak.
🎲 Paling tidak dapat diandalkan: Deepseek sering menunjukkan kesalahan dalam teks dan nilai numerik.
Model mana yang terbaik untuk apa?
✅ Gemini, AWS, atau Azure untuk ekstraksi data akurasi tinggi.
✅ GPT-4O (input teks dengan OCR pihak ketiga) untuk pengenalan faktur yang hemat biaya dan saldo “biaya-efisiensi” yang hebat.
❌ Hindari Google AI jika Anda perlu mengekstrak item dengan akurasi tinggi.