Bagaimana ukuran model kodeks mempengaruhi kualitas output Cocogen

Abstrak dan 1 Pendahuluan

2 Cocogen: Mewakili struktur akal sehat dengan kode dan 2.1 mengkonversi (t, g) menjadi kode Python

2.2 beberapa penembakan untuk menghasilkan g

3 Evaluasi dan 3.1 Pengaturan Eksperimental

3.2 Pembuatan Skrip: Proskrip

3.3 Pelacakan Negara Entitas: Propara

3.4 Generasi Grafik Argumen: Eksplagraf

4 analisis

5 Pekerjaan Terkait

6 Kesimpulan, Ucapan Terima Kasih, Keterbatasan, dan Referensi

Perkiraan ukuran model beberapa shot

B kreasi prompt dinamis

C evaluasi manusia

D Dataset Statistik

E output sampel

F meminta

G merancang kelas python untuk tugas terstruktur

H Dampak Ukuran Model

I Variasi dalam permintaan

G merancang kelas python untuk tugas terstruktur

Gambar 7 menunjukkan tiga desain berbeda untuk eksplagraf. Untuk proscript, berbagai format termasuk mewakili proscript sebagai networkx[8] Kelas (8), Kelas 9-mirip DOT, dan sebagai pohon (10).

H Dampak Ukuran Model

Model kodeks yang dirilis oleh OpenAi tersedia dalam dua versi[9]: kode-DavI-001 dan kode-Davi-002. Sementara ukuran yang tepat dari model tidak diketahui karena sifatnya, OpenAI API menyatakan bahwa kode-DavI-002 adalah Tabel Model Codex yang paling cakap 16 dan ?? Membandingkan Cocogen +Code-Davinci-001 dengan Cocogen +Code-Davinci-002. Perhatikan bahwa baik kode-DavICI-001 dan kode-DavICI-002 dapat memuat 4000 token, sehingga jumlah contoh dalam konteks identik untuk dua pengaturan. Hasilnya menunjukkan bahwa untuk dorongan yang identik, Cocogen +Code-Davinci-002 mengungguli Cocogen +Code-Davi-001, menunjukkan pentingnya memiliki model pembuatan kode yang lebih baik.

Gambar 5: Contoh grafik untuk masing-masing tugas yang digunakan untuk cocogen: proscript (kiri atas), eksplagraf (topright), dan propara (bawah).Gambar 5: Contoh grafik untuk masing-masing tugas yang digunakan untuk cocogen: proscript (kiri atas), eksplagraf (topright), dan propara (bawah).

Tabel 13: Kinerja kodeks pada tiga format berbeda yang ada pada Gambar 7 untuk eksplagraf.Tabel 13: Kinerja kodeks pada tiga format berbeda yang ada pada Gambar 7 untuk eksplagraf.

Tabel 14: Kinerja CODEX-001 dan CODEX002 pada berbagai format yang ada pada Gambar 10 dan 9 untuk prediksi tepi proscript. Kami menemukan bahwa format literal yang menggabungkan struktur dengan output angka secara harfiah melakukan yang terbaik untuk CODEX-002.Tabel 14: Kinerja CODEX-001 dan CODEX002 pada berbagai format yang ada pada Gambar 10 dan 9 untuk prediksi tepi proscript. Kami menemukan bahwa format literal yang menggabungkan struktur dengan output angka secara harfiah melakukan yang terbaik untuk CODEX-002.

Ukuran model vs sensitivitas terhadap prompt pada Tabel 14 menunjukkan kinerja CODEX-001 (lebih kecil) dan CODEX-002 (lebih besar, juga lihat Lampiran A) pada permintaan yang identik. Eksperimen kami menunjukkan bahwa dengan meningkatnya ukuran model, sensitivitas model pada desain cepat mungkin semakin mudah.

I Variasi dalam permintaan

Kami menjalankan setiap percobaan dengan 4 biji acak yang berbeda, di mana biji acak menentukan urutan contoh dalam prompt. Kami menemukan varian minimal antara berjalan menggunakan petunjuk tetap yang berbeda antara 3 run. Lebih lanjut, seperti yang ditunjukkan pada Tabel 18, 19, 20, dan 21, semua perbaikan kokogen dibandingkan davinci secara statistik (nilai-p p-

Gambar 6: Rencana Proskrip (atas) dan kode Python yang sesuai (bawah).Gambar 6: Rencana Proskrip (atas) dan kode Python yang sesuai (bawah).

Tabel 18: Pembuatan Skrip Proskrip: Rata -rata dan standar deviasi di tiga benih acak yang berbeda.Tabel 18: Pembuatan Skrip Proskrip: Rata -rata dan standar deviasi di tiga benih acak yang berbeda.

Tabel 21: Propara: Rata -rata dan standar deviasi di tiga benih acak yang berbeda.Tabel 21: Propara: Rata -rata dan standar deviasi di tiga benih acak yang berbeda.

Tabel 19: Prediksi tepi proscript: rata -rata dan standar deviasi di tiga benih acak yang berbeda.Tabel 19: Prediksi tepi proscript: rata -rata dan standar deviasi di tiga benih acak yang berbeda.

Tabel 15: Hasil Codex pada Pembuatan Proskrip untuk berbagai format sumber Python.Tabel 15: Hasil Codex pada Pembuatan Proskrip untuk berbagai format sumber Python.

Gambar 7: Templat dicoba untuk dijelajahi.Gambar 7: Templat dicoba untuk dijelajahi.

Tabel 16: Codex-001 vs 002 pada pembuatan skrip proscriptTabel 16: Codex-001 vs 002 pada pembuatan skrip proscript

Gambar 8: Proskrip sebagai kelas NetworkX.Gambar 8: Proskrip sebagai kelas NetworkX.

Gambar 9: Mewakili grafik proscript secara harfiah.Gambar 9: Mewakili grafik proscript secara harfiah.

Tabel 20: Explagraphs: Rata -rata dan standar deviasi di tiga biji acak yang berbeda.Tabel 20: Explagraphs: Rata -rata dan standar deviasi di tiga biji acak yang berbeda.

Gambar 10: Proskrip dengan pengkodean pohon.Gambar 10: Proskrip dengan pengkodean pohon.


[9] Pada Juni 2022


Penulis:

(1) Aman Pasaan, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);

(2) Shuyan Zhou, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);

(3) Uri Alon, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);

(4) Yiming Yang, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);

(5) Graham Neubig, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]).