Tabel tautan
Abstrak dan 1 Pendahuluan
2 Cocogen: Mewakili struktur akal sehat dengan kode dan 2.1 mengkonversi (t, g) menjadi kode Python
2.2 beberapa penembakan untuk menghasilkan g
3 Evaluasi dan 3.1 Pengaturan Eksperimental
3.2 Pembuatan Skrip: Proskrip
3.3 Pelacakan Negara Entitas: Propara
3.4 Generasi Grafik Argumen: Eksplagraf
4 analisis
5 Pekerjaan Terkait
6 Kesimpulan, Ucapan Terima Kasih, Keterbatasan, dan Referensi
Perkiraan ukuran model beberapa shot
B kreasi prompt dinamis
C evaluasi manusia
D Dataset Statistik
E output sampel
F meminta
G merancang kelas python untuk tugas terstruktur
H Dampak Ukuran Model
I Variasi dalam permintaan
G merancang kelas python untuk tugas terstruktur
Gambar 7 menunjukkan tiga desain berbeda untuk eksplagraf. Untuk proscript, berbagai format termasuk mewakili proscript sebagai networkx[8] Kelas (8), Kelas 9-mirip DOT, dan sebagai pohon (10).
H Dampak Ukuran Model
Model kodeks yang dirilis oleh OpenAi tersedia dalam dua versi[9]: kode-DavI-001 dan kode-Davi-002. Sementara ukuran yang tepat dari model tidak diketahui karena sifatnya, OpenAI API menyatakan bahwa kode-DavI-002 adalah Tabel Model Codex yang paling cakap 16 dan ?? Membandingkan Cocogen +Code-Davinci-001 dengan Cocogen +Code-Davinci-002. Perhatikan bahwa baik kode-DavICI-001 dan kode-DavICI-002 dapat memuat 4000 token, sehingga jumlah contoh dalam konteks identik untuk dua pengaturan. Hasilnya menunjukkan bahwa untuk dorongan yang identik, Cocogen +Code-Davinci-002 mengungguli Cocogen +Code-Davi-001, menunjukkan pentingnya memiliki model pembuatan kode yang lebih baik.
Ukuran model vs sensitivitas terhadap prompt pada Tabel 14 menunjukkan kinerja CODEX-001 (lebih kecil) dan CODEX-002 (lebih besar, juga lihat Lampiran A) pada permintaan yang identik. Eksperimen kami menunjukkan bahwa dengan meningkatnya ukuran model, sensitivitas model pada desain cepat mungkin semakin mudah.
I Variasi dalam permintaan
Kami menjalankan setiap percobaan dengan 4 biji acak yang berbeda, di mana biji acak menentukan urutan contoh dalam prompt. Kami menemukan varian minimal antara berjalan menggunakan petunjuk tetap yang berbeda antara 3 run. Lebih lanjut, seperti yang ditunjukkan pada Tabel 18, 19, 20, dan 21, semua perbaikan kokogen dibandingkan davinci secara statistik (nilai-p p-
[9] Pada Juni 2022
Penulis:
(1) Aman Pasaan, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);
(2) Shuyan Zhou, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);
(3) Uri Alon, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);
(4) Yiming Yang, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]);
(5) Graham Neubig, Institut Teknologi Bahasa, Universitas Carnegie Mellon, AS ([email protected]).