Penulis:
(1) Corby Rosset, Microsoft Research dan korespondensi [email protected];
(2) Ching-an Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Tabel tautan
Abstrak dan 1 Pendahuluan
2 pendahuluan
2.1 rlhf berdasarkan model hadiah
2.2 rlhf dengan preferensi umum
3 Optimalisasi NASH Langsung dan 3.1 Derivasi Algoritma 1
3.2 Analisis Teoritis
4 Algoritma Praktis-Perbaikan Diri Kontras Iteratif
5 Eksperimen dan Pengaturan Eksperimental 5.1
5.2 Hasil dan Analisis
6 Pekerjaan Terkait
7 Kesimpulan dan Referensi
Lampiran
Ekstensi ke preferensi yang diatur
B Bukti terperinci
C Detail eksperimental tambahan
B Bukti terperinci
Di bagian ini, kami memberikan bukti terperinci untuk hasil teoretis kami. Perhatikan bahwa, definisi dan asumsi yang disajikan banyak mengadopsi ide -ide yang terkait dengan ruang versi dan konsentrabilitas dari literatur teori pembelajaran penguatan (esp., Xie et al., 2021, 2023). Namun demikian, deskripsi yang disediakan di sini sengaja disederhanakan untuk menjelaskan wawasan inti ke dalam desain algoritmik. Analisis teoretis penuh dan lengkap berada di luar ruang lingkup utama makalah ini. Kami sekarang membuat definisi dan asumsi berikut.
Definisi 2 dapat dilihat sebagai perpanjangan alami dari konsentrabilitas dari literatur pembelajaran penguatan (offline) ke pengaturan kami.
Bukti Teorema 2. Kami sekarang akan menyajikan bukti menggunakan prosedur dua langkah berikut.
Langkah 1: Dari regresi dengan kehilangan log ke Squared Error terikat. Dengan hasil standar pada regresi dengan kehilangan logaritmik, kami tahu
Perhatikan bahwa hasil yang serupa juga dapat berlaku di luar π terbatas. Untuk kesederhanaan, kami menghilangkan diskusi terperinci dalam makalah kami. Untuk diskusi yang lebih mendalam tentang regresi dengan kehilangan logaritmik, pembaca dapat merujuk pada, misalnya, Foster dan Krishnamurthy (2021).
Di sisi lain, kami punya