Penulis:
(1) Yanpeng Ye, Sekolah Ilmu Komputer dan Teknik, Universitas New South Wales, Kensington, NSW, Australia, Greendynamics Pty. Ltd, Kensington, NSW, Australia, dan penulis ini berkontribusi sama terhadap pekerjaan ini;
(2) Jie Ren, Greendynamics Pty. Ltd, Kensington, NSW, Australia, Departemen Ilmu dan Teknik Bahan, Universitas Kota Hong Kong, Hong Kong, Cina, dan para penulis ini berkontribusi sama terhadap pekerjaan ini;
(3) Shaozhou Wang, Greendynamics Pty. Ltd, Kensington, NSW, Australia ([email protected]);
(4) Yuwei Wan, Greendynamics Pty. Ltd, Kensington, NSW, Australia dan Departemen Linguistik dan Terjemahan, Universitas Kota Hong Kong, Hong Kong, Cina;
(5) Imran Razzak, Sekolah Ilmu Komputer dan Teknik, Universitas New South Wales, Kensington, NSW, Australia;
(6) Tong Xie, Greendynamics Pty. Ltd, Kensington, NSW, Australia dan Sekolah Teknik Energi Photovoltaic dan Terbarukan, Universitas New South Wales, Kensington, NSW, Australia (Australia (Australia[email protected]);
(7) Wenjie Zhang, Sekolah Ilmu Komputer dan Teknik, Universitas New South Wales, Kensington, NSW, Australia ([email protected]).
Catatan Editor: Artikel ini adalah bagian dari studi yang lebih luas. Anda membaca Bagian 1 dari 9. Baca sisanya di bawah ini.
Tabel tautan
ABSTRAK
Konvergensi ilmu material dan kecerdasan buatan telah membuka kesempatan baru untuk mengumpulkan, menganalisis, dan menghasilkan bahan -bahan baru yang bersumber dari literatur ilmiah yang luas. Terlepas dari manfaat potensial, tantangan yang terus -menerus seperti anotasi manual, ekstraksi yang tepat, dan masalah penelusuran tetap ada. Model bahasa besar telah muncul sebagai solusi yang menjanjikan untuk mengatasi hambatan ini. Makalah ini memperkenalkan grafik pengetahuan bahan fungsional (FMKG), grafik pengetahuan sains multidisiplin. Melalui pemanfaatan teknik pemrosesan bahasa alami canggih, mengekstraksi jutaan entitas untuk membentuk tiga kali lipat dari korpus yang terdiri dari semua makalah penelitian berkualitas tinggi yang diterbitkan dalam dekade terakhir. Ini mengatur informasi yang tidak terstruktur ke dalam sembilan label berbeda, mencakup nama, rumus, akronim, struktur/fase, properti, deskriptor, sintesis, metode karakterisasi, aplikasi, dan domain, mengintegrasikan pengidentifikasi objek digital makalah yang mulus. Sebagai database terstruktur terbaru untuk bahan fungsional, FMKG bertindak sebagai katalis yang kuat untuk mempercepat pengembangan bahan fungsional dan dana untuk membangun grafik pengetahuan material yang lebih komprehensif menggunakan teks kertas lengkap. Selain itu, penelitian kami meletakkan dasar untuk sistem manajemen pengetahuan berbasis teks praktis, tidak hanya dalam sistem bahan yang rumit tetapi juga berlaku untuk domain khusus lainnya.
Perkenalan
Di era informasi kontemporer, meskipun ada kemajuan penting, penciptaan dan kemajuan bahan baru yang masih sangat bergantung pada metode triad-and-orror tradisional yang terkait dengan intuisi kimia dan fisik. Pendekatan penelitian konvensional ini secara signifikan menghambat siklus hidup penelitian material berkinerja tinggi. Mengingat spesialisasi, kompleksitas yang melekat, dan basis pengetahuan yang luas dari ilmu material, para peneliti yang berfokus pada satu arah yang sering berjuang untuk mengakses dan memahami pengetahuan material secara efisien dari studi multidisiplin. Misalnya, para peneliti dalam pengembangan sel surya mungkin tidak sepenuhnya memahami studi yang terkait dengan baterai solid-state atau dioda pemancar cahaya organik. Namun, sifat elektronik bahan di berbagai domain ini sangat terkait, dan para peneliti di berbagai domain berpotensi saling belajar. Untuk mempercepat kemajuan penelitian material, ada kebutuhan mendesak untuk mengintegrasikan pengetahuan secara efisien dari berbagai disiplin ilmu[1]. Namun, pengetahuan vital ini tersebar di beragam lebih dari 10 juta makalah ilmiah, mencakup beragam topik dan disiplin seperti persiapan bahan dan metode fungsionalisasi, teknik karakterisasi bahan canggih, dan eksplorasi sifat fisik, kimia, dan biologis, bersama dengan aplikasi mereka di bidang seperti alat elektronik, penyimpanan energi bersih dan transfer, dan mesin. Fragmentasi pengetahuan ini merupakan hambatan yang signifikan untuk kolaborasi dan inovasi interdisipliner. Kesenjangan kritis dalam infrastruktur penelitian saat ini adalah kurangnya basis data sains material yang efektif yang dapat mengkonsolidasikan pengetahuan yang tersebar ini, memfasilitasi akses yang lebih mudah dan integrasi interdisipliner.
Terlepas dari adanya basis data literatur ilmiah saat ini seperti Scopus, Web of Science, dan Crossref, yang menawarkan cara untuk mencari makalah penelitian berdasarkan label spesifik, mengekstraksi informasi yang berguna tentang ilmu material dari lautan literatur yang luas tetap menuntut. Untuk mendapatkan rasa sifat material yang lebih jelas beberapa proyek basis data terstruktur seperti ARXIV: 2404.03080v1 [cs.CL] 3 Apr 2024 Proyek Bahan[2]Oqmd[3]dan nomad[4] dikembangkan. Namun, basis data ini mengandung banyak hasil komputasi yang diperoleh melalui teknik seperti teori fungsional kepadatan (DFT) atau simulasi dinamika molekuler (MD)[5]. Sementara basis data komputasi ini dapat memberikan referensi yang berharga untuk memprediksi dan memahami sistem bahan tertentu, mereka sering menghadapi perbedaan dengan pengamatan eksperimental. Oleh karena itu, ada kebutuhan mendesak dalam bidang ilmu material untuk database yang didasarkan pada penelitian eksperimental dan informasi praktis.
Selain itu, kompleksitas informasi bahan melampaui komposisi dan struktur untuk mencakup bidang aplikasi masing -masing. Misalnya, bahan organik umumnya digunakan dalam aplikasi biologis, semikonduktor berfungsi sebagai komponen integral dalam elektronik, dan logam menemukan aplikasi dalam rekayasa mesin. Proses merancang bahan baru biasanya dimulai dengan pemahaman yang jelas tentang aplikasi yang dimaksudkan, yang bertujuan untuk memaksimalkan efisiensi penelitian. Mengingat konteks ini, dibandingkan dengan basis data universal seperti proyek material, yang mungkin tidak berguna karena fokusnya yang luas, basis data spesifik yang difokuskan pada aplikasi atau sifat -sifat yang berpotensi memberikan informasi yang lebih berharga bagi para peneliti di industri yang relevan. Ini menggarisbawahi pentingnya mengembangkan database khusus yang memenuhi kebutuhan nuansa penelitian ilmu material, memfasilitasi pendekatan yang lebih bertarget untuk penemuan dan aplikasi material.
Grafik Pengetahuan (KG) adalah representasi terstruktur dari informasi yang memodelkan kosa kata yang terkontrol dan hubungan ontologis dari domain topikal sebagai node dan tepi, memungkinkan kueri dan wawasan kompleks yang tidak dapat disediakan oleh basis data tradisional dengan mudah. Adopsi grafik pengetahuan menawarkan beberapa keuntungan, termasuk peningkatan interoperabilitas data, kemampuan untuk menyimpulkan pengetahuan baru melalui analisis data relasional, dan peningkatan kualitas dan konsistensi data melalui representasi terstruktur[6, 7]. Fitur-fitur ini membuat grafik pengetahuan sangat berharga untuk mengintegrasikan beragam sumber informasi dan memberikan pandangan terpadu tentang pengetahuan domain, sehingga memfasilitasi pengambilan keputusan dan penemuan yang lebih tepat[8]. Namun, konstruksi grafik pengetahuan di bidang tertentu selalu membutuhkan partisipasi sejumlah besar ahli[9]. Proses intensif kerja ini tidak hanya membatasi skalabilitas KG tetapi juga berdampak pada kinerja dan ketepatan waktu mereka. Dengan perkembangan cepat pemrosesan bahasa alami (NLP), metode untuk mengekstraksi informasi dari teks yang tidak terstruktur dan membangun grafik pengetahuan menjadi lebih efisien dan akurat[11]. Misalnya, pada tahun 2016, Grafik Pengetahuan Bahan Logam (MMKG) dikembangkan untuk menyimpan informasi bahan dari berbagai sumber data web[12]. Grafik pengetahuan yang disesuaikan dengan katoda baterai lithium-ion telah dibangun, yang ditujukan untuk mengidentifikasi kandidat bahan baru yang potensial[13]. Basis data yang ramah pengguna yang berfokus pada jenis materi tertentu, seperti grafik pengetahuan kerangka kerja logam-organik (MOF-kg), telah dikembangkan[14]. Baru -baru ini, grafik pengetahuan material, matkg dan matkg2, yang berisi informasi tentang sifat material, struktur, dan aplikasi, telah dikembangkan[1, 15].
Namun, grafik pengetahuan material ini menghadapi tantangan yang lebih besar. Pertama, meskipun kemajuan dalam teknologi NLP telah mengurangi ketergantungan pada para ahli sampai batas tertentu, data pelatihan masih membutuhkan anotasi yang luas untuk meningkatkan akurasi model[16]. Kedua, konstruksi grafik pengetahuan ini sering melibatkan memprediksi hubungan antara node untuk membentuk tiga kali lipat, yang berarti entitas yang diwakili dalam KG tidak selalu didasarkan pada contoh nyata[17]. Ini dapat mengurangi keaslian dan kredibilitas KG. Selain itu, pendekatan ini membuat memperbarui grafik pengetahuan menjadi sulit, karena setiap node baru yang diperkenalkan mengharuskan memprediksi hubungannya dengan setiap node lainnya, memperumit pemeliharaan grafik pengetahuan yang dinamis dan akurat, terutama di bidang canggih seperti ilmu material. Mengakui tantangan -tantangan ini, kemunculan LLM seperti GPT dan Llama merupakan terobosan, menawarkan solusi baru untuk meningkatkan ekstraksi dan kredibilitas informasi terstruktur[18]19. Teknik penyempurnaan LLMS dapat secara signifikan meningkatkan kinerja mereka dalam tugas teks domain tertentu melalui pelatihan dengan lebih sedikit sampel[20 , 21]. Ini berarti meningkatkan hasil NER dan RE tanpa memerlukan sejumlah besar tenaga kerja menjadi mungkin dan diadopsi dalam penelitian kami.
Dalam makalah ini, kami telah mencapai kemajuan yang signifikan dalam pengembangan grafik pengetahuan bahan fungsional (FMKG), database grafik perintis yang dirancang untuk bidang bahan fungsional. Kontribusi kami disorot dalam tiga bidang utama: 1) Kami mengusulkan metode untuk mencapai pengenalan entitas bernama (NER), ekstraksi relasi (RE) dan resolusi entitas (ER) dengan akurasi tinggi. Melalui metode ini, kami dapat dengan mudah mengubah teks yang tidak terstruktur menjadi tiga kali lipat dan menyimpan informasi sumber dari setiap triplet. Metode ini juga membuat pembaruan KG sangat nyaman. 2) Kami membangun grafik pengetahuan pertama yang didedikasikan untuk bahan fungsional, di mana para peneliti dapat dengan mudah mendapatkan informasi tentang materi fungsional melalui kueri FMKG. 3) Kami menggunakan sistem label yang terdefinisi dengan baik sehingga KG kami dapat dengan mudah ditingkatkan dan berpotensi dikombinasikan dengan database terstruktur atau KG lainnya.