Gensyn merilis RL Swarm Framework untuk Collaborative Reinforcement Learning, berencana meluncurkan Testnet pada bulan Maret

Bitget App

Trading lebih cerdas

MPOST2025/02/27 19:22

Oleh:MPOST

Singkatnya Gensyn telah memperkenalkan RL Swarm untuk memfasilitasi pembelajaran penguatan kolaboratif dan telah mengumumkan peluncuran testnet pada bulan Maret, yang memungkinkan partisipasi yang lebih luas dalam kemajuan kecerdasan mesin terbuka.

Jaringan untuk kecerdasan mesin, Gensin , telah memperkenalkan RL Swarm, sistem peer-to-peer terdesentralisasi yang dirancang untuk memfasilitasi pembelajaran penguatan kolaboratif melalui internet. Bulan depan, proyek ini bermaksud meluncurkan testnet, yang memungkinkan partisipasi yang lebih luas dalam memajukan kecerdasan mesin terbuka.

RL Swarm adalah platform sumber terbuka sepenuhnya yang memungkinkan model pembelajaran penguatan untuk dilatih secara kolektif di seluruh sistem terdistribusi. Platform ini berfungsi sebagai demonstrasi langsung dari temuan penelitian yang menunjukkan bahwa model yang memanfaatkan RL dapat meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif, bukan secara terpisah.

Mengoperasikan simpul swarm menyediakan kemampuan untuk memulai swarm baru atau terhubung ke swarm yang sudah ada menggunakan alamat publik. Di dalam setiap swarm, model terlibat dalam pembelajaran penguatan secara kolektif, memanfaatkan protokol komunikasi terdesentralisasi—berdasarkan Hivemind—untuk memfasilitasi pembagian pengetahuan dan peningkatan model. Dengan menjalankan perangkat lunak klien yang disediakan, peserta dapat bergabung dengan swarm, mengamati pembaruan bersama, dan melatih model secara lokal sambil memanfaatkan kecerdasan kolektif. Ke depannya, eksperimen tambahan akan diperkenalkan, yang mendorong keterlibatan yang lebih luas dalam memajukan teknologi ini.

Individu diundang untuk bergabung dengan RL Swarm guna merasakan sistem ini secara langsung. Partisipasi dapat diakses melalui perangkat keras konsumen standar dan sumber daya GPU berbasis cloud yang lebih canggih.

Jaringan untuk kecerdasan mesin

Dua tahun lalu, kami memaparkan visi kami untuk protokol komputasi pembelajaran mesin. Protokol yang menghubungkan setiap perangkat di dunia ke dalam jaringan terbuka untuk kecerdasan mesin, tanpa penjaga gerbang atau batasan buatan.

Minggu ini, kita akan… foto.twitter.com/W9WGJHiJPI
— gensynai (@gensynai) Februari 26, 2025

Bagaimana RL Swarm Bekerja?

Gensin telah lama membayangkan masa depan di mana pembelajaran mesin terdesentralisasi dan didistribusikan ke seluruh jaringan perangkat yang luas. Alih-alih mengandalkan model yang besar dan tersentralisasi, pendekatan ini akan melibatkan pemecahan model menjadi komponen yang lebih kecil dan saling terhubung yang beroperasi secara kolaboratif. Sebagai bagian dari penelitiannya terhadap visi ini, Gensyn telah mengeksplorasi berbagai jalur menuju pembelajaran yang terdesentralisasi dan baru-baru ini mengamati bahwa pembelajaran penguatan (RL) pasca-pelatihan sangat efektif ketika model berkomunikasi dan memberikan umpan balik satu sama lain.

Secara khusus, percobaan menunjukkan bahwa model RL meningkatkan efisiensi pembelajarannya saat dilatih sebagai bagian dari kelompok kolaboratif daripada secara mandiri.

Dalam pengaturan ini, setiap simpul kelompok menjalankan model Qwen 2.5 1.5B dan terlibat dalam penyelesaian masalah matematika (GSM8K) melalui proses terstruktur tiga tahap. Pada tahap pertama, setiap model secara independen mencoba menyelesaikan masalah yang diberikan, menghasilkan penalaran dan jawabannya dalam format yang ditentukan. Pada tahap kedua, model meninjau respons rekan-rekannya dan memberikan umpan balik yang membangun. Pada tahap terakhir, setiap model memberikan suara pada apa yang diprediksinya akan dianggap sebagai jawaban terbaik oleh mayoritas, kemudian menyempurnakan responsnya. Melalui interaksi berulang ini, model secara kolektif meningkatkan kemampuan pemecahan masalah mereka.

Hasil eksperimen menunjukkan bahwa metode ini mempercepat proses pembelajaran, memungkinkan model menghasilkan respons yang lebih akurat pada data uji yang tidak terlihat dengan lebih sedikit iterasi pelatihan.

Visualisasi data menggunakan TensorBoard menggambarkan tren utama yang diamati dalam node swarm yang berpartisipasi. Plot ini menunjukkan pola siklus karena "pengaturan ulang" berkala yang terjadi di antara putaran pelatihan kolaboratif. Sumbu x di semua plot menunjukkan waktu yang telah berlalu sejak node bergabung dengan swarm, sedangkan sumbu y menunjukkan metrik kinerja yang berbeda. Dari kiri ke kanan, plot menggambarkan: Consensus Correctness Reward, yang mengukur contoh saat model memformat responsnya dengan benar dan menghasilkan jawaban yang akurat secara matematis; Total Reward, jumlah tertimbang dari evaluasi berbasis aturan (seperti pemformatan, akurasi matematis, dan koherensi logis); Training Loss, yang mencerminkan bagaimana model menyesuaikan berdasarkan sinyal reward untuk mengoptimalkan proses pembelajarannya; dan Response Completion Length, yang melacak jumlah token yang digunakan dalam respons—yang menunjukkan bahwa model menjadi lebih ringkas saat menerima kritik dari rekan sejawat.

Disclaimer: Konten pada artikel ini hanya merefleksikan opini penulis dan tidak mewakili platform ini dengan kapasitas apa pun. Artikel ini tidak dimaksudkan sebagai referensi untuk membuat keputusan investasi.

PoolX: Kunci untuk token baru.

APR hingga 12%. Selalu aktif, selalu dapat airdrop.

Kunci sekarang!

Kamu mungkin juga menyukai

DeFi harus terasa 'ajaib' bagi konsumen rata-rata, kata direktur produk Coinbase di balik pinjaman baru yang didukung bitcoin

Penjelasan Singkat Direktur Produk Coinbase Michael Rihani menjelaskan bagaimana tujuan dari pinjaman baru yang didukung bitcoin oleh Coinbase adalah untuk membuat DeFi lebih mudah diakses oleh konsumen sehari-hari

The Block•2025/03/21 19:24

DeFi harus terasa 'ajaib' bagi konsumen rata-rata, kata direktur produk Coinbase di balik pinjaman baru yang didukung bitcoin

Harian: Departemen Keuangan menghapus Tornado Cash dari daftar sanksi OFAC, Metaplanet yang optimis terhadap bitcoin menunjuk Eric Trump ke dewan penasihat dan lainnya

Tinjauan Cepat Departemen Keuangan AS telah mencabut sanksi terhadap crypto mixer Tornado Cash setelah pengadilan banding memutuskan bahwa Kantor Pengawasan Aset Asing (OFAC) melampaui kewenangannya pada November 2024. Perusahaan investasi Jepang Metaplanet telah menunjuk putra kedua Presiden AS, Eric Trump, ke Dewan Penasihat Strategisnya.

The Block•2025/03/21 19:24

Harian: Departemen Keuangan menghapus Tornado Cash dari daftar sanksi OFAC, Metaplanet yang optimis terhadap bitcoin menunjuk Eric Trump ke dewan penasihat dan lainnya

Trust Wallet Mengumumkan Pertukaran Token Tanpa Biaya pada Rantai BNB untuk Meningkatkan Efisiensi Perdagangan dan Mengurangi Biaya

Singkatnya Trust Wallet mengumumkan pengaktifan biaya penyedia nol untuk semua pertukaran token di BNB Smart Chain, tersedia hingga 27 Maret.

MPOST•2025/03/21 18:33

Trust Wallet Mengumumkan Pertukaran Token Tanpa Biaya pada Rantai BNB untuk Meningkatkan Efisiensi Perdagangan dan Mengurangi Biaya

XION Kini Tersedia di Anchorage Digital, Memperluas Akses Institusional ke Lapisan 1 yang Sesuai dengan Judul II

Singkatnya Anchorage Digital kini mendukung token asli XION, yang memungkinkan pemegang aset institusional untuk menyimpan, mempertaruhkan, dan memperdagangkan XION, bertindak sebagai jembatan yang patuh antara TradFi dan ekosistem aset digital.

MPOST•2025/03/21 18:33

XION Kini Tersedia di Anchorage Digital, Memperluas Akses Institusional ke Lapisan 1 yang Sesuai dengan Judul II

Berita trending

Lainnya

DeFi harus terasa 'ajaib' bagi konsumen rata-rata, kata direktur produk Coinbase di balik pinjaman baru yang didukung bitcoin

Harian: Departemen Keuangan menghapus Tornado Cash dari daftar sanksi OFAC, Metaplanet yang optimis terhadap bitcoin menunjuk Eric Trump ke dewan penasihat dan lainnya