Read this README in English.
NLP Indonesia kurang terwakili dalam komunitas riset, dan salah satu alasannya adalah kurangnya akses ke dataset publik (Aji et al., 2022). Untuk mengatasi masalah ini, kami memulai NusaCrowd, kolaborasi bersama untuk mengumpulkan dataset NLP untuk bahasa Indonesia. Bantu kami mengumpulkan dan memusatkan dataset NLP Indonesia, dan menjadi rekan penulis makalah penelitian kami yang akan datang.
Install nusacrowd
di dalam python environment dengan menggunakan command berikut
pip install nusacrowd
Untuk menggunakan NusaCrowd, import
library nusacrowd
di dalam kode dengan menggunakan kode berikut:
import nusacrowd as nc
NusaCrowd menyediakan fungsi-fungsi untuk list & load setiap datasets yang sudah diimplementasikan di NusaCrowd
# List all datasets
dset_names = nc.list_datasets()
# Load a single dataset based on the dataset name
smsa_dset = nc.load_dataset('smsa')
# Load multiple datasets based on the dataset names
dset_dict = nc.load_dataset(['emot', 'smsa'])
Disamping fungsi-fungsi diatas, NusaCrowd juga menyediakan fungsi-fungsi tambahan untuk melakukan list & load NLP benchmark dalam bahasa Indonesia
# List all benchmarks
benchmark_names = nc.list_benchmarks()
# Load all dataset in a benchmark
nusanlu_dsets = nc.load_benchmark('NusaNLU')
Anda dapat berkontribusi dengan mengajukan set data NLP yang tidak terdaftar di catatan kami. Cukup isi formulir ini, dan kami akan memeriksa dan menyetujui entri Anda.
Kami akan memberikan poin kontribusi berdasarkan beberapa faktor, antara lain: kualitas dataset, kelangkaan bahasa, atau kelangkaan downstream task.
Anda juga dapat mengajukan dataset dari pekerjaan Anda yang lampau, yang masih belum terbuka untuk umum. Pada kasus ini, Anda harus membuat dataset Anda terbuka dengan cara meng-uploadnya ke publik, misalnya melalui Github atau Google Drive.
Anda dapat mengirimkan beberapa entri, dan jika total poin kontribusi sudah di atas ambang batas, kami akan menyertakan Anda sebagai rekan penulis (Umumnya cukup mengajukan 1-2 dataset). Baca metode penghitungan poin selengkapnya di sini.
Catatan: Kami tidak mengambil kepemilikan dari dataset yang disubmit. Lihat FAQ di bawah.
Ya! Selain pengumpulan dataset baru, kami juga memusatkan dataset yang ada dalam satu skema yang memudahkan peneliti untuk menggunakan dataset NLP Indonesia. Anda dapat membantu kami di sana dengan membuat pemuat dataset. Untuk detail lebih lanjut tentang itu, bisa ditemukan di sini.
Sebagai alternatif, kami juga mendata paper-paper riset NLP di bahasa-bahasa Indonesia yang mana mereka masih belum membuka datasetnya. Kami akan menghubungi para penulis paper-paper tersebut nanti untuk terlibat di NusaCrowd. Lebih lanjut tentang ini ada di Slack server kami.
NusaCrowd tidak membuat duplikat atau salinan dari dataset yang disubmit. Maka, pemilik dataset yang disubmit tetap berada di author asli. NusaCrowd hanya sebatas membuat dataloader, yaitu pengunduh file dan pembaca data untuk menyederhanakan dan mengstandarisasi proses pembacaan data. Kami juga hanya mengumpulkan metadata dari dataset yang disubmit untuk ditampilkan di katalog kami agar dataset Anda lebih mudah ditemukan! Sitasi ke pemilik data asli juga disediakan baik di NusaCrowd atau di katalog kami.
Lisensi untuk dataset tidak selalu jelas. Berikut adalah beberapa strategi yang bisa dicoba dalam pencarian Anda,
- periksa file seperti README atau LICENSE yang mungkin didistribusikan dengan dataset itu sendiri
- periksa halaman web dataset
- periksa makalah penelitian atau publikasi yang mengumumkan rilis dataset
- periksa situs web organisasi yang menyediakan dataset
Jika tidak ada lisensi resmi yang tercantum di mana pun, tetapi Anda menemukan halaman web yang menjelaskan kebijakan penggunaan data umum untuk dataset, Anda dapat kembali menyediakan URL tersebut dalam variabel _LICENSE
. Jika Anda tidak dapat menemukan informasi lisensi apa pun, harap dicatat di PR Anda dan masukkan _LICENSE="Unknown"
di script dataset Anda.
Anda dapat mengunggah dataset Anda secara publik terlebih dahulu, mis. di Github.
Jika Anda memiliki ide untuk repositori nusa-crowd, silakan buat issue
dan mintalah umpan balik
sebelum memulai PR apa pun.
Ya, kamu dapat kirimkan pertanyaanmu di kanal komunitas NusaCrowd! Silakan bergabung ke kanal komunitas NusaCrowd di grup WhatsApp kami dan server Slack.
Kami sangat menghargai bantuan Anda!
Artefak hackathon ini akan dijelaskan dalam makalah penelitian akademis mendatang yang menargetkan machine learning atau NLP audiens. Silakan merujuk ke bagian ini untuk imbalan kontribusi Anda karena membantu Nusantara NLP. Kami menyadari bahwa beberapa dataset memerlukan lebih banyak upaya daripada yang lain, jadi hubungi kami jika Anda memiliki pertanyaan. Tujuan kami adalah menjadi inklusif dengan kredit!
@misc{cahyawijaya2022nusacrowd,
title={NusaCrowd: Open Source Initiative for Indonesian NLP Resources},
author={Samuel Cahyawijaya and Holy Lovenia and Alham Fikri Aji and Genta Indra Winata and Bryan Wilie and Rahmad Mahendra and Christian Wibisono and Ade Romadhony and Karissa Vincentio and Fajri Koto and Jennifer Santoso and David Moeljadi and Cahya Wirawan and Frederikus Hudi and Ivan Halim Parmonangan and Ika Alfina and Muhammad Satrio Wicaksono and Ilham Firdausi Putra and Samsul Rahmadani and Yulianti Oenang and Ali Akbar Septiandri and James Jaya and Kaustubh D. Dhole and Arie Ardiyanti Suryani and Rifki Afina Putri and Dan Su and Keith Stevens and Made Nindyatama Nityasya and Muhammad Farid Adilazuarda and Ryan Ignatius and Ryandito Diandaru and Tiezheng Yu and Vito Ghifari and Wenliang Dai and Yan Xu and Dyah Damapuspita and Cuk Tho and Ichwanul Muslim Karo Karo and Tirana Noor Fatyanosa and Ziwei Ji and Pascale Fung and Graham Neubig and Timothy Baldwin and Sebastian Ruder and Herry Sujaini and Sakriani Sakti and Ayu Purwarianti},
year={2022},
eprint={2212.09648},
archivePrefix={arXiv},
primaryClass={cs.CL}
}