Pada titik ini, seharusnya tidak ada perubahan lebih lanjut pada skrip data loader Anda setelah PR diterima.
Harap lakukan hal berikut sebelum memulai:
-
Buat akun di 🤗's Hub dan login. Pilih kata sandi yang baik, karena Anda perlu mengautentikasi kredensial Anda.
-
Bergabunglah dengan Indobenchmark di sini.
- klik tombol "Request to join this org" di sudut kanan atas.
-
Buat akun github; Anda dapat mengikuti petunjuk untuk menginstal git di sini.
Catatan - izin Anda akan disetel ke READ. Silakan hubungi admin di masalah github dataset Anda untuk diberikan akses WRITE; ini harus diberikan setelah PR Anda diterima.
Anda dapat menemukan petunjuk resmi di sini. Kami akan menyediakan apa yang Anda butuhkan untuk lingkungan hackathon nusantara-datasets.
Aktifkan environment nusantara
Anda, gunakan perintah berikut:
huggingface-cli login
Masuk dengan nama pengguna dan kata sandi akun 🤗 Hub Anda.
Buat repositori melalui Hub di sini dengan detail berikut.
- Set Owner: nusantara-datasets
- Set Dataset name: the name of the dataset
- Set License: the license that applies to this dataset
- Select Private
- Click
Create dataset
Harap beri nama skrip data loader Anda dengan nama yang sama dengan dataset. Misalnya, jika skrip pemuat dataset Anda disebut absa_prosa.py
, maka nama dataset Anda harus absa_prosa
.
Jika tidak ada lisensi yang sesuai yang tersedia dalam opsi yang disediakan (misalnya untuk dataset dengan perjanjian pengguna data tertentu), Anda harus memilih "other".
Menggunakan akses terminal, temukan lokasi untuk menempatkan repositori github Anda. Di lokasi ini, gunakan perintah berikut:
git clone https://huggingface.co/datasets/indobenchmark/<nama_dataset_anda>
Jalankan perintah berikut untuk menambah dan mendorong pekerjaan Anda.
git add <nama_file_anda.py> # tambahkan dataset
git commit -m "Menambahkan <nama_dataset_anda>"
git push origin
Jalankan perintah berikut dalam folder yang tidak menyertakan skrip data loader:
Uji dataset baik itu dengan skema/config asli maupun skema/config nusantara.
Dataset Publik
from datasets import load_dataset
dataset_orig = load_dataset("indobenchmark/<nama_dataset_anda>", name="source", use_auth_token=True)
dataset_indobenchmark= load_dataset("indobenchmark/<nama_dataset_anda>", name="indobenchmark", use_auth_token=True)
Set Data Pribadi
from datasets import load_dataset
dataset_orig = load_dataset(
"indobenchmark/<nama_dataset_anda>",
name="source",
data_dir="/local/path/menuju/data/files",
use_auth_token=True)
dataset_indobenchmark = load_dataset(
"indobenchmark/<nama_dataset_anda>",
name="indobenchmark",
data_dir="/local/path/menuju/data/files",
use_auth_token=True)
Dan dengan ini, Anda telah berhasil berkontribusi dengan membuat data-loading script!