Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Buat kumpulan data
catatan
Jika Anda mengimpor kumpulan data yang lebih besar dari 5 GB ke Amazon SageMaker Canvas, sebaiknya gunakan fitur Data Wrangler di Canvas untuk membuat aliran data. Data Wrangler mendukung fitur persiapan data lanjutan seperti menggabungkan dan menggabungkan data. Setelah Anda membuat aliran data, Anda dapat mengekspor aliran data Anda sebagai dataset Canvas dan mulai membangun model. Untuk informasi selengkapnya, lihat Ekspor untuk membuat model.
Bagian berikut menjelaskan cara membuat kumpulan data di Amazon SageMaker Canvas. Untuk model khusus, Anda dapat membuat kumpulan data untuk data tabel dan gambar. Untuk Ready-to-use model, Anda dapat menggunakan kumpulan data tabel dan gambar serta kumpulan data dokumen. Pilih alur kerja Anda berdasarkan informasi berikut:
-
Untuk data kategoris, numerik, teks, dan timeseries, lihat. Impor data tabular
-
Untuk data gambar, lihatImpor data gambar.
-
Untuk data dokumen, lihatImpor data dokumen.
Dataset dapat terdiri dari beberapa file. Misalnya, Anda mungkin memiliki beberapa file data inventaris dalam CSV format. Anda dapat mengunggah file-file ini bersama-sama sebagai kumpulan data selama skema (atau nama kolom dan tipe data) file cocok.
Canvas juga mendukung pengelolaan beberapa versi dataset Anda. Saat Anda membuat kumpulan data, versi pertama diberi label sebagai. V1
Anda dapat membuat versi baru dari dataset Anda dengan memperbarui dataset Anda. Anda dapat melakukan pembaruan manual, atau Anda dapat mengatur jadwal otomatis untuk memperbarui kumpulan data Anda dengan data baru. Untuk informasi selengkapnya, lihat Memperbarui kumpulan data.
Saat Anda mengimpor data ke Canvas, pastikan data tersebut memenuhi persyaratan dalam tabel berikut. Keterbatasan khusus untuk jenis model yang Anda bangun.
Kuota | 2 kategori, 3+ kategori, numerik, dan model deret waktu | Model prediksi teks | Model prediksi gambar | * Data dokumen untuk model Ready-to-use |
---|---|---|---|---|
Tipe file yang didukung |
CSVdan Parket (unggahan lokal, Amazon S3, atau database) JSON(database) |
CSVdan Parket (unggahan lokal, Amazon S3, atau database) JSON(database) |
JPG, PNG |
PDF, JPG, PNG, TIFF |
Ukuran maksimum file |
Unggahan lokal: 5 GB Sumber data: PBs |
Unggahan lokal: 5 GB Sumber data: PBs |
30 MB per gambar |
5 MB per dokumen |
Jumlah maksimum file yang dapat Anda unggah sekaligus |
30 |
30 |
N/A |
N/A |
Jumlah kolom maksimum |
1.000 |
1.000 |
N/A |
N/A |
Jumlah maksimum entri (baris, gambar, atau dokumen) untuk build Cepat |
N/A |
7500 baris |
5000 gambar |
N/A |
Jumlah maksimum entri (baris, gambar, atau dokumen) untuk build Standar |
N/A |
150.000 baris |
180.000 gambar |
N/A |
Jumlah minimum entri (baris) untuk build Cepat |
2 kategori: 500 baris 3+ kategori, numerik, deret waktu: N/A |
N/A |
N/A |
N/A |
Jumlah minimum entri (baris, gambar, atau dokumen) untuk build Standar |
250 baris |
50 baris |
50 gambar |
N/A |
Jumlah minimum entri (baris atau gambar) per label |
N/A |
25 baris |
25 baris |
N/A |
Jumlah minimum label |
2 kategori: 2 3+ kategori: 3 Numerik, deret waktu: N/A |
2 |
2 |
N/A |
Ukuran sampel minimum untuk pengambilan sampel acak |
500 |
N/A |
N/A |
N/A |
Ukuran sampel maksimum untuk pengambilan sampel acak |
200.000 |
N/A |
N/A |
N/A |
Jumlah label maksimum |
2 kategori: 2 3+ kategori, numerik, deret waktu: N/A |
1000 |
1000 |
N/A |
*Data dokumen saat ini hanya didukung untuk Ready-to-use model yang menerima data dokumen. Anda tidak dapat membuat model kustom dengan data dokumen.
Perhatikan juga batasan berikut:
-
Saat mengimpor data dari bucket Amazon S3, pastikan nama bucket Amazon S3 Anda tidak berisi file.
.
Jika nama bucket berisi a.
, Anda mungkin mengalami error saat mencoba mengimpor data ke Canvas. -
Untuk data tabular, Canvas melarang memilih file apa pun dengan ekstensi selain .csv, .parquet, .parq, dan.pqt untuk unggahan lokal dan impor Amazon S3. CSVfile dapat menggunakan pembatas umum atau kustom, dan mereka tidak boleh memiliki karakter baris baru kecuali saat menunjukkan baris baru.
-
Untuk data tabular menggunakan file Parket, perhatikan hal berikut:
File parket tidak dapat menyertakan tipe kompleks seperti peta dan daftar.
Nama kolom file Parket tidak dapat berisi spasi.
Jika menggunakan kompresi, file Parket harus menggunakan jenis kompresi gzip atau snappy. Untuk informasi selengkapnya tentang jenis kompresi sebelumnya, lihat dokumentasi gzip dan dokumentasi
tajam.
-
Untuk data gambar, jika Anda memiliki gambar yang tidak berlabel, Anda harus memberi label sebelum membuat model Anda. Untuk informasi tentang cara menetapkan label ke gambar dalam aplikasi Canvas, lihatMengedit kumpulan data gambar.
-
Jika Anda mengatur pembaruan kumpulan data otomatis atau konfigurasi prediksi batch otomatis, Anda hanya dapat membuat total 20 konfigurasi di aplikasi Canvas Anda. Untuk informasi selengkapnya, lihat Cara mengelola otomatisasi.
Setelah mengimpor kumpulan data, Anda dapat melihat kumpulan data Anda di halaman Datasets kapan saja.
Impor data tabular
Dengan kumpulan data tabular, Anda dapat membuat model prediksi kategoris, numerik, deret waktu, dan prediksi teks. Tinjau tabel batasan di bagian Impor kumpulan data sebelumnya untuk memastikan bahwa data Anda memenuhi persyaratan untuk data tabular.
Gunakan prosedur berikut untuk mengimpor dataset tabular ke Canvas:
-
Buka aplikasi SageMaker Canvas Anda.
-
Di panel navigasi kiri, pilih Datasets.
-
Pilih Impor data.
-
Dari menu dropdown, pilih Tabular.
-
Di kotak dialog popup, di bidang Nama dataset, masukkan nama untuk kumpulan data dan pilih Buat.
-
Pada halaman Create tabular dataset, buka menu tarik-turun Sumber Data.
-
Pilih sumber data Anda:
-
Untuk mengunggah file dari komputer Anda, pilih Unggah lokal.
-
Untuk mengimpor data dari sumber lain, seperti bucket Amazon S3 atau database Snowflake, cari sumber data Anda di bilah sumber data Penelusuran. Kemudian, pilih ubin untuk sumber data yang Anda inginkan.
catatan
Anda hanya dapat mengimpor data dari ubin yang memiliki koneksi aktif. Jika Anda ingin terhubung ke sumber data yang tidak tersedia untuk Anda, hubungi administrator Anda. Jika Anda seorang administrator, lihatConnect ke sumber data.
Tangkapan layar berikut menunjukkan Sumber Data menu tarik-turun.
-
-
(Opsional) Jika Anda menyambung ke database Amazon Redshift atau Snowflake untuk pertama kalinya, kotak dialog akan muncul untuk membuat sambungan. Isi kotak dialog dengan kredensialmu dan pilih Buat koneksi. Jika Anda sudah memiliki koneksi, pilih koneksi Anda.
-
Dari sumber data Anda, pilih file yang akan diimpor. Untuk mengunggah dan mengimpor lokal dari Amazon S3, Anda dapat memilih file. Hanya untuk Amazon S3, Anda juga memiliki opsi untuk langsung memasukkan S3URI, alias, atau bucket atau ARN titik akses S3 Anda di bidang titik akhir Input S3, lalu pilih file yang akan diimpor. Untuk sumber database, Anda dapat tabel drag-and-drop data dari panel navigasi kiri.
-
(Opsional) Untuk sumber data tabular yang mendukung SQL kueri (seperti Amazon Redshift, Amazon Athena, atau Snowflake), Anda dapat memilih Edit SQL untuk membuat kueri sebelum mengimpornya. SQL
Tangkapan layar berikut menunjukkan SQL tampilan Edit untuk sumber data Amazon Athena.
-
Pilih Pratinjau kumpulan data untuk melihat pratinjau data Anda sebelum mengimpornya.
-
Dalam pengaturan Impor, masukkan nama Dataset atau gunakan nama dataset default.
-
(Opsional) Untuk data yang Anda impor dari Amazon S3, Anda akan ditampilkan Pengaturan lanjutan dan dapat mengisi kolom berikut:
Aktifkan opsi Gunakan baris pertama sebagai header jika Anda ingin menggunakan baris pertama kumpulan data Anda sebagai nama kolom. Jika Anda memilih beberapa file, ini berlaku untuk setiap file.
Jika Anda mengimpor CSV file, untuk dropdown File encoding (CSV), pilih encoding file dataset Anda.
UTF-8
adalah default.Untuk dropdown Delimiter, pilih pembatas yang memisahkan setiap sel dalam data Anda. Pembatas default adalah.
,
Anda juga dapat menentukan pembatas khusus.Pilih Deteksi multi-baris jika Anda ingin Canvas mengurai seluruh kumpulan data Anda secara manual untuk sel multi-baris. Secara default, opsi ini tidak dipilih dan Canvas menentukan apakah akan menggunakan dukungan multi-baris atau tidak dengan mengambil sampel data Anda. Namun, Canvas mungkin tidak mendeteksi sel multi-baris dalam sampel. Jika Anda memiliki sel multi-baris, kami sarankan Anda memilih opsi Deteksi multi-baris untuk memaksa Canvas memeriksa seluruh kumpulan data Anda untuk sel multi-baris.
Saat Anda siap mengimpor data, pilih Buat kumpulan data.
Saat dataset Anda mengimpor ke Canvas, Anda dapat melihat kumpulan data Anda terdaftar di halaman Datasets. Dari halaman ini, Anda bisaLihat detail dataset Anda.
Ketika Status kumpulan data Anda ditampilkan sebagaiReady
, Canvas berhasil mengimpor data Anda dan Anda dapat melanjutkan dengan membangun model.
Jika Anda memiliki koneksi ke sumber data, seperti database Amazon Redshift atau konektor SaaS, Anda dapat kembali ke koneksi itu. Untuk Amazon Redshift dan Snowflake, Anda dapat menambahkan koneksi lain dengan membuat kumpulan data lain, kembali ke halaman Impor data, dan memilih ubin Sumber Data untuk koneksi tersebut. Dari menu tarik-turun, Anda dapat membuka koneksi sebelumnya atau memilih Tambahkan koneksi.
catatan
Untuk platform SaaS, Anda hanya dapat memiliki satu koneksi per sumber data.
Impor data gambar
Dengan kumpulan data gambar, Anda dapat membuat model kustom prediksi gambar label tunggal, yang memprediksi label untuk gambar. Tinjau batasan di bagian Impor kumpulan data sebelumnya untuk memastikan bahwa kumpulan data gambar Anda memenuhi persyaratan untuk data gambar.
catatan
Anda hanya dapat mengimpor kumpulan data gambar dari unggahan file lokal atau bucket Amazon S3. Selain itu, untuk kumpulan data gambar, Anda harus memiliki setidaknya 25 gambar per label.
Gunakan prosedur berikut untuk mengimpor dataset gambar ke Canvas:
-
Buka aplikasi SageMaker Canvas Anda.
-
Di panel navigasi kiri, pilih Datasets.
-
Pilih Impor data.
-
Dari menu dropdown, pilih Gambar.
-
Di kotak dialog popup, di bidang Nama dataset, masukkan nama untuk kumpulan data dan pilih Buat.
-
Pada halaman Impor, buka menu tarik-turun Sumber Data.
-
Pilih sumber data Anda. Untuk mengunggah file dari komputer Anda, pilih Unggah lokal. Untuk mengimpor file dari Amazon S3, pilih Amazon S3.
-
Dari komputer atau bucket Amazon S3 Anda, pilih gambar atau folder gambar yang ingin Anda unggah.
-
Saat Anda siap mengimpor data, pilih Impor data.
Saat dataset Anda mengimpor ke Canvas, Anda dapat melihat kumpulan data Anda terdaftar di halaman Datasets. Dari halaman ini, Anda bisaLihat detail dataset Anda.
Ketika Status kumpulan data Anda ditampilkan sebagaiReady
, Canvas berhasil mengimpor data Anda dan Anda dapat melanjutkan dengan membangun model.
Saat membuat model, Anda dapat mengedit kumpulan data gambar, dan Anda dapat menetapkan atau menetapkan ulang label, menambahkan gambar, atau menghapus gambar dari kumpulan data Anda. Untuk informasi selengkapnya tentang cara mengedit kumpulan data gambar Anda, lihatMengedit kumpulan data gambar.
Impor data dokumen
Ready-to-useModel untuk analisis pengeluaran, analisis dokumen identitas, analisis dokumen, dan kueri dokumen mendukung data dokumen. Anda tidak dapat membuat model kustom dengan data dokumen.
Dengan kumpulan data dokumen, Anda dapat menghasilkan prediksi untuk analisis pengeluaran, analisis dokumen identitas, analisis dokumen, dan model kueri dokumen. Ready-to-use Tinjau tabel batasan di Buat kumpulan data bagian untuk memastikan bahwa kumpulan data dokumen Anda memenuhi persyaratan untuk data dokumen.
catatan
Anda hanya dapat mengimpor kumpulan data dokumen dari unggahan file lokal atau bucket Amazon S3.
Gunakan prosedur berikut untuk mengimpor dataset dokumen ke Canvas:
-
Buka aplikasi SageMaker Canvas Anda.
-
Di panel navigasi kiri, pilih Datasets.
-
Pilih Impor data.
-
Dari menu dropdown, pilih Document.
-
Di kotak dialog popup, di bidang Nama dataset, masukkan nama untuk kumpulan data dan pilih Buat.
-
Pada halaman Impor, buka menu tarik-turun Sumber Data.
-
Pilih sumber data Anda. Untuk mengunggah file dari komputer Anda, pilih Unggah lokal. Untuk mengimpor file dari Amazon S3, pilih Amazon S3.
-
Dari komputer atau bucket Amazon S3 Anda, pilih file dokumen yang ingin Anda unggah.
-
Saat Anda siap mengimpor data, pilih Impor data.
Saat dataset Anda mengimpor ke Canvas, Anda dapat melihat kumpulan data Anda terdaftar di halaman Datasets. Dari halaman ini, Anda bisaLihat detail dataset Anda.
Ketika Status kumpulan data Anda ditampilkan sebagaiReady
, Canvas telah berhasil mengimpor data Anda.
Pada halaman Datasets, Anda dapat memilih dataset Anda untuk melihat pratinjau, yang menunjukkan hingga 100 dokumen pertama dari dataset Anda.
Lihat detail dataset Anda
Untuk setiap kumpulan data, Anda dapat melihat semua file dalam kumpulan data, riwayat versi kumpulan data, dan konfigurasi pembaruan otomatis apa pun untuk kumpulan data. Dari halaman Datasets, Anda juga dapat memulai tindakan seperti atau. Memperbarui kumpulan data Cara kerja model khusus
Untuk melihat detail kumpulan data, lakukan hal berikut:
-
Buka aplikasi SageMaker Canvas.
-
Di panel navigasi kiri, pilih Datasets.
-
Dari daftar kumpulan data, pilih kumpulan data Anda.
Pada tab Data, Anda dapat melihat pratinjau data Anda. Jika Anda memilih detail Dataset, Anda dapat melihat semua file yang merupakan bagian dari kumpulan data Anda. Pilih file untuk melihat hanya data dari file itu di pratinjau. Untuk kumpulan data gambar, pratinjau hanya menampilkan 100 gambar pertama dari kumpulan data Anda.
Pada tab Riwayat versi, Anda dapat melihat daftar semua versi kumpulan data Anda. Versi baru dibuat setiap kali Anda memperbarui dataset. Untuk mempelajari lebih lanjut tentang memperbarui kumpulan data, lihatMemperbarui kumpulan data. Tangkapan layar berikut menunjukkan tab Riwayat versi di aplikasi Canvas.
Pada tab Pembaruan otomatis, Anda dapat mengaktifkan pembaruan otomatis untuk kumpulan data dan mengatur konfigurasi untuk memperbarui kumpulan data Anda pada jadwal reguler. Untuk mempelajari selengkapnya tentang menyiapkan pembaruan otomatis untuk kumpulan data, lihatKonfigurasikan pembaruan otomatis untuk kumpulan data. Tangkapan layar berikut menunjukkan tab Pembaruan otomatis dengan pembaruan otomatis diaktifkan dan daftar pekerjaan pembaruan otomatis yang telah dilakukan pada kumpulan data.