

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Rekomendasi untuk memilih alat persiapan data yang tepat di SageMaker AI
<a name="data-prep"></a>

Persiapan data dalam pembelajaran mesin mengacu pada proses pengumpulan, preprocessing, dan pengorganisasian data mentah agar sesuai untuk analisis dan pemodelan. Langkah ini memastikan bahwa data dalam format dari mana algoritma pembelajaran mesin dapat dipelajari secara efektif. Tugas persiapan data dapat mencakup penanganan nilai yang hilang, menghapus outlier, fitur penskalaan, pengkodean variabel kategoris, menilai potensi bias dan mengambil langkah-langkah untuk menguranginya, membagi data menjadi set pelatihan dan pengujian, pelabelan, dan transformasi lain yang diperlukan untuk mengoptimalkan kualitas dan kegunaan data untuk tugas pembelajaran mesin berikutnya.

## Pilih fitur
<a name="data-prep-choose"></a>

Ada 3 kasus penggunaan utama untuk *persiapan data* dengan Amazon SageMaker AI. Pilih [kasus penggunaan](#data-prep-choose-use-cases) yang sesuai dengan kebutuhan Anda, lalu lihat [fitur yang direkomendasikan](#data-prep-choose-recommended) sesuai.

### Kasus penggunaan
<a name="data-prep-choose-use-cases"></a>

Berikut ini adalah kasus penggunaan utama saat melakukan persiapan data untuk Machine Learning.
+ **Kasus penggunaan 1**: Bagi mereka yang lebih menyukai antarmuka visual, SageMaker AI menyediakan cara untuk mengeksplorasi, mempersiapkan, dan merekayasa fitur untuk pelatihan model melalui point-and-click lingkungan. 
+ **Kasus penggunaan 2**: Untuk pengguna yang nyaman dengan pengkodean yang menginginkan lebih banyak fleksibilitas dan kontrol atas persiapan data, SageMaker AI mengintegrasikan alat ke dalam lingkungan pengkodean untuk eksplorasi, transformasi, dan rekayasa fitur. 
+ **Kasus penggunaan 3**: Untuk pengguna yang berfokus pada persiapan data yang dapat diskalakan, SageMaker AI menawarkan kemampuan tanpa server yang memanfaatkan ekosistem Hadoop/Spark untuk pemrosesan data besar yang terdistribusi.

### Fitur yang direkomendasikan
<a name="data-prep-choose-recommended"></a>

Tabel berikut menguraikan pertimbangan utama dan pengorbanan untuk fitur SageMaker AI yang terkait dengan setiap kasus penggunaan persiapan data untuk pembelajaran mesin. Untuk memulai, identifikasi kasus penggunaan yang sesuai dengan kebutuhan Anda dan arahkan ke fitur SageMaker AI yang direkomendasikan.


| Deskriptor | Kasus penggunaan 1 | Kasus penggunaan 2 | Kasus penggunaan 3 | 
| --- | --- | --- | --- | 
| SageMaker Fitur AI | [Data Wrangler dalam Amazon Canvas](canvas-data-prep.md) SageMaker  | [Persiapan data dengan SQL di Studio](sagemaker-sql-extension.md) | [Siapkan data menggunakan EMR Tanpa Server](studio-notebooks-emr-serverless.md)aplikasi di Studio | 
| Deskripsi | SageMaker Canvas adalah lingkungan visual low-code untuk membangun, melatih, dan menerapkan model pembelajaran mesin di SageMaker AI. Alat Data Wrangler yang terintegrasi memungkinkan pengguna untuk menggabungkan, mengubah, dan membersihkan kumpulan data melalui interaksi. point-and-click | Ekstensi SQL di Studio memungkinkan pengguna untuk terhubung ke Amazon Redshift, Snowflake, Athena, dan Amazon S3 untuk membuat kueri SQL ad-hoc, dan melihat hasil pratinjau di notebook. JupyterLab Output dari kueri ini dapat dimanipulasi menggunakan Python dan Pandas untuk pemrosesan tambahan, visualisasi, dan transformasi ke dalam format yang dapat digunakan untuk pengembangan model pembelajaran mesin. | Integrasi antara EMR Serverless dan SageMaker Amazon Studio menyediakan lingkungan tanpa server yang dapat diskalakan untuk persiapan data skala besar untuk pembelajaran mesin menggunakan kerangka kerja sumber terbuka seperti Apache Spark dan Apache Hive. Pengguna dapat langsung mengakses aplikasi dan data EMR Tanpa Server dari notebook Studio mereka untuk melakukan tugas persiapan data mereka dalam skala besar. | 
| Dioptimalkan untuk | Menggunakan antarmuka visual di mana Anda dapat: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-prep.html) Dioptimalkan untuk tugas data tabular seperti menangani nilai yang hilang, pengkodean variabel kategoris, dan menerapkan transformasi data.  | Untuk pengguna yang datanya berada di Amazon Redshift, Snowflake, Athena, [atau Amazon](studio-sqlexplorer-athena-s3-quickstart.md) S3 dan ingin menggabungkan SQL Python eksplorasi dan untuk analisis dan persiapan data tanpa perlu belajar. Spark | Untuk pengguna yang lebih menyukai pengalaman tanpa server dengan penyediaan dan penghentian sumber daya otomatis untuk penskalaan beban kerja interaktif jangka pendek atau intermiten yang berputar di sekitar Apache Spark, sambil memanfaatkan kemampuan pembelajaran mesin AI. SageMaker  | 
| Pertimbangan-pertimbangan |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-prep.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-prep.html)  | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-prep.html)  | 
| Lingkungan yang direkomendasikan | [Memulai dengan menggunakan SageMaker Canvas](canvas-getting-started.md) | [Luncurkan Studio](studio-updated-launch.md#studio-updated-launch-prereq) | [Luncurkan Studio](studio-updated-launch.md#studio-updated-launch-prereq) | 

### Opsi tambahan
<a name="data-prep-choose-additional"></a>

 SageMaker AI menawarkan opsi tambahan berikut untuk menyiapkan data Anda untuk digunakan dalam model pembelajaran mesin. 
+ [Persiapan data menggunakan Amazon EMR](studio-notebooks-emr-cluster.md): Untuk tugas pemrosesan data skala besar yang berjalan lama, intensif secara komputasi, pertimbangkan untuk menggunakan kluster EMR Amazon dari Studio. SageMaker Cluster EMR Amazon dirancang untuk menangani paralelisasi besar-besaran dan dapat menskalakan hingga ratusan atau ribuan node, membuatnya cocok untuk beban kerja data besar yang memerlukan kerangka kerja seperti Apache Spark, Hadoop, Hive, dan Presto. Integrasi Amazon EMR dengan SageMaker Studio memungkinkan Anda memanfaatkan skalabilitas dan kinerja Amazon EMR, sekaligus menjaga eksperimen, pelatihan model, dan penerapan lengkap, terpusat dan dikelola dalam lingkungan Studio. SageMaker 
+ [Siapkan data menggunakan sesi interaktif lem](studio-notebooks-glue.md): Anda dapat menggunakan mesin tanpa server berbasis Apache Spark dari sesi AWS Glue interaktif untuk mengumpulkan, mengubah, dan menyiapkan data dari berbagai sumber di Studio. SageMaker 
+ [Identifikasi bias dalam data pelatihan]() menggunakan pekerjaan pemrosesan Amazon SageMaker SageMaker Clarify: Klarifikasi menganalisis data Anda dan mendeteksi potensi bias di berbagai aspek. Misalnya, Anda dapat menggunakan Clarify API di Studio untuk mendeteksi apakah data pelatihan Anda berisi representasi yang tidak seimbang atau bias pelabelan antar grup seperti jenis kelamin, ras, atau usia. Clarify dapat membantu Anda mengidentifikasi bias ini sebelum melatih model untuk menghindari penyebaran bias ke dalam prediksi model.
+ [Buat, simpan, dan bagikan fitur](): Amazon SageMaker Feature Store mengoptimalkan penemuan dan penggunaan kembali fitur yang dikuratori untuk pembelajaran mesin. Ini menyediakan repositori terpusat untuk menyimpan data fitur yang dapat dicari dan diambil untuk pelatihan model. Menyimpan fitur dalam format standar memungkinkan penggunaan kembali di seluruh proyek ML. Toko Fitur mengelola siklus hidup penuh fitur termasuk pelacakan garis keturunan, statistik, dan jejak audit untuk rekayasa fitur pembelajaran mesin yang dapat diskalakan dan diatur.
+ [Label data dengan human-in-the-loop](data-label.md): Anda dapat menggunakan SageMaker Ground Truth untuk mengelola alur kerja pelabelan data dari kumpulan data pelatihan Anda. 
+ [Gunakan API SageMaker Pemrosesan](processing-job.md)[: Setelah melakukan analisis data eksplorasi dan membuat langkah transformasi data, Anda dapat memproduksi kode transformasi menggunakan [pekerjaan Pemrosesan SageMaker AI](processing-job.md) dan mengotomatiskan alur kerja persiapan menggunakan Model Building Pipelines. SageMaker ](pipelines.md)

# Persiapan data dengan SQL di Studio
<a name="sagemaker-sql-extension"></a>

Amazon SageMaker Studio menyediakan ekstensi SQL bawaan. Ekstensi ini memungkinkan ilmuwan data untuk melakukan tugas-tugas seperti pengambilan sampel, analisis eksplorasi, dan rekayasa fitur langsung di dalam buku catatan mereka. JupyterLab Ini memanfaatkan AWS Glue koneksi untuk memelihara katalog sumber data terpusat. Katalog menyimpan metadata tentang berbagai sumber data. Melalui lingkungan SQL ini, ilmuwan data dapat menelusuri katalog data, mengeksplorasi data mereka, membuat kueri SQL yang kompleks, dan memproses hasilnya lebih lanjut dengan Python. 

Bagian ini berjalan melalui konfigurasi ekstensi SQL di Studio. Ini menjelaskan kemampuan yang diaktifkan oleh integrasi SQL ini dan memberikan instruksi untuk menjalankan kueri SQL di notebook. JupyterLab 

Untuk mengaktifkan analisis data SQL, administrator harus terlebih dahulu mengkonfigurasi AWS Glue koneksi ke sumber data yang relevan. Koneksi ini memungkinkan ilmuwan data mengakses kumpulan data resmi dengan mulus dari dalam. JupyterLab 

Selain AWS Glue koneksi yang dikonfigurasi administrator, ekstensi SQL memungkinkan ilmuwan data individu untuk membuat koneksi sumber data mereka sendiri. Koneksi yang dibuat pengguna ini dapat dikelola secara independen dan dicakup ke profil pengguna melalui kebijakan kontrol akses berbasis tag. Model koneksi dua tingkat ini - dengan koneksi yang dikonfigurasi administrator dan yang dibuat pengguna - memberi ilmuwan data akses yang lebih luas ke data yang mereka butuhkan untuk tugas analisis dan pemodelan mereka. Pengguna dapat mengatur koneksi yang diperlukan ke sumber data mereka sendiri dalam antarmuka pengguna JupyterLab lingkungan (UI), tanpa hanya mengandalkan koneksi terpusat yang dibuat oleh administrator.

**penting**  
Kemampuan pembuatan koneksi yang ditentukan pengguna tersedia sebagai satu set pustaka mandiri di PyPI. Untuk menggunakan fungsi ini, Anda perlu menginstal pustaka berikut di JupyterLab lingkungan Anda:  
[amazon-sagemaker-sql-editor](https://pypi.org/project/amazon-sagemaker-sql-editor/)
[amazon-sagemaker-sql-execution](https://pypi.org/project/amazon-sagemaker-sql-execution/)
[amazon-sagemaker-sql-magic](https://pypi.org/project/amazon-sagemaker-sql-magic/)
Anda dapat menginstal pustaka ini dengan menjalankan perintah berikut di JupyterLab terminal Anda:  

```
pip install amazon-sagemaker-sql-editor>=0.1.13
pip install amazon-sagemaker-sql-execution>=0.1.6
pip install amazon-sagemaker-sql-magic>=0.1.3
```
Setelah menginstal perpustakaan, Anda harus me-restart JupyterLab server agar perubahan diterapkan.  

```
restart-jupyter-server
```

Dengan pengaturan akses, JupyterLab pengguna dapat:
+ Lihat dan telusuri sumber data yang telah dikonfigurasi sebelumnya.
+ Cari, filter, dan periksa elemen informasi database seperti tabel, skema, dan kolom.
+ Hasilkan parameter koneksi secara otomatis ke sumber data.
+ Buat kueri SQL yang kompleks menggunakan fitur penyorotan sintaks, pelengkapan otomatis, dan pemformatan SQL dari editor SQL ekstensi.
+ Jalankan pernyataan SQL dari sel JupyterLab notebook.
+ Ambil hasil kueri SQL pandas DataFrames untuk pemrosesan lebih lanjut, visualisasi, dan tugas pembelajaran mesin lainnya.

Anda dapat mengakses ekstensi dengan memilih ikon ekstensi SQL (![\[Icon of the SQL extension feature in JupyterLab.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/sqlexplorer/sqlexplorer-icon.png)) di panel navigasi kiri JupyterLab aplikasi Anda di Studio. Melayang di atas ikon menampilkan tip alat *Penemuan Data*.

**penting**  
 JupyterLab Gambar di SageMaker Studio berisi ekstensi SQL secara default, dimulai dengan [SageMaker AI Distribution](https://github.com/aws/sagemaker-distribution) 1.6. Ekstensi hanya berfungsi dengan Python dan SparkMagic kernel.
Antarmuka pengguna ekstensi untuk menjelajahi koneksi dan data hanya tersedia di JupyterLab dalam Studio. [Ini kompatibel dengan [Amazon Redshift, Amazon](https://aws.amazon.com/redshift/)[Athena](https://aws.amazon.com/athena/), dan Snowflake.](https://www.snowflake.com/en/)
+ Jika Anda seorang administrator yang ingin membuat koneksi generik ke sumber data untuk ekstensi SQL, ikuti langkah-langkah berikut:

  1. Aktifkan komunikasi jaringan antara domain Studio dan sumber data yang ingin Anda sambungkan. Untuk mempelajari tentang persyaratan jaringan, lihat[Konfigurasikan akses jaringan antara Studio dan sumber data (untuk administrator)](sagemaker-sql-extension-networking.md).

  1. Periksa properti koneksi dan instruksi untuk membuat rahasia untuk sumber data Anda di[Buat rahasia untuk kredensi akses database di Secrets Manager](sagemaker-sql-extension-glue-connection-secrets.md).

  1. Buat AWS Glue koneksi ke sumber data Anda di[Buat AWS Glue koneksi (untuk administrator)](sagemaker-sql-extension-datasources-glue-connection.md).

  1. Berikan peran eksekusi SageMaker domain atau profil pengguna Anda izin yang diperlukan. [Siapkan izin IAM untuk mengakses sumber data (untuk administrator)](sagemaker-sql-extension-datasources-connection-permissions.md)
+ Jika Anda seorang ilmuwan data yang ingin membuat koneksi Anda sendiri ke sumber data untuk ekstensi SQL, ikuti langkah-langkah berikut:

  1. Minta administrator Anda:
     + Aktifkan komunikasi jaringan antara domain Studio dan sumber data yang ingin Anda sambungkan. Untuk mempelajari tentang persyaratan jaringan, lihat[Konfigurasikan akses jaringan antara Studio dan sumber data (untuk administrator)](sagemaker-sql-extension-networking.md).
     + Berikan peran eksekusi SageMaker domain atau profil pengguna Anda izin yang diperlukan. [Siapkan izin IAM untuk mengakses sumber data (untuk administrator)](sagemaker-sql-extension-datasources-connection-permissions.md)
**catatan**  
Administrator dapat membatasi akses pengguna ke koneksi yang dibuat dalam JupyterLab aplikasi dengan mengonfigurasi [kontrol akses berbasis tag](sagemaker-sql-extension-datasources-connection-permissions.md#user-defined-connections-permissions) dalam peran eksekusi.

  1. Periksa properti koneksi dan instruksi untuk membuat rahasia untuk sumber data Anda di[Buat rahasia untuk kredensi akses database di Secrets Manager](sagemaker-sql-extension-glue-connection-secrets.md).

  1. Buat koneksi Anda di JupyterLab UI menggunakan instruksi di[Buat koneksi yang ditentukan pengguna AWS Glue](sagemaker-sql-extension-datasources-glue-connection-user-defined.md).
+ Jika Anda seorang ilmuwan data yang ingin menelusuri dan menanyakan sumber data Anda menggunakan ekstensi SQL, pastikan bahwa Anda atau administrator Anda telah mengatur koneksi ke sumber data Anda terlebih dahulu. Kemudian, ikuti langkah-langkah ini:

  1. Buat ruang pribadi untuk meluncurkan JupyterLab aplikasi Anda di Studio menggunakan gambar SageMaker distribusi versi 1.6 atau lebih tinggi.

  1. Jika Anda adalah pengguna gambar SageMaker distribusi versi 1.6, muat ekstensi SQL di JupyterLab buku catatan dengan menjalankan `%load_ext amazon_sagemaker_sql_magic` di sel notebook.

     Untuk pengguna gambar SageMaker distribusi versi 1.7 dan yang lebih baru, tidak diperlukan tindakan, ekstensi SQL dimuat secara otomatis.

  1. Biasakan dengan kemampuan ekstensi SQL di[Fitur dan penggunaan ekstensi SQL](sagemaker-sql-extension-features.md).

**Topics**
+ [

# Quickstart: Kueri data di Amazon S3
](studio-sqlexplorer-athena-s3-quickstart.md)
+ [

# Fitur dan penggunaan ekstensi SQL
](sagemaker-sql-extension-features.md)
+ [

# Konfigurasikan akses jaringan antara Studio dan sumber data (untuk administrator)
](sagemaker-sql-extension-networking.md)
+ [

# Koneksi sumber data ekstensi SQL
](sagemaker-sql-extension-datasources-connection.md)
+ [

# Pertanyaan umum
](sagemaker-sql-extension-faqs.md)
+ [

# Parameter koneksi
](sagemaker-sql-extension-connection-properties.md)

# Quickstart: Kueri data di Amazon S3
<a name="studio-sqlexplorer-athena-s3-quickstart"></a>

Pengguna dapat menganalisis data yang disimpan di Amazon S3 dengan menjalankan kueri SQL dari JupyterLab notebook menggunakan ekstensi SQL. Ekstensi terintegrasi dengan Athena memungkinkan fungsionalitas untuk data di Amazon S3 dengan beberapa langkah tambahan.

Bagian ini memandu Anda melalui langkah-langkah untuk memuat data dari Amazon S3 ke Athena dan kemudian menanyakan data tersebut dari JupyterLab menggunakan ekstensi SQL. Anda akan membuat sumber data Athena dan AWS Glue crawler untuk mengindeks data Amazon S3 Anda, mengonfigurasi izin IAM yang tepat untuk mengaktifkan JupyterLab akses ke Athena, dan JupyterLab terhubung ke Athena untuk menanyakan data. Mengikuti beberapa langkah tersebut, Anda akan dapat menganalisis data Amazon S3 menggunakan ekstensi SQL di notebook. JupyterLab 

**Prasyarat**  
Masuk ke Konsol AWS Manajemen menggunakan akun pengguna AWS Identity and Access Management (IAM) dengan izin admin. Untuk informasi tentang cara mendaftar AWS akun dan membuat pengguna dengan akses administratif, lihat[Lengkapi prasyarat Amazon SageMaker AI](gs-set-up.md).
Memiliki domain SageMaker AI dan profil pengguna untuk mengakses SageMaker Studio. Untuk informasi tentang cara mengatur lingkungan SageMaker AI, lihat[Gunakan pengaturan cepat untuk Amazon SageMaker AI](onboard-quick-start.md).
Miliki bucket dan folder Amazon S3 untuk menyimpan hasil kueri Athena, menggunakan AWS Wilayah dan akun yang sama dengan lingkungan AI Anda. SageMaker Untuk informasi tentang cara membuat bucket di Amazon S3, lihat [Membuat bucket di dokumentasi](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) Amazon S3. Anda akan mengonfigurasi bucket dan folder ini menjadi lokasi keluaran kueri Anda.

**Topics**
+ [

## Langkah 1: Siapkan sumber data Athena dan AWS Glue crawler untuk data Amazon S3 Anda
](#studio-sqlexplorer-athena-s3-quickstart-setup)
+ [

## Langkah 2: Berikan Studio izin untuk mengakses Athena
](#studio-sqlexplorer-athena-s3-quickstart-permissions)
+ [

## Langkah 3: Aktifkan koneksi default Athena di JupyterLab
](#studio-sqlexplorer-athena-s3-quickstart-connect)
+ [

## Langkah 4: Kueri data di Amazon S3 dari JupyterLab notebook menggunakan ekstensi SQL
](#studio-sqlexplorer-athena-s3-quickstart-query)

## Langkah 1: Siapkan sumber data Athena dan AWS Glue crawler untuk data Amazon S3 Anda
<a name="studio-sqlexplorer-athena-s3-quickstart-setup"></a>

Ikuti langkah-langkah ini untuk mengindeks data Anda di Amazon S3 dan membuat tabel di Athena.

**catatan**  
Untuk menghindari tabrakan antara nama tabel dari lokasi Amazon S3 yang berbeda, buat sumber data dan crawler terpisah untuk setiap lokasi. Setiap sumber data membuat tabel dinamai folder yang berisi mereka kecuali diawali.

1. Konfigurasikan lokasi hasil kueri

   1. Pergi ke konsol Athena:. [https://console.aws.amazon.com/athena/](https://console.aws.amazon.com/athena/home)

   1. Dari menu sebelah kiri, pilih **Workgroups**.

   1. Ikuti tautan untuk `primary` grup kerja dan pilih **Edit**.

   1. Di bagian **Konfigurasi hasil kueri**, masukkan jalur Amazon S3 untuk direktori keluaran Anda, lalu pilih **Simpan** perubahan.

1. Buat sumber data Athena untuk data Amazon S3 Anda

   1. Dari menu kiri di konsol Athena, pilih **Sumber data dan kemudian Buat Sumber** **Data**. 

   1. Pilih **S3 - Katalog AWS Glue Data** dan kemudian **Berikutnya**. 

   1. Tinggalkan **Katalog AWS Glue Data default di akun ini**, pilih **Buat perayap di AWS Glue** lalu **Buat**. AWS Glue Ini membuka AWS Glue konsol. 

1. Gunakan AWS Glue untuk merayapi sumber data Anda

   1. Masukkan nama dan deskripsi untuk crawler baru Anda dan kemudian pilih **Berikutnya**. 

   1. Di bawah **Sumber Data**, pilih **Tambahkan sumber data**.

      1. Jika bucket Amazon Amazon S3 yang berisi data Anda berada di AWS akun yang berbeda dari lingkungan SageMaker AI Anda, pilih **Di akun lain** untuk **Lokasi data S3**.

      1. Masukkan jalur ke kumpulan data Anda di Amazon S3. Contoh:

         ```
         s3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/
         ```

      1. Simpan semua nilai default lainnya lalu pilih **Tambahkan sumber data Amazon S3**. Anda akan melihat sumber data Amazon S3 baru di tabel sumber data.

      1. Pilih **Berikutnya**.

       

   1. Konfigurasikan peran IAM untuk crawler untuk mengakses data Anda.
**catatan**  
Setiap peran dicakup ke sumber data yang Anda tentukan. Saat menggunakan kembali peran, edit kebijakan JSON untuk menambahkan sumber daya baru yang ingin Anda berikan akses atau buat peran baru untuk sumber data ini.

      1. Pilih **Buat peran IAM baru**.

      1. Masukkan nama untuk peran tersebut lalu pilih **Berikutnya**.

1. Buat atau pilih database untuk tabel Anda

   1. Jika Anda tidak memiliki database yang ada di Athena, pilih **Tambah database** dan kemudian **Buat database baru**.

   1. Kembali ke tab pembuatan crawler sebelumnya, di **konfigurasi Output**, pilih tombol **Refresh**. Anda sekarang harus melihat database yang baru Anda buat dalam daftar.

   1. **Pilih database Anda, tambahkan awalan opsional di **awalan nama Tabel** dan kemudian pilih Berikutnya.**
**catatan**  
Untuk contoh sebelumnya di mana data Anda berada`s3://dsoaws/nyc-taxi-orig-cleaned-split-parquet-per-year-multiple-files/ride-info/year=2019/`, menambahkan awalan `taxi-ride-` akan membuat tabel bernama`taxi-ride-year_2019`. Menambahkan awalan membantu mencegah tabrakan nama tabel ketika beberapa lokasi data memiliki folder bernama identik.

1. Pilih **Buat crawler**.

1. Jalankan crawler Anda untuk mengindeks data Anda. Tunggu hingga crawler run mencapai `Completed` status, yang mungkin memakan waktu beberapa menit.

Untuk memastikan bahwa tabel baru dibuat, buka menu sebelah kiri AWS Glue dan pilih **Database** lalu **Tabel**. Anda sekarang akan melihat tabel baru yang berisi data Anda. 

## Langkah 2: Berikan Studio izin untuk mengakses Athena
<a name="studio-sqlexplorer-athena-s3-quickstart-permissions"></a>

Dalam langkah-langkah berikut, Anda memberikan peran eksekusi izin profil pengguna Anda untuk mengakses Athena.

1. Mengambil ARN dari peran eksekusi yang terkait dengan profil pengguna Anda

   1. Buka konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)dan pilih **Domain** di menu sebelah kiri.

   1. Ikuti nama untuk nama domain Anda.

   1. Dalam daftar **Profil pengguna**, ikuti nama untuk profil pengguna Anda.

   1. Pada halaman **Detail pengguna**, salin ARN dari peran eksekusi.

1. Perbarui kebijakan peran eksekusi Anda

   1. Temukan AWS wilayah dan ID akun Anda di kanan atas konsol SageMaker AI. Gunakan nilai-nilai ini dan nama database Anda untuk memperbarui placeholder dalam kebijakan JSON berikut dalam editor teks.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Sid": "GetS3AndDataSourcesMetadata",
                  "Effect": "Allow",
                  "Action": [
                      "glue:GetDatabases",
                      "glue:GetSchema",
                      "glue:GetTables",
                      "s3:ListBucket",
                      "s3:GetObject",
                      "s3:GetBucketLocation",
                      "glue:GetDatabase",
                      "glue:GetTable",
                      "glue:ListSchemas",
                      "glue:GetPartitions"
                  ],
                  "Resource": [
                      "arn:aws:s3:::*",
                      "arn:aws:glue:us-east-1:111122223333:catalog",
                      "arn:aws:glue:us-east-1:111122223333:database/db-name"
                  ]
              },
              {
                  "Sid": "ExecuteAthenaQueries",
                  "Effect": "Allow",
                  "Action": [
                      "athena:ListDataCatalogs",
                      "athena:ListDatabases",
                      "athena:ListTableMetadata",
                      "athena:StartQueryExecution",
                      "athena:GetQueryExecution",
                      "athena:RunQuery",
                      "athena:StartSession",
                      "athena:GetQueryResults",
                      "athena:ListWorkGroups",
                      "s3:ListMultipartUploadParts",
                      "s3:ListBucket",
                      "s3:GetBucketLocation",
                      "athena:GetDataCatalog",
                      "s3:AbortMultipartUpload",
                      "s3:GetObject",
                      "s3:PutObject",
                      "athena:GetWorkGroup"
                  ],
                  "Resource": [
                      "arn:aws:s3:::*"
                  ]
              },
              {
                  "Sid": "GetGlueConnectionsAndSecrets",
                  "Effect": "Allow",
                  "Action": [
                      "glue:GetConnections",
                      "glue:GetConnection"
                  ],
                  "Resource": [
                      "*"
                  ]
              }
          ]
      }
      ```

------

   1. Buka konsol IAM: [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/)dan pilih **Peran** di menu sebelah kiri.

   1. Cari peran Anda berdasarkan nama peran.
**catatan**  
Anda dapat mengambil nama peran eksekusi dari Amazon Resource Name (ARN) dengan memisahkan `'/'` ARN dan mengambil elemen terakhir. Misalnya, dalam contoh ARN berikut`arn:aws:iam::112233445566:role/SageMakerStudio-SQLExtension-ExecutionRole`, nama peran eksekusi adalah. `SageMakerStudio-SQLExtension-ExecutionRole`

   1. Ikuti tautan untuk peran Anda.

   1. Di tab **Izin**, pilih **Tambahkan izin** lalu **Buat kebijakan sebaris**.

   1. Pilih `JSON` format di bagian **Editor kebijakan**.

   1. Salin kebijakan di atas lalu pilih **Berikutnya**. Pastikan bahwa Anda telah mengganti semua`account-id`,`region-name`, dan `db-name` dengan nilai-nilai mereka.

   1. Masukkan nama untuk kebijakan Anda, lalu pilih **Buat kebijakan**.

## Langkah 3: Aktifkan koneksi default Athena di JupyterLab
<a name="studio-sqlexplorer-athena-s3-quickstart-connect"></a>

Pada langkah-langkah berikut, Anda mengaktifkan a `default-athena-connection` di JupyterLab aplikasi Anda. Koneksi Athena default memungkinkan menjalankan kueri SQL di Athena langsung JupyterLab dari, tanpa perlu membuat koneksi secara manual.

Untuk mengaktifkan koneksi Athena default

1. Buka konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)dan pilih **Studio** di menu sebelah kiri. Menggunakan domain dan profil pengguna Anda, luncurkan Studio.

1. Pilih JupyterLab aplikasinya. 

1. Jika Anda belum membuat ruang untuk JupyterLab aplikasi Anda, pilih **Buat JupyterLab spasi**. Masukkan nama untuk spasi, pertahankan ruang sebagai **Pribadi**, lalu pilih **Buat ruang**. Jalankan ruang Anda menggunakan versi terbaru dari gambar Distribusi SageMaker AI.

   Jika tidak, pilih **Jalankan ruang** di ruang Anda untuk meluncurkan JupyterLab aplikasi.

1. Aktifkan koneksi default Athena:

   1. Dalam JupyterLab aplikasi Anda, navigasikan ke menu **Pengaturan** di bilah navigasi atas dan buka menu **Editor Pengaturan**.

   1. Pilih **Penemuan Data**.

   1. Centang kotak untuk **Aktifkan koneksi Athena default**.

   1. Dalam JupyterLab aplikasi Anda, pilih ikon ekstensi SQL (![\[Purple circular icon with a clock symbol representing time or scheduling.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/sqlexplorer/sqlexplorer-icon.png)) di panel navigasi kiri untuk membuka ekstensi SQL.

   1.  Pilih tombol **Refresh** di bagian bawah panel penemuan data. Anda harus melihat a `default-athena-connection` dalam daftar koneksi.

## Langkah 4: Kueri data di Amazon S3 dari JupyterLab notebook menggunakan ekstensi SQL
<a name="studio-sqlexplorer-athena-s3-quickstart-query"></a>

Anda siap untuk menanyakan data Anda menggunakan SQL di JupyterLab notebook Anda.

1. Buka koneksi `default-athena-connection` dan kemudian **AWS DataCatalog**.

1. Arahkan ke database Anda dan pilih ikon tiga titik (![\[SQL extension three dots icon.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/sqlexplorer/sqlexplorer-3dots-icon.png)) di sebelah kanannya. Pilih **Kueri di buku catatan**.

   Ini secara otomatis mengisi sel notebook JupyterLab dengan perintah `%%sm_sql` ajaib yang relevan untuk terhubung ke sumber data. Hal ini juga menambahkan contoh pernyataan SQL untuk membantu Anda mulai query segera. 
**catatan**  
Pastikan untuk memuat ekstensi di sel atas sebelum Anda menjalankan kueri SQL.

   Anda dapat menyempurnakan kueri SQL lebih lanjut menggunakan fitur pelengkapan otomatis dan penyorotan ekstensi. Lihat [Fitur editor SQL dari ekstensi JupyterLab SQL](sagemaker-sql-extension-features-editor.md) untuk informasi selengkapnya tentang menggunakan editor SQL ekstensi SQL.

# Fitur dan penggunaan ekstensi SQL
<a name="sagemaker-sql-extension-features"></a>

Bagian ini merinci berbagai fitur ekstensi JupyterLab SQL di Studio, dan memberikan instruksi tentang cara menggunakannya. Sebelum Anda dapat menggunakan ekstensi SQL untuk mengakses dan menanyakan data dari JupyterLab buku catatan Anda, administrator harus terlebih dahulu mengonfigurasi sambungan ke sumber data Anda. Untuk informasi tentang cara administrator membuat sambungan ke sumber data, lihat[Koneksi sumber data ekstensi SQL](sagemaker-sql-extension-datasources-connection.md).

**catatan**  
Untuk menggunakan ekstensi SQL, JupyterLab aplikasi Anda harus berjalan pada gambar [distribusi SageMaker AI](https://github.com/aws/sagemaker-distribution/blob/main/README.md) versi 1.6 atau lebih tinggi. SageMaker Gambar-gambar ini memiliki ekstensi yang sudah diinstal sebelumnya.

Ekstensi ini menyediakan dua komponen untuk membantu Anda mengakses, menemukan, menanyakan, dan menganalisis data dari sumber data yang telah dikonfigurasi sebelumnya.
+ Gunakan *antarmuka pengguna* ekstensi SQL untuk menemukan dan menjelajahi sumber data Anda. Kemampuan UI dapat dibagi lagi ke dalam subkategori berikut.
  + Dengan elemen UI **eksplorasi data**, Anda dapat menelusuri sumber data dan menjelajahi tabel, kolom, dan metadatanya. Untuk detail tentang fitur eksplorasi data dari ekstensi SQL, lihat. [Jelajahi data menggunakan ekstensi SQL](sagemaker-sql-extension-features-data-discovery.md)
  + Elemen **caching koneksi** menyimpan koneksi untuk akses cepat. Untuk detail tentang caching koneksi di ekstensi SQL, lihat. [Caching koneksi ekstensi SQL](sagemaker-sql-extension-features-connection-caching.md)
+ Gunakan *SQL Editor dan Executor* untuk menulis, mengedit, dan menjalankan kueri SQL terhadap sumber data yang terhubung.
  + Dengan elemen **editor SQL**, Anda dapat menulis, memformat, dan memvalidasi pernyataan SQL dalam notebook aplikasi Anda JupyterLab di Studio. Untuk detail tentang fitur editor SQL, lihat[Fitur editor SQL dari ekstensi JupyterLab SQL](sagemaker-sql-extension-features-editor.md).
  + Dengan elemen **eksekusi SQL**, Anda dapat menjalankan kueri SQL dan memvisualisasikan hasilnya dari notebook aplikasi Anda di Studio. JupyterLab Untuk detail tentang kemampuan eksekusi SQL, lihat[Fitur eksekusi SQL dari ekstensi JupyterLab SQL](sagemaker-sql-extension-features-sql-execution.md).

# Jelajahi data menggunakan ekstensi SQL
<a name="sagemaker-sql-extension-features-data-discovery"></a>

Untuk membuka antarmuka pengguna ekstensi SQL (UI), pilih ikon ekstensi SQL (![\[Purple circular icon with a clock symbol representing time or scheduling.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/sqlexplorer/sqlexplorer-icon.png)) di panel navigasi JupyterLab aplikasi Anda di Studio. Tampilan penemuan data panel kiri memperluas dan menampilkan semua koneksi penyimpanan data yang telah dikonfigurasi sebelumnya ke Amazon Athena, Amazon Redshift, dan Snowflake.

Dari sana, Anda dapat:
+ Perluas koneksi tertentu untuk menjelajahi database, skema, tabel atau tampilan, dan kolomnya.
+ Cari koneksi tertentu menggunakan kotak pencarian di UI ekstensi SQL. Pencarian mengembalikan database, skema, tabel, atau tampilan yang sebagian cocok dengan string yang Anda masukkan.

**catatan**  
Jika Athena sudah diatur di AWS akun Anda, Anda dapat mengaktifkan a `default-athena-connection` di aplikasi Anda JupyterLab . Ini memungkinkan Anda menjalankan kueri Athena tanpa perlu membuat koneksi secara manual. Untuk mengaktifkan koneksi Athena default:  
Periksa dengan administrator Anda bahwa peran eksekusi Anda memiliki izin yang diperlukan untuk mengakses Athena dan AWS Glue katalog. Untuk detail tentang izin yang diperlukan, lihat [Konfigurasikan AWS Glue koneksi untuk Athena](sagemaker-sql-extension-datasources-glue-connection.md#sagemaker-sql-extension-athena-glue-connection-config)
Dalam JupyterLab aplikasi Anda, navigasikan ke menu **Pengaturan** di bilah navigasi atas dan buka menu **Editor Pengaturan**.
Pilih **Penemuan Data**.
Centang kotak untuk **Aktifkan koneksi Athena default**.
Anda dapat memperbarui default `primary` WorkGroup jika diperlukan.

Untuk menanyakan database, skema, atau tabel di JupyterLab buku catatan, dari sambungan yang diberikan di panel ekstensi SQL:
+ Pilih ikon tiga titik (![\[SQL extension three dots icon.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/sqlexplorer/sqlexplorer-3dots-icon.png)) di sisi kanan database, skema, atau tabel apa pun.
+ Pilih **Kueri di buku catatan** dari menu.

  Ini secara otomatis mengisi sel notebook JupyterLab dengan perintah `%%sm_sql` ajaib yang relevan untuk terhubung ke sumber data. Hal ini juga menambahkan contoh pernyataan SQL untuk membantu Anda mulai query segera. Anda dapat menyempurnakan kueri SQL lebih lanjut menggunakan fitur pelengkapan otomatis dan penyorotan ekstensi. Lihat [Fitur editor SQL dari ekstensi JupyterLab SQL](sagemaker-sql-extension-features-editor.md) untuk informasi selengkapnya tentang menggunakan editor SQL ekstensi SQL.

Pada tingkat tabel, ikon tiga titik menyediakan opsi tambahan untuk memilih **Pratinjau** metadata tabel.

Konten sel JupyterLab notebook di bawah ini menunjukkan contoh apa yang dihasilkan secara otomatis saat memilih menu **Kueri di buku catatan** pada sumber `redshift-connection` data di panel ekstensi SQL.

```
%%sm_sql --metastore-id redshift-connection --metastore-type GLUE_CONNECTION

-- Query to list tables from schema 'dev.public'
SHOW TABLES
FROM
  SCHEMA "dev"."public"
```

Gunakan simbol *kurang dari* (![\[Icon to clear the SQL extension search box.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/sqlexplorer/sqlexplorer-search-clear.png)) di bagian atas panel ekstensi SQL untuk menghapus kotak pencarian atau kembali ke daftar koneksi Anda.

**catatan**  
Ekstensi menyimpan hasil eksplorasi Anda untuk akses cepat. Jika hasil cache sudah usang atau koneksi hilang dari daftar Anda, Anda dapat menyegarkan cache secara manual dengan memilih tombol **Refresh** di bagian bawah panel ekstensi SQL. Untuk informasi selengkapnya tentang caching koneksi, lihat[Caching koneksi ekstensi SQL](sagemaker-sql-extension-features-connection-caching.md).

# Fitur editor SQL dari ekstensi JupyterLab SQL
<a name="sagemaker-sql-extension-features-editor"></a>

Ekstensi SQL menyediakan perintah ajaib yang memungkinkan fungsionalitas editor SQL dalam sel notebook Anda JupyterLab .

Jika Anda adalah pengguna gambar SageMaker distribusi versi 1.6, Anda harus memuat pustaka ajaib ekstensi SQL dengan menjalankan `%load_ext amazon_sagemaker_sql_magic` di JupyterLab buku catatan. Ini mengaktifkan fitur pengeditan SQL.

Untuk pengguna gambar SageMaker distribusi versi 1.7 dan yang lebih baru, tidak diperlukan tindakan, ekstensi SQL dimuat secara otomatis.

Setelah ekstensi dimuat, tambahkan perintah `%%sm_sql` ajaib di awal sel untuk mengaktifkan kemampuan editor SQL berikut.
+ **Pilihan koneksi dropdown**: Setelah menambahkan perintah `%%sm_sql` ajaib ke sel, menu tarik-turun muncul di bagian atas sel dengan koneksi sumber data yang tersedia. Pilih koneksi untuk secara otomatis mengisi parameter yang diperlukan untuk menanyakan sumber data tersebut. Berikut ini adalah contoh string perintah `%%sm_sql` ajaib yang dihasilkan dengan memilih koneksi bernama`connection-name`. 

  ```
  %%sm_sql --metastore-type GLUE_CONNECTION --metastore-id connection-name
  ```

  Gunakan fitur editor SQL di bawah ini untuk membangun kueri SQL Anda, lalu jalankan kueri dengan menjalankan sel. Untuk informasi selengkapnya tentang kemampuan eksekusi SQL, lihat[Fitur eksekusi SQL dari ekstensi JupyterLab SQL](sagemaker-sql-extension-features-sql-execution.md).
+ **Dropdown hasil kueri**: Anda dapat menentukan cara merender hasil kueri dengan memilih jenis hasil dari menu tarik-turun di sebelah menu tarik-turun pilihan koneksi Anda. Pilih di antara dua alternatif berikut:
  + **Output Sel**: (default) Opsi ini menampilkan hasil kueri Anda di area keluaran sel notebook.
  + **Pandas Dataframe**: Opsi ini mengisi panda DataFrame dengan hasil kueri. Kotak input tambahan memungkinkan Anda memberi nama DataFrame saat Anda memilih opsi ini.
+ **Sorotan sintaks SQL**: Sel secara otomatis membedakan kata kunci SQL, klausa, operator, dan lainnya berdasarkan warna dan gaya. Ini membuat kode SQL lebih mudah dibaca dan dipahami. Kata kunci seperti`SELECT`,`FROM`,`WHERE`, dan fungsi bawaan seperti `SUM` dan`COUNT`, atau klausa seperti `GROUP BY` dan lainnya disorot dalam warna yang berbeda dan gaya berani.
+ **Pemformatan SQL**: Anda dapat menerapkan indentasi, kapitalisasi, spasi, dan jeda baris yang konsisten untuk mengelompokkan atau memisahkan pernyataan dan klausa SQL dengan salah satu cara berikut. Ini membuat kode SQL lebih mudah dibaca dan dipahami.
  + Klik kanan pada sel SQL dan pilih **Format** SQL.
  + Saat sel SQL dalam fokus, gunakan pintasan *ALT\$1F* di Windows atau *Option \$1 F di macOS*.
+ **Pelengkapan otomatis SQL**: Ekstensi memberikan saran otomatis dan penyelesaian kata kunci SQL, fungsi, nama tabel, nama kolom, dan lainnya saat Anda mengetik. Saat Anda mulai mengetik kata kunci SQL seperti `SELECT` atau`WHERE`, ekstensi menampilkan pop-up dengan saran untuk melengkapi sisa kata secara otomatis. Misalnya, saat mengetik nama tabel atau kolom, ini menyarankan pencocokan nama tabel dan kolom yang ditentukan dalam skema database.
**penting**  
Untuk mengaktifkan pelengkapan otomatis SQL di JupyterLab notebook, pengguna gambar distribusi SageMaker AI versi 1.6 harus menjalankan `npm install -g vscode-jsonrpc sql-language-server` perintah berikut di terminal. Setelah instalasi selesai, restart JupyterLab server dengan menjalankan`restart-jupyter-server`.  
Untuk pengguna gambar SageMaker distribusi versi 1.7 dan yang lebih baru, tidak diperlukan tindakan.

  Sel menawarkan dua metode untuk melengkapi kata kunci SQL yang diakui secara otomatis:
  + **Pemanggilan eksplisit (disarankan): Pilih tombol **Tab** untuk memulai menu saran sadar konteks, lalu pilih Enter untuk menerima item yang disarankan.**
  + Petunjuk berkelanjutan: Sel secara otomatis menyarankan penyelesaian saat Anda mengetik.
**catatan**  
Pelengkapan otomatis hanya dipicu jika kata kunci SQL dalam huruf besar. Misalnya, memasukkan `SEL` prompt untuk`SELECT`, tetapi mengetik `sel` tidak.
Pertama kali Anda terhubung ke sumber data, SQL auto-completion mengindeks metadata sumber data. Proses pengindeksan ini mungkin membutuhkan waktu untuk diselesaikan tergantung pada ukuran database Anda.

# Fitur eksekusi SQL dari ekstensi JupyterLab SQL
<a name="sagemaker-sql-extension-features-sql-execution"></a>

Anda dapat menjalankan kueri SQL terhadap sumber data yang terhubung di ekstensi SQL. JupyterLab Bagian berikut menjelaskan parameter yang paling umum untuk menjalankan kueri SQL di dalam JupyterLab notebook:
+ Buat koneksi sederhana di[Buat string koneksi perintah ajaib sederhana](sagemaker-sql-extension-features-sql-execution-create-connection.md).
+ Simpan hasil kueri Anda di panda DataFrame di[Menyimpan hasil kueri SQL di panda DataFrame](sagemaker-sql-extension-features-sql-execution-save-dataframe.md).
+ Ganti atau tambahkan ke properti koneksi yang ditentukan oleh administrator Anda di[Ganti properti koneksi](sagemaker-sql-extension-features-sql-execution-override-connection.md).
+ [Gunakan parameter kueri untuk memberikan nilai dinamis dalam kueri SQL](sagemaker-sql-extension-features-sql-execution-query-parameters.md).

Saat Anda menjalankan sel dengan perintah `%%sm_sql` ajaib, mesin ekstensi SQL mengeksekusi kueri SQL di sel terhadap sumber data yang ditentukan dalam parameter perintah ajaib.

Untuk melihat detail parameter perintah ajaib dan format yang didukung, jalankan`%%sm_sql?`.

**penting**  
Untuk menggunakan Snowflake, pengguna gambar SageMaker distribusi versi 1.6 harus menginstal ketergantungan Python Snowflake dengan menjalankan perintah `micromamba install snowflake-connector-python -c conda-forge` berikut di terminal aplikasi mereka. JupyterLab Restart JupyterLab server dengan berjalan `restart-jupyter-server` di terminal setelah instalasi selesai.  
Untuk gambar SageMaker distribusi versi 1.7 dan yang lebih baru, ketergantungan Snowflake sudah diinstal sebelumnya. Tidak diperlukan tindakan.

# Buat string koneksi perintah ajaib sederhana
<a name="sagemaker-sql-extension-features-sql-execution-create-connection"></a>

Jika administrator Anda telah mengonfigurasi koneksi ke sumber data Anda, ikuti langkah-langkah berikut untuk membuat string koneksi dengan mudah di sel notebook:

1. Buka sel notebook yang menggunakan`%%sm_sql`.

1. Pilih koneksi pra-konfigurasi ke sumber data yang Anda inginkan dari menu tarik-turun koneksi di atas sel.

1. Ini akan secara otomatis mengisi parameter yang diperlukan untuk menanyakan sumber data tersebut.

Atau, Anda dapat menentukan properti koneksi sebaris di sel.

Memilih koneksi dari menu tarik-turun menyisipkan dua parameter berikut ke dalam string perintah ajaib default. Parameter berisi informasi koneksi yang dikonfigurasi administrator Anda.
+ `--metastore-id`: Nama objek koneksi yang memegang parameter koneksi Anda.
+ `--metastore-type`: Jenis meta-store yang sesuai dengan. `--metastore-id` Ekstensi SQL menggunakan AWS Glue koneksi sebagai koneksi meta-store. Nilai ini secara otomatis diatur ke`GLUE_CONNECTION`.

Misalnya, string koneksi ke penyimpanan data Amazon Athena yang telah dikonfigurasi sebelumnya terlihat seperti berikut:

```
%%sm_sql --metastore-id athena-connection-name --metastore-type GLUE_CONNECTION 
```

# Menyimpan hasil kueri SQL di panda DataFrame
<a name="sagemaker-sql-extension-features-sql-execution-save-dataframe"></a>

Anda dapat menyimpan hasil kueri SQL Anda di panda DataFrame. **Cara termudah untuk menampilkan hasil kueri ke a DataFrame adalah dengan menggunakan dropdown [Fitur editor SQL dari ekstensi JupyterLab SQL](sagemaker-sql-extension-features-editor.md) hasil kueri dan memilih opsi kerangka data Pandas.**

Atau, Anda dapat menambahkan parameter `--output '{"format": "DATAFRAME", "dataframe_name": "dataframe_name"}'` ke string koneksi Anda.

Misalnya, kueri berikut mengekstrak detail pelanggan dengan saldo tertinggi dari `Customer` tabel di `TPCH_SF1` database Snowflake, menggunakan keduanya pandas dan SQL:
+ Dalam contoh ini, kami mengekstrak semua data dari tabel pelanggan dan menyimpannya kemudian dalam DataFrame nama`all_customer_data`.

  ```
  %%sm_sql --output '{"format": "DATAFRAME", "dataframe_name": "all_customer_data"}' --metastore-id snowflake-connection-name --metastore-type GLUE_CONNECTION
  SELECT * FROM SNOWFLAKE_SAMPLE_DATA.TPCH_SF1.CUSTOMER
  ```

  ```
  Saved results to all_customer_data
  ```
+ Selanjutnya, kami mengekstrak detail saldo akun tertinggi dari DataFrame.

  ```
  all_customer_data.loc[all_customer_data['C_ACCTBAL'].idxmax()].values
  ```

  ```
  array([61453, 'Customer#000061453', 'RxNgWcyl5RZD4qOYnyT3', 15,
  '25-819-925-1077', Decimal('9999.99'), 'BUILDING','es. carefully regular requests among the blithely pending requests boost slyly alo'],
  dtype=object)
  ```

# Ganti properti koneksi
<a name="sagemaker-sql-extension-features-sql-execution-override-connection"></a>

Definisi koneksi yang telah ditentukan administrator Anda mungkin tidak memiliki parameter yang tepat yang Anda perlukan untuk terhubung ke penyimpanan data tertentu. Anda dapat menambahkan atau mengganti parameter dalam string koneksi dengan menggunakan `--connection-properties` argumen.

Argumen diterapkan dalam urutan prioritas berikut:

1. Properti koneksi diganti disediakan sebagai argumen inline.

1. Properti koneksi hadir di AWS Secrets Manager.

1. Properti koneksi dalam AWS Glue koneksi.

Jika properti koneksi yang sama ada di ketiganya (argumen baris perintah, Secrets Manager, dan koneksi), nilai yang diberikan dalam argumen baris perintah diutamakan.

Untuk informasi selengkapnya tentang properti koneksi yang tersedia per sumber data, lihat[Parameter koneksi](sagemaker-sql-extension-connection-properties.md).

Contoh berikut mengilustrasikan argumen properti koneksi yang menetapkan nama skema untuk Amazon Athena.

```
%%sm_sql --connection-properties '{"schema_name": "athena-db-name"}' --metastore-id athena-connection-name --metastore-type GLUE_CONNECTION
```

# Gunakan parameter kueri untuk memberikan nilai dinamis dalam kueri SQL
<a name="sagemaker-sql-extension-features-sql-execution-query-parameters"></a>

Parameter kueri dapat digunakan untuk memberikan nilai dinamis dalam kueri SQL.

Dalam contoh berikut, kita meneruskan parameter query ke `WHERE` klausa query.

```
# How to use '--query-parameters' with ATHENA as a data store
%%sm_sql --metastore-id athena-connection-name --metastore-type GLUE_CONNECTION --query-parameters '{"parameters":{"name_var": "John Smith"}}'
SELECT * FROM my_db.my_schema.my_table WHERE name = (%(name_var)s);
```

# Caching koneksi ekstensi SQL
<a name="sagemaker-sql-extension-features-connection-caching"></a>

Ekstensi ekstensi SQL default ke koneksi caching untuk mencegah pembuatan beberapa koneksi untuk set properti koneksi yang sama. Koneksi yang di-cache dapat dikelola menggunakan perintah `%sm_sql_manage` ajaib.

Topik berikut menjelaskan cara mengelola koneksi cache Anda.

**Topics**
+ [

# Buat koneksi cache
](sagemaker-sql-extension-features-create-cached-connection.md)
+ [

# Daftar koneksi cache
](sagemaker-sql-extension-features-list-cached-connection.md)
+ [

# Hapus koneksi cache
](sagemaker-sql-extension-features-clear-cached-connection.md)
+ [

# Nonaktifkan koneksi cache
](sagemaker-sql-extension-features-disable-cached-connection.md)

# Buat koneksi cache
<a name="sagemaker-sql-extension-features-create-cached-connection"></a>

Anda dapat membuat koneksi cache dengan menentukan nama koneksi dalam `--connection-name` parameter string koneksi Anda. Ini sangat berguna ketika beberapa properti koneksi diganti untuk kasus penggunaan tertentu, dan ada kebutuhan untuk menggunakan kembali properti yang sama tanpa mengetik ulang.

Misalnya, kode di bawah ini menyimpan koneksi Athena dengan properti koneksi skema yang diganti menggunakan nama`--connection-name my_athena_conn_with_schema`, dan kemudian menggunakannya kembali di sel lain:

```
%%sm_sql --connection-name my_athena_conn_with_schema --connection-properties '{"schema_name": "sm-sql-private-beta-db"}' --metastore-id sm-sql-private-beta-athena-connection --metastore-type GLUE_CONNECTION 
SELECT * FROM "covid_table" LIMIT 2
```

```
%%sm_sql --connection-name my_athena_conn_with_schema
SELECT * FROM "covid_table" LIMIT 2
```

# Daftar koneksi cache
<a name="sagemaker-sql-extension-features-list-cached-connection"></a>

Anda dapat membuat daftar koneksi cache Anda dengan menjalankan perintah berikut:

```
%sm_sql_manage --list-cached-connections
```

# Hapus koneksi cache
<a name="sagemaker-sql-extension-features-clear-cached-connection"></a>

Untuk menghapus semua koneksi cache, jalankan perintah berikut:

```
%sm_sql_manage --clear-cached-connections
```

# Nonaktifkan koneksi cache
<a name="sagemaker-sql-extension-features-disable-cached-connection"></a>

Untuk menonaktifkan caching koneksi, jalankan perintah berikut:

```
%sm_sql_manage --set-connection-reuse False
```

# Konfigurasikan akses jaringan antara Studio dan sumber data (untuk administrator)
<a name="sagemaker-sql-extension-networking"></a>

Bagian ini memberikan informasi tentang bagaimana administrator dapat mengonfigurasi jaringan untuk mengaktifkan komunikasi antara Amazon SageMaker Studio dan [Amazon Redshift atau Amazon](https://aws.amazon.com/redshift/) [Athena](https://aws.amazon.com/athena/), baik dalam VPC Amazon pribadi atau melalui internet. Instruksi jaringan bervariasi berdasarkan apakah domain Studio dan penyimpanan data digunakan dalam [Amazon Virtual Private Cloud](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) (VPC) pribadi atau berkomunikasi melalui internet.

Secara default, Studio berjalan di VPC AWS terkelola dengan [akses internet](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-notebooks-and-internet-access.html#studio-notebooks-and-internet-access-default). Saat menggunakan koneksi internet, Studio mengakses AWS sumber daya, seperti bucket Amazon S3, melalui internet. Namun, jika Anda memiliki persyaratan keamanan untuk mengontrol akses ke data dan wadah pekerjaan, sebaiknya Anda mengonfigurasi Studio dan penyimpanan data Anda (Amazon Redshift atau Athena) sehingga data dan kontainer Anda tidak dapat diakses melalui internet. Untuk mengontrol akses ke sumber daya Anda atau menjalankan Studio tanpa akses internet publik, Anda dapat menentukan jenis akses `VPC only` jaringan saat Anda onboard ke [domain Amazon SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/gs-studio-onboard.html). Dalam skenario ini, Studio membuat koneksi dengan AWS layanan lain melalui titik akhir [VPC](https://docs.aws.amazon.com/vpc/latest/privatelink/create-interface-endpoint.html) pribadi. Untuk informasi tentang mengonfigurasi Studio dalam `VPC only` mode, lihat [Connect Studio ke sumber daya eksternal di VPC](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-notebooks-and-internet-access.html#studio-notebooks-and-internet-access-vpc-only).

**catatan**  
Untuk terhubung ke Snowflake, VPC domain Studio harus memiliki akses internet.

Dua bagian pertama menjelaskan cara memastikan komunikasi antara domain Studio dan penyimpanan data VPCs tanpa akses internet publik. Bagian terakhir mencakup cara memastikan komunikasi antara Studio dan penyimpanan data Anda menggunakan koneksi internet. Sebelum menghubungkan Studio dan penyimpanan data Anda tanpa akses internet, pastikan untuk menetapkan titik akhir untuk Amazon Simple Storage Service, Amazon Redshift atau Athena, AI SageMaker , dan untuk CloudWatch Amazon dan (pencatatan AWS CloudTrail dan pemantauan).
+ Jika Studio dan penyimpanan data berbeda VPCs, baik di AWS akun yang sama atau di akun terpisah, lihat[Studio dan penyimpanan data dikerahkan secara terpisah VPCs](#sagemaker-sql-extension-networking-cross-vpc).
+ Jika Studio dan penyimpanan data berada di VPC yang sama, lihat. [Studio dan penyimpanan data digunakan di VPC yang sama](#sagemaker-sql-extension-networking-same-vpc)
+ Jika Anda memilih untuk menghubungkan Studio dan penyimpanan data melalui internet publik, lihat[Studio dan penyimpanan data berkomunikasi melalui internet publik](#sagemaker-sql-extension-networking-internet).

## Studio dan penyimpanan data dikerahkan secara terpisah VPCs
<a name="sagemaker-sql-extension-networking-cross-vpc"></a>

Untuk memungkinkan komunikasi antara Studio dan penyimpanan data dikerahkan di tempat yang berbeda VPCs:

1. Mulailah dengan menghubungkan Anda VPCs melalui koneksi peering VPC.

1. Perbarui tabel perutean di setiap VPC untuk memungkinkan lalu lintas jaringan dua arah antara subnet Studio dan subnet penyimpanan data. 

1. Konfigurasikan grup keamanan Anda untuk memungkinkan lalu lintas masuk dan keluar.

Langkah-langkah konfigurasi sama apakah Studio dan penyimpanan data digunakan dalam satu AWS akun atau di berbagai AWS akun.

1. 

**Peering VPC**

   Buat [koneksi peering VPC](https://docs.aws.amazon.com/vpc/latest/peering/working-with-vpc-peering.html) untuk memfasilitasi jaringan antara keduanya VPCs (Studio dan penyimpanan data).

   1. Dari akun Studio, di dasbor VPC, pilih Koneksi **peering, lalu **Buat** koneksi** peering.

   1. Buat permintaan Anda untuk mengintip VPC Studio dengan VPC penyimpanan data. Saat meminta mengintip di AWS akun lain, pilih Akun lain di **Pilih VPC** **lain** untuk diajak mengintip.

      Untuk peering lintas akun, administrator harus menerima permintaan dari akun mesin SQL.

      Saat mengintip subnet pribadi, Anda harus mengaktifkan resolusi DNS IP pribadi pada tingkat koneksi peering VPC.

1. 

**Tabel perutean**

   Konfigurasikan perutean untuk memungkinkan lalu lintas jaringan antara Studio dan subnet VPC penyimpanan data di kedua arah.

   Setelah Anda membuat koneksi peering, administrator (pada setiap akun untuk akses lintas akun) dapat menambahkan rute ke tabel rute subnet pribadi untuk merutekan lalu lintas antara Studio dan subnet penyimpanan data VPCs. Anda dapat menentukan rute tersebut dengan membuka bagian **Tabel Rute** dari setiap VPC di dasbor VPC.

1. 

**Grup keamanan**

   Terakhir, grup keamanan VPC domain Studio harus mengizinkan lalu lintas keluar, dan grup keamanan VPC penyimpanan data harus mengizinkan lalu lintas masuk pada port penyimpanan data Anda dari grup keamanan VPC Studio.

## Studio dan penyimpanan data digunakan di VPC yang sama
<a name="sagemaker-sql-extension-networking-same-vpc"></a>

 Jika Studio dan penyimpanan data berada dalam subnet pribadi yang berbeda di VPC yang sama, tambahkan rute di setiap tabel rute subnet pribadi. Rute harus memungkinkan lalu lintas mengalir antara subnet Studio dan subnet penyimpanan data. Anda dapat menentukan rute tersebut dengan membuka bagian **Tabel Rute** dari setiap VPC di dasbor VPC. Jika Anda menggunakan Studio dan penyimpanan data di VPC yang sama dan subnet yang sama, Anda tidak perlu merutekan lalu lintas.

Terlepas dari pembaruan tabel perutean apa pun, grup keamanan VPC domain Studio harus mengizinkan lalu lintas keluar, dan grup keamanan VPC penyimpanan data harus mengizinkan lalu lintas masuk pada portnya dari grup keamanan VPC Studio.

## Studio dan penyimpanan data berkomunikasi melalui internet publik
<a name="sagemaker-sql-extension-networking-internet"></a>

Secara default, Studio menyediakan antarmuka jaringan yang memungkinkan komunikasi dengan internet melalui gateway internet di VPC yang terkait dengan domain Studio. Jika Anda memilih untuk terhubung ke penyimpanan data Anda melalui internet publik, penyimpanan data Anda harus menerima lalu lintas masuk di portnya.

[Gateway NAT](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-nat-gateway.html#nat-gateway-working-with) harus digunakan untuk memungkinkan instance dalam subnet pribadi dari beberapa VPCs untuk berbagi satu alamat IP publik yang disediakan oleh [gateway internet](https://docs.aws.amazon.com/vpc/latest/userguide/VPC_Internet_Gateway.html) saat mengakses internet.

**catatan**  
Setiap port yang dibuka untuk lalu lintas masuk mewakili risiko keamanan potensial. Cermatlah dalam meninjau grup keamanan kustom untuk memastikan bahwa Anda meminimalisir kelemahan.

# Koneksi sumber data ekstensi SQL
<a name="sagemaker-sql-extension-datasources-connection"></a>

Sebelum menggunakan ekstensi SQL di JupyterLab buku catatan, administrator atau pengguna harus membuat AWS Glue koneksi ke sumber data mereka. Ekstensi SQL memungkinkan menghubungkan ke sumber data seperti Amazon Redshift Amazon Athena, atau Snowflake.

Untuk mengatur koneksi, administrator harus terlebih dahulu memastikan konfigurasi jaringan mereka memungkinkan komunikasi antara Studio dan sumber data dan kemudian memberikan izin IAM yang diperlukan untuk memungkinkan Studio mengakses sumber data. Untuk informasi tentang cara administrator mengatur jaringan, lihat[Konfigurasikan akses jaringan antara Studio dan sumber data (untuk administrator)](sagemaker-sql-extension-networking.md). Untuk informasi tentang kebijakan apa yang harus disiapkan, lihat[Siapkan izin IAM untuk mengakses sumber data (untuk administrator)](sagemaker-sql-extension-datasources-connection-permissions.md). Setelah koneksi disiapkan, ilmuwan data dapat menggunakan ekstensi SQL di JupyterLab notebook mereka untuk menelusuri dan menanyakan sumber data yang terhubung.

**catatan**  
Sebaiknya simpan kredenal akses database Anda sebagai rahasia di Secrets Manager. Untuk mempelajari cara membuat rahasia untuk menyimpan kredenal akses Amazon Redshift atau Snowflake, lihat. [Buat rahasia untuk kredensi akses database di Secrets Manager](sagemaker-sql-extension-glue-connection-secrets.md)

Bagian ini menjelaskan cara mengatur AWS Glue koneksi dan mencantumkan izin IAM yang diperlukan untuk JupyterLab aplikasi Studio untuk mengakses data melalui koneksi. 

**catatan**  
[Amazon SageMaker Assets](sm-assets.md) mengintegrasikan [Amazon DataZone](https://docs.aws.amazon.com/datazone/latest/userguide/what-is-datazone.html) dengan Studio. Ini termasuk cetak biru SageMaker AI untuk administrator untuk membuat lingkungan Studio dari proyek Amazon DataZone dalam domain Amazon. DataZone   
Pengguna JupyterLab aplikasi yang diluncurkan dari domain Studio yang dibuat dengan cetak biru dapat secara otomatis mengakses AWS Glue koneksi ke aset data di DataZone katalog Amazon mereka saat menggunakan ekstensi SQL. Ini memungkinkan kueri sumber data tersebut tanpa mengatur koneksi secara manual.

**Topics**
+ [

# Buat rahasia untuk kredensi akses database di Secrets Manager
](sagemaker-sql-extension-glue-connection-secrets.md)
+ [

# Buat AWS Glue koneksi (untuk administrator)
](sagemaker-sql-extension-datasources-glue-connection.md)
+ [

# Buat koneksi yang ditentukan pengguna AWS Glue
](sagemaker-sql-extension-datasources-glue-connection-user-defined.md)
+ [

# Siapkan izin IAM untuk mengakses sumber data (untuk administrator)
](sagemaker-sql-extension-datasources-connection-permissions.md)

# Buat rahasia untuk kredensi akses database di Secrets Manager
<a name="sagemaker-sql-extension-glue-connection-secrets"></a>

Sebelum membuat koneksi Anda, kami sarankan untuk menyimpan kredensil akses database Anda sebagai rahasia. AWS Secrets Manager Atau, Anda dapat membuat kredensyal basis data sementara berdasarkan izin yang diberikan melalui kebijakan izin AWS Identity and Access Management (IAM) untuk mengelola akses yang dimiliki pengguna ke database Anda. Untuk informasi selengkapnya, lihat [Menggunakan autentikasi IAM untuk menghasilkan kredensi pengguna database](https://docs.aws.amazon.com/redshift/latest/mgmt/generating-user-credentials.html)

## Buat rahasia untuk kredensi akses Amazon Redshift
<a name="sagemaker-sql-extension-redshift-secret"></a>

**Untuk menyimpan informasi Amazon Redshift di AWS Secrets Manager**

1. Dari Konsol Manajemen AWS, navigasikan ke Secrets Manager.

1. Pilih **Simpan rahasia baru**.

1. Di bawah **Jenis Rahasia**, pilih **Kredensial untuk Amazon Redshift**.

1. Masukkan nama pengguna dan kata sandi administrator yang dikonfigurasi saat meluncurkan cluster Amazon Redshift. 

1. Pilih cluster Amazon Redshift yang terkait dengan rahasia.

1. Sebutkan rahasiamu.

1. Pengaturan yang tersisa dapat dibiarkan pada nilai default mereka untuk pembuatan rahasia awal, atau disesuaikan jika diperlukan. 

1. Buat rahasia dan ambil ARN-nya.

## Buat rahasia untuk kredenal akses Amazon Redshift Tanpa Server
<a name="sagemaker-sql-extension-redshift-serverless-secret"></a>

**Jika Anda perlu terhubung ke Amazon Redshift Serverless, ikuti langkah-langkah ini**

1. Dari Konsol Manajemen AWS, navigasikan ke Secrets Manager.

1. Pilih **Simpan rahasia baru**.

1. Di bawah **Tipe rahasia**, pilih **Jenis rahasia lainnya**.

1. Dalam **pasangan Key-value**, pilih **Plaintext**, lalu salin konten JSON berikut. Ganti pengguna, dan kata sandi dengan nilai sebenarnya: 

   ```
   {
     "user": "redshift_user",
     "password": "redshift_password"
   }
   ```

1. Buat rahasia dan ambil ARN-nya..

1. Saat membuat koneksi baru dalam ekstensi SQL di JupyterLab, sediakan semua parameter koneksi Amazon Redshift lainnya sesuai kebutuhan.

## Buat rahasia untuk kredensi akses Snowflake
<a name="sagemaker-sql-extension-snowflake-secret"></a>

Bagian ini memberikan rincian tentang rahasia dan properti koneksi dalam file definisi JSON yang khusus untuk Snowflake. Sebelum membuat koneksi Anda, kami sarankan untuk menyimpan kredensyal akses Snowflake Anda sebagai rahasia di Secrets Manager.

**Untuk menyimpan informasi Amazon Redshift di Secrets Manager**

1. Dari Konsol Manajemen AWS, navigasikan ke Secrets Manager.

1. Pilih **Simpan rahasia baru**.

1. Di bawah **Tipe rahasia**, pilih **Jenis rahasia lainnya**.

1. Pada pasangan kunci-nilai, pilih **Plaintext**, lalu salin konten JSON berikut. Ganti`user`,`password`, dan `account` dengan nilai-nilai mereka.

   ```
   {
       "user":"snowflake_user",
       "password":"snowflake_password",
       "account":"account_id"
   }
   ```

1. Sebutkan rahasianya.

1. Pengaturan yang tersisa dapat dibiarkan pada nilai default mereka untuk pembuatan rahasia awal, atau disesuaikan jika diperlukan.

1. Buat rahasia dan ambil ARN-nya.

# Buat AWS Glue koneksi (untuk administrator)
<a name="sagemaker-sql-extension-datasources-glue-connection"></a>

Untuk menggunakan sumber data dengan ekstensi SQL, administrator dapat mengatur AWS Glue koneksi untuk setiap sumber data. Koneksi ini menyimpan detail konfigurasi yang diperlukan untuk mengakses dan berinteraksi dengan sumber data. Setelah koneksi dibuat, dan [izin yang sesuai](sagemaker-sql-extension-datasources-connection-permissions.md) diberikan, koneksi menjadi terlihat oleh semua pengguna [Ruang Amazon SageMaker Studio](studio-updated-spaces.md) yang berbagi peran eksekusi yang sama.

Untuk membuat koneksi ini:
+ Pertama, buat file JSON yang mendefinisikan properti koneksi untuk setiap sumber data. File JSON mencakup detail seperti pengenal sumber data, kredensyal akses, dan parameter konfigurasi relevan lainnya untuk mengakses sumber data melalui koneksi. AWS Glue 
+ Kemudian gunakan AWS Command Line Interface (AWS CLI) untuk membuat AWS Glue koneksi, meneruskan file JSON sebagai parameter. AWS CLI Perintah membaca detail koneksi dari file JSON dan menetapkan koneksi yang sesuai.
**catatan**  
Ekstensi SQL mendukung pembuatan koneksi menggunakan AWS CLI satu-satunya.

Sebelum membuat AWS Glue koneksi, pastikan Anda menyelesaikan langkah-langkah berikut:
+ Instal dan konfigurasikan AWS Command Line Interface (AWS CLI). Untuk informasi selengkapnya tentang cara menginstal dan mengonfigurasi AWS CLI, lihat [Tentang AWS CLI versi 2](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-welcome.html). Pastikan bahwa kunci akses dan token pengguna IAM atau peran yang digunakan untuk mengonfigurasi AWS CLI memiliki izin yang diperlukan untuk membuat AWS Glue koneksi. Tambahkan kebijakan yang memungkinkan `glue:CreateConnection` tindakan sebaliknya.
+ Pahami cara menggunakannya AWS Secrets Manager. Kami menyarankan Anda menggunakan Secrets Manager untuk menyediakan kredensi koneksi dan informasi sensitif lainnya untuk penyimpanan data Anda. Untuk informasi selengkapnya tentang penggunaan Secrets Manager untuk menyimpan kredensyal, lihat [Menyimpan kredensyal koneksi di Secrets](https://docs.aws.amazon.com/glue/latest/dg/connection-properties-secrets-manager.html) Manager. AWS 

## Buat file JSON definisi koneksi
<a name="sagemaker-sql-extension-glue-connection-config"></a>

Untuk membuat file definisi AWS Glue koneksi, buat file JSON untuk menentukan detail koneksi pada mesin tempat Anda menginstal dan mengonfigurasi file. AWS CLI Untuk contoh ini, beri nama file`sagemaker-sql-connection.json`.

File definisi koneksi harus mengikuti format umum berikut:
+ **Nama** adalah nama untuk koneksi.
+ **Deskripsi adalah deskripsi** tekstual dari koneksi.
+ **ConnectionType**adalah jenis koneksi. Pilih `REDSHIFT`, `ATHENA`, atau `SNOWFLAKE`.
+ **ConnectionProperties**adalah peta pasangan kunci-nilai untuk properti koneksi, seperti ARN AWS rahasia Anda, atau nama database Anda.

```
{
    "ConnectionInput": {
        "Name": <GLUE_CONNECTION_NAME>,
        "Description": <GLUE_CONNECTION_DESCRIPTION>,
        "ConnectionType": "REDSHIFT | ATHENA | SNOWFLAKE",
        "ConnectionProperties": {
            "PythonProperties": "{\"aws_secret_arn\": <SECRET_ARN>, \"database\": <...>}"
        }
    }
}
```

**catatan**  
Properti dalam `ConnectionProperties` kunci terdiri dari pasangan nilai kunci yang dirangkai. Melarikan diri dari tanda kutip ganda yang digunakan dalam kunci atau nilai dengan karakter garis miring terbalik (`\`).
Semua properti yang tersedia di Secrets Manager juga dapat langsung disediakan melalui`PythonProperties`. Namun, tidak disarankan untuk memasukkan bidang sensitif seperti kata sandi`PythonProperties`. Sebaliknya, pendekatan yang lebih disukai adalah menggunakan Secrets Manager.

File definisi koneksi khusus untuk penyimpanan data yang berbeda dapat ditemukan di bagian berikut.

File definisi koneksi untuk setiap sumber data berisi properti dan konfigurasi spesifik yang diperlukan untuk terhubung ke penyimpanan data tersebut dari ekstensi SQL. Lihat bagian yang sesuai untuk detail tentang mendefinisikan koneksi ke sumber itu.
+ Untuk membuat AWS Glue sambungan untuk Amazon Redshift, lihat file definisi sampel di. [Konfigurasikan AWS Glue koneksi untuk Amazon Redshift](#sagemaker-sql-extension-redshift-glue-connection-config)
+ Untuk membuat AWS Glue sambungan untuk Amazon Athena, lihat file definisi sampel di. [Konfigurasikan AWS Glue koneksi untuk Athena](#sagemaker-sql-extension-athena-glue-connection-config)
+ Untuk membuat AWS Glue koneksi untuk Snowflake, lihat file definisi sampel di. [Konfigurasikan AWS Glue koneksi untuk Snowflake](#sagemaker-sql-extension-snowflake-glue-connection-config)

### Konfigurasikan AWS Glue koneksi untuk Amazon Redshift
<a name="sagemaker-sql-extension-redshift-glue-connection-config"></a>

Bagian ini memberikan detail tentang properti rahasia dan koneksi dalam file definisi JSON yang khusus untuk Amazon Redshift. Sebelum membuat file konfigurasi koneksi, sebaiknya simpan kredensyal akses Amazon Redshift Anda sebagai rahasia di Secrets Manager. Atau, Anda dapat membuat kredensyal database sementara berdasarkan izin yang diberikan melalui kebijakan izin AWS Identity and Access Management (IAM) untuk mengelola akses yang dimiliki pengguna ke database Amazon Redshift Anda. Untuk informasi selengkapnya, lihat [Menggunakan autentikasi IAM untuk menghasilkan kredensi pengguna database](https://docs.aws.amazon.com/redshift/latest/mgmt/generating-user-credentials.html).

#### Buat rahasia untuk kredensi akses Amazon Redshift
<a name="sagemaker-sql-extension-redshift-secret"></a>

**Untuk menyimpan informasi Amazon Redshift di AWS Secrets Manager**

1. Dari AWS konsol, navigasikan ke Secrets Manager.

1. Pilih **Simpan rahasia baru**.

1. Di bawah **Jenis Rahasia**, pilih **Kredensial untuk Amazon Redshift**.

1. Masukkan nama pengguna dan kata sandi administrator yang dikonfigurasi saat meluncurkan cluster Amazon Redshift. 

1. Pilih cluster Amazon Redshift yang terkait dengan rahasia.

1. Sebutkan rahasiamu.

1. Pengaturan yang tersisa dapat dibiarkan pada nilai default mereka untuk pembuatan rahasia awal, atau disesuaikan jika diperlukan. 

1. Buat rahasia dan ambil ARN-nya.

#### Konfigurasikan AWS Glue koneksi untuk Amazon Redshift
<a name="sagemaker-sql-extension-redshift-glue-connection-creation"></a>

Ekstensi SQL terhubung ke sumber data menggunakan AWS Glue koneksi kustom. Untuk informasi umum tentang membuat AWS Glue koneksi untuk menghubungkan sumber data, lihat[Buat AWS Glue koneksi (untuk administrator)](#sagemaker-sql-extension-datasources-glue-connection). Contoh berikut adalah contoh definisi AWS Glue koneksi untuk menghubungkan ke Amazon Redshift.

Sebelum membuat koneksi baru, ingatlah rekomendasi ini:
+ Properti dalam `PythonProperties` kunci terdiri dari pasangan nilai kunci yang dirangkai. Melarikan diri dari tanda kutip ganda yang digunakan dalam kunci atau nilai dengan karakter garis miring terbalik (`\`).
+ Dalam file definisi koneksi, masukkan nama dan deskripsi koneksi, ganti ARN rahasia `aws_secret_arn` dengan ARN rahasia yang dibuat sebelumnya.
+ Pastikan database yang dideklarasikan dengan namanya dalam definisi koneksi di atas cocok dengan database cluster. **Anda dapat memverifikasi ini dengan membuka halaman detail cluster di [konsol Amazon Redshift](https://console.aws.amazon.com/redshiftv2/), dan memverifikasi nama database di bawah **Konfigurasi database** di bagian Properti.**
+ Untuk parameter tambahan, lihat daftar properti koneksi yang didukung oleh Amazon Redshift di. [Parameter koneksi Amazon Redshift](sagemaker-sql-extension-connection-properties.md#sagemaker-sql-extension-connection-properties-redshift) 
**catatan**  
Secara default, konektor ekstensi SQL untuk Python menjalankan semua kueri dalam transaksi, kecuali properti in connection diatur `auto_commit` ke. `true` 
Anda dapat menambahkan semua parameter koneksi, termasuk `database` nama, ke rahasia.

```
{
  "ConnectionInput": {
      "Name": "Redshift connection name",
      "Description": "Redshift connection description",
      "ConnectionType": "REDSHIFT",
      "ConnectionProperties": {
          "PythonProperties":"{\"aws_secret_arn\": \"arn:aws:secretsmanager:region:account_id:secret:secret_name\", \"database\":\"database_name\", \"database_metadata_current_db_only\": false}"
      }
  }
}
```

Setelah file definisi Anda diperbarui, ikuti langkah-langkah [Buat AWS Glue koneksi](#sagemaker-sql-extension-datasources-glue-connection-creation) untuk membuat AWS Glue koneksi Anda.

### Konfigurasikan AWS Glue koneksi untuk Athena
<a name="sagemaker-sql-extension-athena-glue-connection-config"></a>

Bagian ini memberikan rincian tentang properti koneksi dalam file definisi JSON yang khusus untuk Athena.

#### Konfigurasikan AWS Glue koneksi untuk Athena
<a name="sagemaker-sql-extension-athena-glue-connection-creation"></a>

Ekstensi SQL terhubung ke sumber data menggunakan AWS Glue koneksi kustom. Untuk informasi umum tentang membuat AWS Glue koneksi untuk menghubungkan sumber data, lihat[Buat AWS Glue koneksi (untuk administrator)](#sagemaker-sql-extension-datasources-glue-connection). Contoh berikut adalah definisi AWS Glue koneksi sampel untuk menghubungkan ke Athena.

Sebelum membuat koneksi baru, ingatlah rekomendasi ini:
+ Properti dalam `ConnectionProperties` kunci terdiri dari pasangan nilai kunci yang dirangkai. Melarikan diri dari tanda kutip ganda yang digunakan dalam kunci atau nilai dengan karakter garis miring terbalik (`\`). 
+ Dalam file definisi koneksi, masukkan nama dan deskripsi koneksi, ganti dengan nama katalog Anda, `catalog_name` `s3_staging_dir` dengan URI Amazon S3 (Uniform Resource Identifier) direktori output Anda di bucket Amazon S3 Anda, dan `region_name` dengan wilayah bucket Amazon S3 Anda.
+ Untuk parameter tambahan, lihat daftar properti koneksi yang didukung oleh Athena di. [Parameter koneksi Athena](sagemaker-sql-extension-connection-properties.md#sagemaker-sql-extension-connection-properties-athena) 
**catatan**  
Anda dapat menambahkan semua parameter koneksi, termasuk `catalog_name` atau`s3_staging_dir`, ke rahasia.
Jika Anda menentukan`workgroup`, Anda tidak perlu menentukan`s3_staging_dir`.

```
{
    "ConnectionInput": {
        "Name": "Athena connection name",
        "Description": "Athena connection description",
        "ConnectionType": "ATHENA",
        "ConnectionProperties": {
            "PythonProperties": "{\"catalog_name\": \"catalog_name\",\"s3_staging_dir\": \"s3://amzn-s3-demo-bucket_in_same_region/output_query_results_dir/\", \"region_name\": \"region\"}"
        }
    }
}
```

Setelah file definisi Anda diperbarui, ikuti langkah-langkah [Buat AWS Glue koneksi](#sagemaker-sql-extension-datasources-glue-connection-creation) untuk membuat AWS Glue koneksi Anda.

### Konfigurasikan AWS Glue koneksi untuk Snowflake
<a name="sagemaker-sql-extension-snowflake-glue-connection-config"></a>

Bagian ini memberikan rincian tentang rahasia dan properti koneksi dalam file definisi JSON yang khusus untuk Snowflake. Sebelum membuat file konfigurasi koneksi Anda, kami sarankan untuk menyimpan kredensil akses Snowflake Anda sebagai rahasia di Secrets Manager.

#### Buat rahasia untuk kredensi akses Snowflake
<a name="sagemaker-sql-extension-snowflake-secret"></a>

**Untuk menyimpan informasi Amazon Redshift di Secrets Manager**

1. Dari AWS konsol, navigasikan ke AWS Secrets Manager.

1. Pilih **Simpan rahasia baru**.

1. Di bawah **Tipe rahasia**, pilih **Jenis rahasia lainnya**.

1. Pada pasangan kunci-nilai, pilih **Plaintext**, lalu salin konten JSON berikut. Ganti`user`,`password`, dan `account` dengan nilai-nilai mereka.

   ```
   {
       "user":"snowflake_user",
       "password":"snowflake_password",
       "account":"account_id"
   }
   ```

1. Sebutkan rahasianya.

1. Pengaturan yang tersisa dapat dibiarkan pada nilai default mereka untuk pembuatan rahasia awal, atau disesuaikan jika diperlukan.

1. Buat rahasia dan ambil ARN-nya.

#### Konfigurasikan AWS Glue koneksi untuk Snowflake
<a name="sagemaker-sql-extension-snowflake-glue-connection-creation"></a>

Ekstensi SQL terhubung ke sumber data menggunakan AWS Glue koneksi kustom. Untuk informasi umum tentang membuat AWS Glue koneksi untuk menghubungkan sumber data, lihat[Buat AWS Glue koneksi (untuk administrator)](#sagemaker-sql-extension-datasources-glue-connection). Contoh berikut adalah definisi AWS Glue koneksi sampel untuk menghubungkan ke Snowflake.

Sebelum membuat koneksi baru, ingatlah rekomendasi ini:
+ Properti dalam `ConnectionProperties` kunci terdiri dari pasangan nilai kunci yang dirangkai. Melarikan diri dari tanda kutip ganda yang digunakan dalam kunci atau nilai dengan karakter garis miring terbalik (`\`). 
+ Dalam file definisi koneksi, masukkan nama dan deskripsi koneksi, lalu ganti ARN rahasia `aws_secret_arn` dengan ARN rahasia yang dibuat sebelumnya, dan ID akun Anda masuk. `account`
+ Untuk parameter tambahan, lihat daftar properti koneksi yang didukung oleh Snowflake di. [Parameter koneksi kepingan salju](sagemaker-sql-extension-connection-properties.md#sagemaker-sql-extension-connection-properties-snowflake)
**catatan**  
Anda dapat menambahkan semua parameter koneksi, termasuk`account`, ke rahasia.

```
{
    "ConnectionInput": {
        "Name": "Snowflake connection name",
        "Description": "Snowflake connection description",
        "ConnectionType": "SNOWFLAKE",
        "ConnectionProperties": {
            "PythonProperties":  "{\"aws_secret_arn\": \"arn:aws:secretsmanager:region:account_id:secret:secret_name\", \"account\":\"account_id\"}"}"
        }
    }
}
```

Setelah file definisi Anda diperbarui, ikuti langkah-langkah [Buat AWS Glue koneksi](#sagemaker-sql-extension-datasources-glue-connection-creation) untuk membuat AWS Glue koneksi Anda.

## Buat AWS Glue koneksi
<a name="sagemaker-sql-extension-datasources-glue-connection-creation"></a>

Untuk membuat AWS Glue koneksi melalui AWS CLI, gunakan file definisi koneksi Anda dan jalankan AWS CLI perintah ini. Ganti `region` placeholder dengan nama AWS Wilayah Anda dan berikan jalur lokal ke file definisi Anda.

**catatan**  
Jalur ke file definisi konfigurasi Anda harus didahului oleh. `file://`

```
aws --region region glue create-connection --cli-input-json file://path_to_file/sagemaker-sql-connection.json
```

Verifikasi bahwa AWS Glue koneksi dibuat dengan menjalankan perintah berikut dan periksa nama koneksi Anda.

```
aws --region region glue get-connections
```

Atau, Anda dapat memperbarui AWS Glue koneksi yang ada sebagai berikut:
+ Ubah file definisi AWS Glue koneksi sesuai kebutuhan.
+ Jalankan perintah berikut untuk memperbarui koneksi.

  ```
  aws --region region glue update-connection --name glue_connection_name --cli-input-json file://path_to_file/sagemaker-sql-connection.json
  ```

# Buat koneksi yang ditentukan pengguna AWS Glue
<a name="sagemaker-sql-extension-datasources-glue-connection-user-defined"></a>

**catatan**  
Semua AWS Glue koneksi yang dibuat oleh pengguna melalui UI ekstensi SQL secara otomatis ditandai dengan yang berikut:  
`UserProfile: user-profile-name`
`AppType: "JL"`
Tag yang diterapkan pada AWS Glue koneksi yang dibuat melalui UI ekstensi SQL melayani dua tujuan. `"UserProfile": user-profile-name`Tag memungkinkan identifikasi profil pengguna tertentu yang membuat AWS Glue koneksi, memberikan visibilitas ke pengguna yang bertanggung jawab atas koneksi. `"AppType": "JL"`Tag mengkategorikan asal koneksi, mengaitkannya dengan aplikasi. JupyterLab Hal ini memungkinkan koneksi ini untuk dibedakan dari yang mungkin telah dibuat melalui cara lain, seperti. AWS CLI

## Prasyarat
<a name="sagemaker-sql-extension-datasources-glue-connection-user-defined-prerequisites"></a>

Sebelum membuat AWS Glue koneksi menggunakan UI ekstensi SQL, pastikan Anda telah menyelesaikan tugas-tugas berikut: 
+ Minta administrator Anda:
  + Aktifkan komunikasi jaringan antara domain Studio dan sumber data yang ingin Anda sambungkan. Untuk mempelajari tentang persyaratan jaringan, lihat[Konfigurasikan akses jaringan antara Studio dan sumber data (untuk administrator)](sagemaker-sql-extension-networking.md).
  + Pastikan bahwa izin IAM yang diperlukan disiapkan untuk mengelola AWS Glue koneksi dan akses ke Secrets Manager. Untuk mempelajari tentang izin yang diperlukan, lihat[Siapkan izin IAM untuk mengakses sumber data (untuk administrator)](sagemaker-sql-extension-datasources-connection-permissions.md).
**catatan**  
Administrator dapat membatasi akses pengguna hanya ke koneksi yang dibuat oleh pengguna dalam aplikasi. JupyterLab Ini dapat dilakukan dengan mengonfigurasi [kontrol akses berbasis tag](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-sql-extension-datasources-connection-permissions.html#user-defined-connections-permissions) yang dicakup ke profil pengguna.
+ Periksa properti koneksi dan instruksi untuk membuat rahasia untuk sumber data Anda di[Buat rahasia untuk kredensi akses database di Secrets Manager](sagemaker-sql-extension-glue-connection-secrets.md).

## Alur kerja pengguna
<a name="sagemaker-sql-extension-datasources-glue-connection-user-defined-steps"></a>

Langkah-langkah berikut menyediakan alur kerja pengguna saat membuat koneksi pengguna:

1. **Pilih tipe sumber data**: Setelah memilih ikon *Tambahkan koneksi baru*, formulir terbuka, meminta pengguna untuk memilih jenis sumber data yang ingin mereka sambungkan, seperti Amazon Redshift, Athena, atau Snowflake.

1. **Menyediakan properti koneksi**: Berdasarkan sumber data yang dipilih, properti koneksi yang relevan dimuat secara dinamis. Formulir menunjukkan bidang mana yang wajib atau opsional untuk sumber data yang dipilih. Untuk mempelajari properti yang tersedia untuk sumber data Anda, lihat[Parameter koneksi](sagemaker-sql-extension-connection-properties.md).

1. **Pilih AWS Secrets Manager ARN Anda**: Untuk sumber data Amazon Redshift dan Snowflake, pengguna diminta untuk memilih Secrets AWS Manager ARN yang menyimpan informasi sensitif seperti nama pengguna dan kata sandi. Untuk mempelajari tentang pembuatan rahasia untuk sumber data Anda, lihat[Buat rahasia untuk kredensi akses database di Secrets Manager](sagemaker-sql-extension-glue-connection-secrets.md).

1. **Simpan detail koneksi Anda**: Setelah mengklik **Buat**, properti koneksi yang disediakan disimpan sebagai AWS Glue koneksi. 

1. **Uji koneksi Anda**: Jika koneksi berhasil, database dan tabel terkait menjadi terlihat di explorer. Jika koneksi gagal, pesan kesalahan ditampilkan, meminta pengguna untuk meninjau dan memperbaiki detail koneksi.

1. **Biasakan dengan fitur ekstensi SQL**: Untuk mempelajari tentang kemampuan ekstensi, lihat. [Fitur dan penggunaan ekstensi SQL](sagemaker-sql-extension-features.md)

1. **(Opsional) Perbarui atau hapus koneksi yang dibuat pengguna**: Asalkan pengguna telah diberikan izin yang diperlukan, mereka dapat memperbarui atau menghapus koneksi yang telah mereka buat. Untuk mempelajari lebih lanjut tentang izin yang diperlukan, lihat[Koneksi yang ditentukan pengguna memerlukan izin IAM](sagemaker-sql-extension-datasources-connection-permissions.md#user-defined-connections-permissions).

# Siapkan izin IAM untuk mengakses sumber data (untuk administrator)
<a name="sagemaker-sql-extension-datasources-connection-permissions"></a>

Administrator harus memastikan bahwa peran eksekusi yang digunakan oleh JupyterLab aplikasi memiliki izin AWS IAM yang diperlukan untuk mengakses data melalui koneksi yang dikonfigurasi. AWS Glue 
+ **Koneksi yang dibuat oleh administrator menggunakan AWS CLI**: Untuk melihat AWS Glue koneksi yang [dibuat oleh administrator](sagemaker-sql-extension-datasources-glue-connection.md) dan mengakses data mereka, pengguna harus meminta administrator mereka melampirkan izin khusus ke peran eksekusi SageMaker AI yang digunakan oleh JupyterLab aplikasi mereka di Studio. Ini termasuk akses ke AWS Glue, Secrets Manager, dan izin khusus database. Koneksi yang dibuat oleh administrator dapat dilihat oleh semua aplikasi yang berbagi peran eksekusi yang diberikan izin untuk melihat AWS Glue katalog atau database tertentu. Untuk mempelajari tentang daftar izin yang diperlukan per jenis sumber data, lihat izin koneksi yang ditentukan admin di. [Koneksi yang ditentukan admin memerlukan izin IAM](#admin-defined-connections-permissions) 
+ **Koneksi yang dibuat oleh pengguna menggunakan UI ekstensi SQL di JupyterLab**: Koneksi yang [dibuat oleh profil pengguna](sagemaker-sql-extension-datasources-glue-connection-user-defined.md) yang berbagi peran eksekusi yang sama juga akan dicantumkan kecuali visibilitas koneksi mereka dicakup ke hanya yang dibuat oleh pengguna. Koneksi yang dibuat oleh pengguna ditandai dengan profil pengguna yang membuatnya. Untuk membatasi kemampuan untuk melihat, memperbarui, atau menghapus koneksi yang dibuat pengguna tersebut hanya untuk pengguna yang membuatnya, administrator dapat menambahkan pembatasan kontrol akses berbasis tag tambahan ke izin IAM peran eksekusi. Untuk mempelajari tentang kontrol akses berbasis tag tambahan yang diperlukan, lihat[Koneksi yang ditentukan pengguna memerlukan izin IAM](#user-defined-connections-permissions).

## Koneksi yang ditentukan admin memerlukan izin IAM
<a name="admin-defined-connections-permissions"></a>

Untuk memberikan peran eksekusi SageMaker AI yang digunakan oleh JupyterLab aplikasi Anda di Studio akses ke sumber data melalui AWS Glue koneksi, lampirkan kebijakan inline berikut ke peran tersebut.

Untuk melihat izin spesifik dan detail kebijakan untuk setiap sumber data atau metode autentikasi, pilih jenis sambungan yang relevan di bawah ini.

**catatan**  
Sebaiknya batasi izin kebijakan Anda hanya pada sumber daya dan tindakan yang diperlukan.  
Untuk mengurangi kebijakan dan memberikan akses hak istimewa paling sedikit, ganti wildcard `"Resource": ["*"]` dalam kebijakan Anda dengan spesifik ARNs untuk sumber daya yang tepat yang memerlukan akses. Untuk informasi selengkapnya tentang cara mengontrol akses ke sumber daya Anda, lihat[Selaraskan akses AWS sumber daya dengan izin ARN granular](#resource-access-control).

### Semua jenis koneksi
<a name="datasources-connection-permissions-all"></a>

**catatan**  
Kami sangat menyarankan untuk meringkas kebijakan ini hanya pada tindakan dan sumber daya yang diperlukan.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "GetS3AndDataSourcesMetadata",
            "Effect": "Allow",
            "Action": [
                "glue:GetDatabases",
                "glue:GetSchema",
                "glue:GetTables",
                "s3:ListBucket",
                "s3:GetObject",
                "s3:GetBucketLocation",
                "glue:GetDatabase",
                "glue:GetTable",
                "glue:ListSchemas",
                "glue:GetPartitions"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*",
                "arn:aws:glue:us-east-1:111122223333:catalog",
    "arn:aws:glue:us-east-1:111122223333:connection/*"
            ]
        },
        {
            "Sid": "ExecuteQueries",
            "Effect": "Allow",
            "Action": [
                "athena:ListDataCatalogs",
                "athena:ListDatabases",
                "athena:ListTableMetadata",
                "athena:StartQueryExecution",
                "athena:GetQueryExecution",
                "athena:RunQuery",
                "athena:StartSession",
                "athena:GetQueryResults",
                "athena:ListWorkGroups",
                "s3:ListMultipartUploadParts",
                "s3:ListBucket",
                "s3:GetBucketLocation",
                "athena:GetDataCatalog",
                "s3:AbortMultipartUpload",
                "s3:GetObject",
                "s3:PutObject",
                "athena:GetWorkGroup"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*",
                "arn:aws:athena:us-east-1:111122223333:workgroup/workgroup-name"
            ]
        },
        {
            "Sid": "GetGlueConnections",
            "Effect": "Allow",
            "Action": [
                "glue:GetConnections",
                "glue:GetConnection"
            ],
            "Resource": [
                "arn:aws:glue:us-east-1:111122223333:catalog",
                "arn:aws:glue:us-east-1:111122223333:connection/*"
            ]
        },
        {
            "Sid": "GetSecrets",
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue"
            ],
            "Resource": [
                "arn:aws:secretsmanager:us-east-1:111122223333:secret:secret-name"
            ]
        },
        {
            "Sid": "GetClusterCredentials",
            "Effect": "Allow",
            "Action": [
                "redshift:GetClusterCredentials"
            ],
            "Resource": [
                "arn:aws:redshift:us-east-1:111122223333:cluster:cluster-name"
            ]
        }
    ]
}
```

------

### Athena
<a name="datasources-connection-permissions-athena"></a>

**catatan**  
Kami sangat menyarankan untuk meringkas kebijakan ini hanya untuk sumber daya yang diperlukan.

[Untuk informasi selengkapnya, lihat *Contoh kebijakan izin IAM di dokumentasi* Athena.](https://docs.aws.amazon.com/athena/latest/ug/federated-query-iam-access.html)

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "GetS3AndDataSourcesMetadata",
            "Effect": "Allow",
            "Action": [
                "glue:GetDatabases",
                "glue:GetSchema",
                "glue:GetTables",
                "s3:ListBucket",
                "s3:GetObject",
                "s3:GetBucketLocation",
                "glue:GetDatabase",
                "glue:GetTable",
                "glue:ListSchemas",
                "glue:GetPartitions"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*",                
                "arn:aws:glue:us-east-2:111122223333:catalog",
                "arn:aws:glue:us-east-2:111122223333:connection/*"
            ]
        },
        {
            "Sid": "ExecuteAthenaQueries",
            "Effect": "Allow",
            "Action": [
                "athena:ListDataCatalogs",
                "athena:ListDatabases",
                "athena:ListTableMetadata",
                "athena:StartQueryExecution",
                "athena:GetQueryExecution",
                "athena:RunQuery",
                "athena:StartSession",
                "athena:GetQueryResults",
                "athena:ListWorkGroups",
                "s3:ListMultipartUploadParts",
                "s3:ListBucket",
                "s3:GetBucketLocation",
                "athena:GetDataCatalog",
                "s3:AbortMultipartUpload",
                "s3:GetObject",
                "s3:PutObject",
                "athena:GetWorkGroup"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*",
                "arn:aws:athena:us-east-2:111122223333:workgroup/workgroup-name"
            ]
        },
        {
            "Sid": "GetGlueConnections",
            "Effect": "Allow",
            "Action": [
                "glue:GetConnections",
                "glue:GetConnection"
            ],
            "Resource": [
                "arn:aws:glue:us-east-2:111122223333:catalog",
                "arn:aws:glue:us-east-2:111122223333:connection/*"
            ]
        },
        {
            "Sid": "GetSecrets",
            "Effect": "Allow",
            "Action": [                
                "secretsmanager:GetSecretValue"
            ],
            "Resource": [
                "arn:aws:secretsmanager:us-east-2:111122223333:secret:secret-name"       
            ]
        }
    ]
}
```

------

### Amazon Redshift dan Amazon Redshift Tanpa Server (autentikasi nama pengguna & kata sandi)/Snowflake
<a name="datasources-connection-permissions-snowflake-redshift-user-password"></a>

**catatan**  
Kami sangat menyarankan untuk meringkas kebijakan ini hanya untuk sumber daya yang diperlukan.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "GetS3Metadata",
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket",
                "s3:GetObject",
                "s3:GetBucketLocation"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*"
            ]
        },
        {
            "Sid": "GetGlueConnections",
            "Effect": "Allow",
            "Action": [
                "glue:GetConnections",
                "glue:GetConnection"
            ],
            "Resource": [
                "arn:aws:glue:us-east-2:111122223333:catalog",
                "arn:aws:glue:us-east-2:111122223333:connection/*"
            ]
        },
        {
            "Sid": "GetSecrets",
            "Effect": "Allow",
            "Action": [                
                "secretsmanager:GetSecretValue"
            ],
            "Resource": [
                "arn:aws:secretsmanager:us-east-2:111122223333:secret:secret-name"            
            ]
        }
    ]
}
```

------

### Amazon Redshift (autentikasi IAM)
<a name="datasources-connection-permissions-redshift-iam"></a>

**catatan**  
Kami sangat menyarankan untuk meringkas kebijakan ini hanya untuk sumber daya yang diperlukan.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "GetS3Metadata",
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket",
                "s3:GetObject",
                "s3:GetBucketLocation"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*",
                "arn:aws:s3:::amzn-s3-demo-bucket/*"
            ]
        },
        {
            "Sid": "GetGlueConnections",
            "Effect": "Allow",
            "Action": [
                "glue:GetConnections",
                "glue:GetConnection"
            ],
            "Resource": [
                "arn:aws:glue:us-east-1:111122223333:catalog",
                "arn:aws:glue:us-east-1:111122223333:connection/*",
                "arn:aws:glue:us-east-1:111122223333:connection/connection-name"
            ]
        },
        {
            "Sid": "GetSecrets",
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue"
            ],
            "Resource": [
                "arn:aws:secretsmanager:us-east-1:111122223333:secret:secret-name",
                "arn:aws:secretsmanager:us-east-1:111122223333:secret:secret-name-with-suffix"
            ]
        },
        {
            "Sid": "GetClusterCredentials",
            "Effect": "Allow",
            "Action": [
                "redshift:GetClusterCredentials"
            ],
            "Resource": [
                "arn:aws:redshift:us-east-1:111122223333:cluster:cluster-name",
                "arn:aws:redshift:us-east-1:111122223333:dbuser:cluster-name/db-user-name"
            ]
        }
    ]
}
```

------

### Amazon Redshift tanpa server (autentikasi IAM)
<a name="datasources-connection-permissions-redshift-serverless-iam"></a>

**catatan**  
Kami sangat menyarankan untuk meringkas kebijakan ini hanya untuk sumber daya yang diperlukan.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "GetS3Metadata",
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket",
                "s3:GetObject",
                "s3:GetBucketLocation"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*"
            ]
        },
        {
            "Sid": "GetGlueConnections",
            "Effect": "Allow",
            "Action": [
                "glue:GetConnections",
                "glue:GetConnection"
            ],
            "Resource": [
                "arn:aws:glue:us-east-2:111122223333:catalog",
                "arn:aws:glue:us-east-2:111122223333:connection/*"
            ]
        },
        {
            "Sid": "GetSecrets",
            "Effect": "Allow",
            "Action": [                
                "secretsmanager:GetSecretValue"
            ],
            "Resource": [
                "arn:aws:secretsmanager:us-east-2:111122223333:secret:secret-name"         
            ]
        },
        {
            "Sid": "GetRedshiftServerlessCredentials",
            "Effect": "Allow",
            "Action": [
                "redshift-serverless:GetCredentials"
            ],
            "Resource": [
                "arn:aws:redshift-serverless:us-east-2:111122223333:namespace/namespace-id"           
            ]
        }
    ]
}
```

------

## Koneksi yang ditentukan pengguna memerlukan izin IAM
<a name="user-defined-connections-permissions"></a>

Izin kebijakan IAM untuk pengguna dapat menjelaskan keberadaan `UserProfile` tag pada sumber daya AWS Glue koneksi.
+ **Untuk melihat AWS Glue koneksi**:
  + Pengguna dapat melihat semua koneksi yang tidak memiliki `UserProfile` tag (dibuat oleh administrator). 
  + Pengguna dapat melihat koneksi yang memiliki `UserProfile` tag dengan nilai yang sama dengan nama profil pengguna mereka. 
  + Pengguna tidak dapat melihat koneksi yang memiliki `UserProfile` tag dengan nilai yang berbeda dari nama profil pengguna mereka. 
+ **Untuk memperbarui atau menghapus AWS Glue koneksi**:
  + Pengguna dapat memperbarui atau menghapus koneksi yang memiliki `UserProfile` tag dengan nilai yang sama dengan nama profil pengguna mereka. 
  + Pengguna tidak dapat memperbarui atau menghapus koneksi yang memiliki `UserProfile` tag dengan nilai berbeda dari nama profil pengguna mereka. 
  + Pengguna tidak dapat memperbarui atau menghapus koneksi yang tidak memiliki `UserProfile` tag. 

Untuk mencapai hal ini, administrator harus memberikan peran eksekusi yang digunakan oleh JupyterLab aplikasi profil pengguna izin tambahan di luar izin koneksi yang ditentukan [admin](#admin-defined-connections-permissions) yang ada. Secara khusus, selain izin yang diperlukan untuk mengakses AWS Glue koneksi yang ditentukan admin, dua izin IAM tambahan berikut harus diberikan kepada peran eksekusi pengguna:
+ Izin untuk membuat AWS Glue koneksi dan mengaitkan `UserProfile` tag dengan nilai nama profil pengguna.
+ Izin untuk melihat, memperbarui, dan menghapus AWS Glue koneksi yang memiliki `UserProfile` tag yang cocok dengan nama profil pengguna.

Izin ini membatasi akses ke AWS Glue koneksi berdasarkan nilai tag profil pengguna tertentu. Perbarui nilai `UserProfile` tag dengan nama profil pengguna yang ingin Anda targetkan.

```
"Action": [
    "glue:GetConnection",
    "glue:GetConnections"    
],
"Resource": [
    "arn:aws:glue:region:account_id:connection/*"
],
"Condition": {
    "StringEqualsIfExists": {
        "aws:ResourceTag/UserProfile": "user_profile_name"
    }
}
```

Izin ini membatasi kemampuan untuk membuat, memperbarui, dan menghapus koneksi yang dibuat pengguna hanya ke koneksi yang dibuat oleh profil pengguna dengan nilai tag yang ditentukan`UserProfile`.

```
"Action": [
    "glue:DeleteConnection",
    "glue:UpdateConnection",
    "glue:CreateConnection",
    "glue:TagResource"
],
"Resource": [
    "arn:aws:glue:region:account_id:connection/*"
],
"Condition": {
    "StringEquals": {
        "aws:ResourceTag/UserProfile": "user_profile"
    }
}
```

## Selaraskan akses AWS sumber daya dengan izin ARN granular
<a name="resource-access-control"></a>

Untuk kontrol yang lebih halus atas akses ke AWS sumber daya Anda, ganti sumber daya wildcard `"Resource": ["*"]` dalam kebijakan Anda dengan Nama Sumber Daya Amazon tertentu (ARNs) hanya sumber daya yang memerlukan akses. Menggunakan yang tepat ARNs daripada wildcard membatasi akses ke sumber daya yang dimaksud. 
+ **Gunakan bucket Amazon S3 tertentu ARNs**

  Misalnya `"arn:aws:s3:::bucket-name"` atau ` "arn:aws:s3:::bucket-name/*"` untuk operasi tingkat ember atau tingkat objek.

  Untuk informasi tentang semua jenis sumber daya di Amazon S3, lihat [Jenis sumber daya yang ditentukan oleh Amazon S3](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazons3.html#amazons3-resources-for-iam-policies).
+ **Gunakan AWS Glue database tertentu ARNs**

  Misalnya, ` "arn:aws:glue:region:account-id:catalog"` atau ` "arn:aws:glue:region:account-id:database/db-name"`. Untuk informasi tentang semua jenis sumber daya AWS Glue, lihat [Jenis sumber daya yang ditentukan oleh AWS Glue](https://docs.aws.amazon.com/service-authorization/latest/reference/list_awsglue.html#awsglue-resources-for-iam-policies).
+ **Gunakan workgroup Athena tertentu ARNs**

  Sebagai contoh, `"arn:aws:athena:region:account-id:workgroup/workgroup-name"`. Untuk informasi tentang semua jenis sumber daya di Athena, lihat [Jenis sumber daya yang ditentukan oleh Athena](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonathena.html#amazonathena-resources-for-iam-policies).
+ **Gunakan AWS rahasia Secrets Manager tertentu ARNs**

  Sebagai contoh, `"arn:aws:secretsmanager:region:account-id:secret:secret-name"`. Untuk informasi tentang semua jenis sumber daya di AWS Secrets Manager, lihat [Jenis sumber daya yang ditentukan oleh AWS Secrets Manager](https://docs.aws.amazon.com/service-authorization/latest/reference/list_awssecretsmanager.html#awssecretsmanager-resources-for-iam-policies)
+ **Gunakan cluster Amazon Redshift tertentu ARNs**

  Sebagai contoh, `"arn:aws:redshift:region:account-id:cluster:cluster-name"`. Untuk informasi tentang jenis sumber daya di Amazon Redshift, lihat [Jenis sumber daya yang ditentukan oleh Amazon Redshift](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonredshift.html#amazonredshift-resources-for-iam-policies). Untuk informasi tentang semua jenis sumber daya di Redshift Tanpa Server, lihat Jenis [sumber daya yang ditentukan oleh](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonredshiftserverless.html#amazonredshiftserverless-resources-for-iam-policies) Redshift Tanpa Server.

# Pertanyaan umum
<a name="sagemaker-sql-extension-faqs"></a>

Berikut ini FAQs menjawab pertanyaan umum umum untuk ekstensi SQL di JupyterLab.

## T: Di mana saya menemukan log untuk ekstensi SQL?
<a name="sagemaker-sql-extension-faqs-0"></a>

J: Ekstensi SQL menulis lognya di file log umum JupyterLab aplikasi Anda di Studio. Anda dapat menemukan log tersebut di`/var/log/apps/app_container.log`.

## T: Saya mendapatkan kesalahan: “UsageError: Sihir sel `%%sm\$1sql` tidak ditemukan.”
<a name="sagemaker-sql-extension-faqs-1"></a>

J: Buat sel baru dan muat ekstensi lagi menggunakan`%load_ext amazon_sagemaker_sql_magic`.

## T: Bagaimana cara membuat daftar berbagai parameter `%%sm_sql` perintah saya?
<a name="sagemaker-sql-extension-faqs-2"></a>

A: Gunakan `%%sm_sql?` untuk mendapatkan konten bantuan dari perintah.

## T: Saya tidak dapat melihat tampilan penemuan data di panel sisi kanan.
<a name="sagemaker-sql-extension-faqs-3"></a>

J: Pastikan ruang Anda menggunakan gambar SageMaker distribusi versi 1.6 atau lebih tinggi. SageMaker Gambar-gambar ini sudah diinstal sebelumnya dengan ekstensi. 

Jika Anda memperbarui gambar ruang JupyterLab aplikasi Anda di Studio, segarkan browser Anda.

## T: Panel kanan tidak secara akurat mencerminkan AWS Glue koneksi yang dikonfigurasi.
<a name="sagemaker-sql-extension-faqs-4"></a>

J: Coba segarkan panel kanan menggunakan tombol **Refresh** di sudut kanan bawah UI ekstensi SQL di notebook Anda.

## Q: Pernyataan SQL tidak berjalan seperti yang diharapkan atau berjalan dengan tidak benar.
<a name="sagemaker-sql-extension-faqs-5"></a>

J: Coba bersihkan koneksi yang di-cache dengan menjalankan perintah ajaib berikut. `%sm_sql_manage --clear-cached-connections`

## T: Saya mendapatkan kesalahan: “Jumlah pernyataan aktual 2 tidak cocok dengan jumlah pernyataan yang diinginkan 1.”
<a name="sagemaker-sql-extension-faqs-6"></a>

J: Ekstensi SQL hanya mendukung menjalankan satu query SQL pada satu waktu.

## Kepingan salju FAQs
<a name="sagemaker-sql-extension-faqs-snowflake"></a>

Berikut ini FAQs menjawab pertanyaan umum umum untuk pengguna ekstensi SQL menggunakan Snowflake sebagai sumber data mereka.

### T: Saya mendapatkan kesalahan: “Tidak ada gudang aktif yang dipilih di sesi saat ini.” Pilih gudang aktif dengan perintah 'gunakan gudang'.
<a name="sagemaker-sql-extension-faqs-snowflake-1"></a>

J: Ini bisa terjadi jika gudang default untuk pengguna tidak dipilih. Jalankan perintah `USE WAREHOUSE warehouse_name` untuk setiap sesi.

### T: Saya mendapatkan kesalahan: “objek '*foo*' tidak ada atau tidak diotorisasi.”
<a name="sagemaker-sql-extension-faqs-snowflake-2"></a>

J: Pastikan bahwa pengguna Snowflake Anda memiliki akses ke objek yang diberikan.

# Parameter koneksi
<a name="sagemaker-sql-extension-connection-properties"></a>

Tabel berikut merinci properti Python yang didukung untuk AWS Glue koneksi per penyimpanan data.

## Parameter koneksi Amazon Redshift
<a name="sagemaker-sql-extension-connection-properties-redshift"></a>

Parameter koneksi Python berikut didukung oleh AWS Glue koneksi ke Amazon Redshift.


| Key | Tipe | Deskripsi | Batasan | Diperlukan | 
| --- | --- | --- | --- | --- | 
| auto\$1create | Tipe: boolean | Menunjukkan apakah pengguna harus dibuat jika tidak ada. Default ke false. | true, false | Tidak | 
| aws\$1secret\$1arn | Tipe: string | ARN rahasia digunakan untuk mengambil parameter tambahan untuk koneksi. | ARN yang valid | Tidak | 
| cluster\$1identifier | Jenis: string - MaxLength: 63 | Pengidentifikasi cluster dari cluster Amazon Redshift. | ^ (?\$1. \$1—) [a-z] [a-z0-9-] \$10,61\$1 [a-z0-9] \$1 | Tidak | 
| database | Jenis: string - MaxLength: 127 | Nama database untuk terhubung ke. |  | Tidak | 
| database\$1metadata\$1current\$1db\$1only | Tipe: boolean | Menunjukkan jika aplikasi mendukung katalog datashare multi-database. Default true untuk menunjukkan bahwa aplikasi tidak mendukung katalog datashare multi-database untuk kompatibilitas mundur. | true, false | Tidak | 
| db\$1groups | Tipe: string | Daftar dipisahkan koma dari nama grup database yang ada yang db\$1user bergabung untuk sesi saat ini. |  | Tidak | 
| db\$1user | Tipe: string | ID pengguna untuk digunakan dengan Amazon Redshift. |  | Tidak | 
| host | Jenis: string - MaxLength: 256 | Nama host dari cluster Amazon Redshift. |  | Tidak | 
| iam | Tipe: boolean | Tandai untuk mengaktifkan atau menonaktifkan otentikasi berbasis IAM untuk koneksi. Default ke false. | true, false | Tidak | 
| iam\$1disable\$1cache | Tipe: boolean | Opsi ini menentukan apakah kredensil IAM di-cache. Default ke true. Ini meningkatkan kinerja saat permintaan ke gateway API dibatasi. | true, false | Tidak | 
| max\$1prepared\$1statements | Tipe: integer | Jumlah maksimum pernyataan yang disiapkan yang dapat dibuka sekaligus. |  | Tidak | 
| numeric\$1to\$1float | Desimal untuk mengapung | Menentukan apakah nilai NUMERIC datatype akan dikonversi dari desimal. Secara default NUMERIC nilai diterima sebagai objek decimal.Decimal Python. Mengaktifkan opsi ini tidak disarankan untuk kasus penggunaan yang lebih memilih presisi paling presisi karena hasilnya dapat dibulatkan. Silakan rujuk dokumentasi Python [https://docs.python.org/3/library/decimal.html#decimal-objects](https://docs.python.org/3/library/decimal.html#decimal-objects)untuk memahami pengorbanan antara decimal.Decimal dan float sebelum mengaktifkan opsi ini. Default ke false. | true, false | Tidak | 
| port | Tipe: integer | Nomor port cluster Amazon Redshift. | Rentang 1150-65535 | Tidak | 
| profile | Jenis: string - MaxLength: 256 | Nama profil yang berisi kredensi dan pengaturan yang digunakan oleh. AWS CLI |  | Tidak | 
| region | Tipe: string |  AWS Wilayah tempat cluster berada. |  AWS Wilayah yang Valid | Tidak | 
| serverless\$1acct\$1id | Jenis: string - MaxLength: 256 | ID AWS akun yang dikaitkan dengan sumber daya tanpa server Amazon Redshift. |  | Tidak | 
| serverless\$1work\$1group | Jenis: string - MaxLength: 256 | Nama kelompok kerja untuk titik akhir tanpa server Amazon Redshift. |  | Tidak | 
| ssl | Tipe: boolean | truejika SSL diaktifkan. | true, false | Tidak | 
| ssl\$1mode | Jenis: enum [verify-ca,verify-full, null]) | Keamanan koneksi ke Amazon Redshift. verify-ca (SSL harus digunakan dan sertifikat server harus diverifikasi.) dan verify-full (SSL harus digunakan. Sertifikat server harus diverifikasi dan nama host server harus cocok dengan atribut hostname pada sertifikat.) didukung. Untuk informasi selengkapnya, lihat [Mengonfigurasi opsi keamanan untuk koneksi](https://docs.aws.amazon.com/redshift/latest/mgmt/connecting-ssl-support.html) di dokumentasi Amazon Redshift. Default ke verify-ca. | verify-ca, verify-full | Tidak | 
| timeout | Tipe: integer | Jumlah detik sebelum koneksi ke server habis. | 0 | Tidak | 

## Parameter koneksi Athena
<a name="sagemaker-sql-extension-connection-properties-athena"></a>

Parameter koneksi Python berikut didukung oleh AWS Glue koneksi ke Athena.


| Key | Tipe | Deskripsi | Batasan | Diperlukan | 
| --- | --- | --- | --- | --- | 
| aws\$1access\$1key\$1id | Jenis: string - MaxLength: 256 | Menentukan kunci AWS akses yang terkait dengan akun IAM. Kami merekomendasikan untuk menyimpan informasi ini diaws\$1secret. | Panjangnya 16-128 | Tidak | 
| aws\$1secret\$1access\$1key | Jenis: string - MaxLength: 256 | Bagian rahasia dari kunci AWS akses. Kami merekomendasikan untuk menyimpan informasi ini diaws\$1secret. |  | Tidak | 
| aws\$1secret\$1arn | Tipe: string | ARN rahasia digunakan untuk mengambil parameter tambahan untuk koneksi. | ARN yang valid | Tidak | 
| catalog\$1name | Jenis: string - MaxLength: 256 | Katalog yang berisi database dan tabel yang diakses dengan driver. Untuk informasi tentang katalog, lihat. [DataCatalog](https://docs.aws.amazon.com/athena/latest/APIReference/API_DataCatalog.html) |  | Tidak | 
| duration\$1seconds | Tipe: number | Durasi, dalam hitungan detik, dari sesi peran. Pengaturan ini dapat memiliki nilai dari 1 jam hingga 12 jam. Secara default durasi diatur ke 3600 detik (1 jam).  | Mulai dari 900 detik (15 menit) hingga pengaturan durasi sesi maksimum untuk peran tersebut | Tidak | 
| encryption\$1option | Jenis: enum [SSE\$1S3,, SSE\$1KMSCSE\$1KMS, null]) | Enkripsi saat istirahat untuk Amazon S3. Lihat bagian Enkripsi saat istirahat di panduan [Athena](https://docs.aws.amazon.com/athena/latest/ug/encryption.html). | SSE\$1S3, SSE\$1KMS, CSE\$1KMS | Tidak | 
| kms\$1key | Jenis: string - MaxLength: 256 | AWS KMS kunci jika menggunakan CSE\$1KMS dalamencrytion\$1option. |  | Tidak | 
| poll\$1interval | Tipe: number | Interval dalam hitungan detik untuk polling status hasil kueri di Athena. |  | Tidak | 
| profile\$1name | Jenis: string - MaxLength: 256 | Nama profil AWS konfigurasi yang kredensialnya harus digunakan untuk mengautentikasi permintaan ke Athena. |  | Tidak | 
| region\$1name | Tipe: string |  AWS Wilayah tempat kueri dijalankan. |  AWS Wilayah yang Valid | Tidak | 
| result\$1reuse\$1enable | Tipe: boolean | Aktifkan penggunaan kembali hasil kueri sebelumnya. | true, false | Tidak | 
| result\$1reuse\$1minutes | Tipe: integer | Menentukan, dalam hitungan menit, usia maksimum hasil query sebelumnya yang Athena harus mempertimbangkan untuk digunakan kembali. Bawaannya adalah 60. | >= 1 | Tidak | 
| role\$1arn | Tipe: string | Peran yang akan digunakan untuk menjalankan kueri. | ARN yang valid | Tidak | 
| schema\$1name | Jenis: string - MaxLength: 256 | Nama skema default yang akan digunakan untuk database. |  | Tidak | 
| s3\$1staging\$1dir | Jenis: string - MaxLength: 1024 | Lokasi di Amazon S3 tempat hasil kueri disimpan. |  | Entah s3\$1staging\$1dir atau work\$1group diperlukan | 
| work\$1group | Tipe: string | Workgroup di mana query akan berjalan. Untuk informasi tentang kelompok kerja, lihat [WorkGroup](https://docs.aws.amazon.com/athena/latest/APIReference/API_WorkGroup.html). | ^ [A-za-Z0-9.\$1-] \$11,128\$1 \$1 | Entah s3\$1staging\$1dir atau work\$1group diperlukan | 

## Parameter koneksi kepingan salju
<a name="sagemaker-sql-extension-connection-properties-snowflake"></a>

Parameter koneksi Python berikut didukung oleh AWS Glue koneksi ke Snowflake.

Parameter koneksi kepingan salju


| Key | Tipe | Deskripsi | Batasan | Diperlukan | 
| --- | --- | --- | --- | --- | 
| account | Jenis: string - MaxLength: 256 | Pengidentifikasi akun Snowflake. Pengidentifikasi akun tidak termasuk snowflakecomputing.com sufiks. |  | Ya | 
| arrow\$1number\$1to\$1decimal | Tipe: boolean | False secara default, yang berarti bahwa nilai kolom NUMBER dikembalikan sebagai nomor floating point presisi ganda (float64). Setel ini ke True untuk mengembalikan nilai kolom DECIMAL sebagai angka desimal (decimal.Decimal) saat memanggil dan metode. fetch\$1pandas\$1all() fetch\$1pandas\$1batches() | true, false | Tidak | 
| autocommit | Tipe: boolean | Default kefalse, yang menghormati parameter Snowflake. AUTOCOMMIT Setel false ke true atau untuk mengaktifkan atau menonaktifkan autocommit mode dalam sesi, masing-masing. | true, false | Tidak | 
| aws\$1secret\$1arn | Tipe: string | ARN rahasia digunakan untuk mengambil parameter tambahan untuk koneksi. | ARN yang valid | Tidak | 
| client\$1prefetch\$1threads | Tipe: integer | Jumlah utas yang digunakan untuk mengunduh set hasil (4 secara default). Meningkatkan nilai meningkatkan kinerja pengambilan tetapi membutuhkan lebih banyak memori. |  | Tidak | 
| database | Jenis: string - MaxLength: 256 | Nama database default yang akan digunakan. |  | Tidak | 
| login\$1timeout | Tipe: integer | Batas waktu dalam hitungan detik untuk permintaan login. Default ke 60 detik. Permintaan login menyerah setelah panjang batas waktu jika respons HTTP tidaksuccess. |  | Tidak | 
| network\$1timeout | Tipe: integer | Batas waktu dalam hitungan detik untuk semua operasi lainnya. Default ke none (tak terbatas). Permintaan umum menyerah setelah panjang batas waktu jika respons HTTP tidaksuccess. |  | Tidak | 
| paramstyle | Jenis: string - MaxLength: 256 | Sintaks placeholder digunakan untuk substitusi parameter ketika mengeksekusi query SQL dari kode Python. Default untuk pyformat untuk pengikatan sisi klien. Tentukan qmark atau numeric untuk mengubah format variabel bind untuk pengikatan sisi server. |  | Tidak | 
| role | Jenis: string - MaxLength: 256 | Nama peran default yang akan digunakan. |  | Tidak | 
| schema | Jenis: string - MaxLength: 256 | Nama skema default yang akan digunakan untuk database. |  | Tidak | 
| timezone | Jenis: string - MaxLength: 128 | Tidak ada secara default, yang menghormati parameter Snowflake. TIMEZONE Setel ke zona waktu yang valid (sepertiAmerica/Los\$1Angeles) untuk mengatur zona waktu sesi. | Zona waktu dalam format yang mirip dengan America/Los\$1Angeles | Tidak | 
| validate\$1default\$1parameters | Tipe: boolean | Setel true untuk meningkatkan pengecualian jika database, skema, atau gudang yang ditentukan tidak ada. Default ke false. |  | Tidak | 
| warehouse | Jenis: string - MaxLength: 256 | Nama gudang default yang akan digunakan. |  | Tidak | 

# Persiapan data dalam skala besar menggunakan aplikasi Amazon EMR Tanpa Server atau kluster EMR Amazon di Studio
<a name="studio-emr-data-preparation"></a>

Amazon SageMaker Studio dan versi lawasannya, Studio Classic, memberi ilmuwan data, dan insinyur pembelajaran mesin (ML) alat untuk melakukan analisis data dan persiapan data dalam skala besar. Menganalisis, mengubah, dan menyiapkan data dalam jumlah besar adalah langkah dasar dari setiap ilmu data dan alur kerja ML. Baik Studio dan Studio Classic hadir dengan integrasi built-in dengan Amazon EMR, memungkinkan pengguna untuk mengelola persiapan data interaktif skala besar dan alur kerja pembelajaran mesin dalam notebook mereka. JupyterLab 

[Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html) [https://aws.amazon.com/emr/features/hive](https://aws.amazon.com/emr/features/hive) HBase Dengan integrasi Studio dan Studio Classic dengan Amazon EMR, Anda dapat membuat, menelusuri, menemukan, dan terhubung ke kluster EMR Amazon tanpa meninggalkan notebook atau Studio Classic Anda JupyterLab . Anda juga dapat memantau dan men-debug beban kerja Spark Anda dengan mengakses UI Spark langsung dari notebook Anda dengan sekali klik.

Anda harus mempertimbangkan klaster EMR Amazon untuk beban kerja persiapan data jika Anda memiliki persyaratan pemrosesan data berskala besar, jangka panjang, atau kompleks yang melibatkan sejumlah besar data, memerlukan penyesuaian dan integrasi ekstensif dengan layanan lain, perlu menjalankan aplikasi khusus, atau berencana untuk menjalankan beragam kerangka kerja pemrosesan data terdistribusi di luar Apache Spark. 

Menggunakan [gambar SageMaker distribusi](sagemaker-distribution.md) `1.10` atau yang lebih tinggi, Anda dapat terhubung ke aplikasi [EMR Serverless](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html) interaktif langsung dari JupyterLab notebook Anda di AI Studio. SageMaker Integrasi Studio dengan EMR Serverless memungkinkan Anda menjalankan kerangka kerja analisis data besar sumber terbuka seperti [Apache Spark dan Apache](https://aws.amazon.com/emr/features/spark) [Hive](https://aws.amazon.com/emr/features/hive) tanpa mengonfigurasi, mengelola, atau menskalakan cluster EMR Amazon. EMR Tanpa Server secara otomatis menyediakan dan mengelola sumber daya komputasi dan memori yang mendasarinya berdasarkan kebutuhan aplikasi EMR Tanpa Server Anda. Ini menskalakan sumber daya naik dan turun secara dinamis, mengisi daya Anda atau jumlah vCPU, memori, dan sumber daya penyimpanan yang dikonsumsi oleh aplikasi Anda. Pendekatan tanpa server ini memungkinkan Anda [menjalankan beban kerja persiapan data interaktif](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/interactive-workloads.html) dari JupyterLab notebook Anda tanpa mengkhawatirkan manajemen klaster, sekaligus mencapai pemanfaatan instans dan efisiensi biaya yang tinggi.

Anda harus mempertimbangkan EMR Tanpa Server untuk beban kerja persiapan data interaktif Anda jika beban kerja Anda berumur pendek atau terputus-putus dan tidak memerlukan cluster persisten; Anda lebih suka pengalaman tanpa server dengan penyediaan dan penghentian sumber daya otomatis, menghindari overhead pengelolaan infrastruktur; atau tugas persiapan data interaktif Anda terutama berkisar pada Apache Spark. 

**Topics**
+ [

# Konfigurasikan akses jaringan untuk kluster EMR Amazon Anda
](studio-notebooks-emr-networking.md)
+ [

# Siapkan data menggunakan EMR Tanpa Server
](studio-notebooks-emr-serverless.md)
+ [

# Persiapan data menggunakan Amazon EMR
](studio-notebooks-emr-cluster.md)

# Konfigurasikan akses jaringan untuk kluster EMR Amazon Anda
<a name="studio-notebooks-emr-networking"></a>

Sebelum Anda mulai menggunakan Amazon EMR atau EMR Serverless untuk tugas persiapan data di Studio, pastikan bahwa Anda atau administrator Anda telah mengonfigurasi jaringan Anda untuk memungkinkan komunikasi antara Studio dan Amazon EMR. Setelah komunikasi ini diaktifkan, Anda dapat memilih untuk:
+ [Siapkan data menggunakan EMR Tanpa Server](studio-notebooks-emr-serverless.md)
+ [Persiapan data menggunakan Amazon EMR](studio-notebooks-emr-cluster.md)

**catatan**  
Untuk pengguna EMR Tanpa Server, pengaturan paling sederhana melibatkan pembuatan aplikasi Anda di UI Studio tanpa mengubah pengaturan default untuk opsi Virtual **private cloud (**VPC). Pendekatan ini memungkinkan aplikasi dibuat dalam VPC SageMaker domain Anda, menghilangkan kebutuhan untuk konfigurasi jaringan tambahan. Jika Anda memilih opsi ini, Anda dapat melewati bagian pengaturan jaringan berikut. 

Instruksi jaringan bervariasi berdasarkan apakah Studio dan Amazon EMR digunakan dalam [Amazon Virtual Private Cloud (VPC) pribadi](https://docs.aws.amazon.com/vpc/latest/userguide/what-is-amazon-vpc.html) atau berkomunikasi melalui internet.

Secara default, Studio atau Studio Classic berjalan di VPC AWS terkelola dengan [akses internet](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-notebooks-and-internet-access.html#studio-notebooks-and-internet-access-default). Saat menggunakan koneksi internet, Studio dan Studio Classic mengakses AWS sumber daya, seperti bucket Amazon S3, melalui internet. Namun, jika Anda memiliki persyaratan keamanan untuk mengontrol akses ke data dan wadah pekerjaan, sebaiknya Anda mengonfigurasi Studio atau Studio Classic dan Amazon EMR agar data dan container Anda tidak dapat diakses melalui internet. Untuk mengontrol akses ke sumber daya Anda atau menjalankan Studio atau Studio Classic tanpa akses internet publik, Anda dapat menentukan jenis akses `VPC only` jaringan saat Anda onboard ke [domain Amazon SageMaker AI](gs-studio-onboard.md). Dalam skenario ini, Studio dan Studio Classic menjalin koneksi dengan AWS layanan lain melalui titik akhir [VPC](https://docs.aws.amazon.com/vpc/latest/privatelink/create-interface-endpoint.html) pribadi. Untuk informasi tentang mengonfigurasi Studio atau Studio Classic dalam `VPC only` mode, lihat [Connect SageMaker Studio atau Studio Classic notebook dalam VPC](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-notebooks-and-internet-access.html#studio-notebooks-and-internet-access-vpc-only) ke sumber daya eksternal. .

Dua bagian pertama menjelaskan cara memastikan komunikasi antara Studio atau Studio Classic dan Amazon EMR VPCs tanpa akses internet publik. Bagian terakhir mencakup cara memastikan komunikasi antara Studio atau Studio Classic dan Amazon EMR menggunakan koneksi internet. Sebelum menghubungkan Studio atau Studio Classic dan Amazon EMR tanpa akses internet, pastikan untuk membuat titik akhir untuk Amazon Simple Storage Service (penyimpanan data), Amazon CloudWatch (logging dan monitoring), dan Amazon SageMaker Runtime (kontrol akses berbasis peran halus (RBAC)).

Untuk menghubungkan Studio atau Studio Classic dan Amazon EMR:
+ Jika Studio atau Studio Classic dan Amazon EMR terpisah VPCs, baik di AWS akun yang sama atau di akun yang berbeda, lihat. [Studio dan Amazon EMR terpisah VPCs](#studio-notebooks-emr-networking-requirements-cross-vpc)
+ Jika Studio atau Studio Classic dan Amazon EMR berada di VPC yang sama, lihat. [Studio dan Amazon EMR berada di VPC yang sama](#studio-notebooks-emr-networking-requirements-same-vpc)
+ Jika Anda memilih untuk menghubungkan Studio atau Studio Classic dan Amazon EMR melalui internet publik, lihat. [Studio dan Amazon EMR berkomunikasi melalui internet publik](#studio-notebooks-emr-networking-requirements-internet)

## Studio dan Amazon EMR terpisah VPCs
<a name="studio-notebooks-emr-networking-requirements-cross-vpc"></a>

Untuk mengizinkan komunikasi antara Studio atau Studio Classic dan Amazon EMR saat digunakan secara terpisah: VPCs

1. Mulailah dengan menghubungkan Anda VPCs melalui koneksi peering VPC.

1. Perbarui tabel perutean Anda di setiap VPC untuk merutekan lalu lintas jaringan antara subnet Studio atau Studio Classic dan subnet Amazon EMR dengan dua arah.

1. Konfigurasikan grup keamanan Anda untuk memungkinkan lalu lintas masuk dan keluar.

Langkah-langkah untuk menghubungkan Studio atau Studio Classic dan Amazon EMR adalah sama apakah sumber daya digunakan dalam satu AWS akun (Kasus penggunaan akun tunggal) atau di beberapa akun (Kasus penggunaan lintas AWS akun).

1. 

**Peering VPC**

   Buat [koneksi peering VPC](https://docs.aws.amazon.com/vpc/latest/peering/working-with-vpc-peering.html) untuk memfasilitasi jaringan antara keduanya VPCs (Studio atau Studio Classic dan Amazon EMR).

   1. Dari akun Studio atau Studio Classic Anda, di dasbor VPC, pilih Koneksi **peering, lalu **Buat** koneksi** peering.

   1. Buat permintaan Anda untuk mengintip VPC Studio atau Studio Classic dengan VPC Amazon EMR. Saat meminta mengintip di AWS akun lain, pilih Akun lain di **Pilih VPC** **lain** untuk diajak mengintip.

      Untuk peering lintas akun, administrator harus menerima permintaan dari akun EMR Amazon.

      Saat mengintip subnet pribadi, Anda harus mengaktifkan resolusi DNS IP pribadi pada tingkat koneksi peering VPC.

1. 

**Tabel perutean**

   Kirim lalu lintas jaringan antara subnet Studio atau Studio Classic dan subnet Amazon EMR dua arah.

   Setelah Anda membuat koneksi peering, administrator (pada setiap akun untuk akses lintas akun) dapat menambahkan rute ke tabel rute subnet pribadi untuk merutekan lalu lintas antara Studio atau Studio Classic dan subnet Amazon EMR. Anda dapat menentukan rute tersebut dengan membuka bagian **Tabel Rute** dari setiap VPC di dasbor VPC.

   Ilustrasi berikut dari tabel rute subnet Studio VPC menunjukkan contoh rute keluar dari akun Studio ke rentang IP VPC EMR Amazon (di sini) melalui koneksi peering. `2.0.1.0/24`  
![\[Tabel rute subnet Studio VPC yang menunjukkan rute keluar dari akun Studio ke rentang IP VPC EMR Amazon (di sini) melalui koneksi peering 2.0.1.0/24\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-return-route.png)

   Ilustrasi berikut dari tabel rute subnet Amazon EMR VPC menunjukkan contoh rute kembali dari VPC Amazon EMR ke rentang IP VPC Studio VPC (di sini) melalui koneksi peering. `10.0.20.0/24`  
![\[Tabel rute subnet VPC EMR Amazon yang menunjukkan rute kembali dari akun EMR Amazon ke rentang IP VPC Studio (di sini) melalui koneksi peering 10.0.20.0/24\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-outbound-route.png)

1. 

**Grup keamanan**

   Terakhir, grup keamanan domain Studio atau Studio Classic Anda harus mengizinkan lalu lintas keluar, dan grup keamanan node primer EMR Amazon harus mengizinkan lalu lintas masuk pada port *Apache Livy*, *Hive*, atau *Presto* TCP (masing-masing, `8998``10000`, dan`8889`) dari grup keamanan instans Studio atau Studio Classic. [Apache Livy](https://livy.apache.org/) adalah layanan yang memungkinkan interaksi dengan Amazon EMR melalui antarmuka REST.

Diagram berikut menunjukkan contoh penyiapan VPC Amazon yang memungkinkan JupyterLab atau notebook Studio Classic untuk menyediakan kluster EMR Amazon dari templat di CloudFormation Service Catalog dan kemudian terhubung ke klaster EMR Amazon dalam akun yang sama. AWS Diagram memberikan ilustrasi tambahan tentang titik akhir yang diperlukan untuk koneksi langsung ke berbagai AWS layanan, seperti Amazon S3 atau CloudWatch Amazon, VPCs ketika tidak memiliki akses internet. Atau, [gateway NAT](https://docs.aws.amazon.com/vpc/latest/userguide/vpc-nat-gateway.html#nat-gateway-working-with) harus digunakan untuk memungkinkan instance di subnet pribadi beberapa VPCs untuk berbagi satu alamat IP publik yang disediakan oleh [gateway internet](https://docs.aws.amazon.com/vpc/latest/userguide/VPC_Internet_Gateway.html) saat mengakses internet.

![\[Diagram arsitektur yang menggambarkan contoh penyiapan VPC Amazon sederhana yang memungkinkan notebook Studio atau Studio Classic menyediakan kluster EMR Amazon dari templat CloudFormation di Service Catalog dan kemudian terhubung ke klaster EMR Amazon dalam akun yang sama. AWS Diagram memberikan ilustrasi tambahan tentang titik akhir yang diperlukan untuk koneksi langsung ke berbagai AWS layanan, seperti Amazon S3 atau CloudWatch Amazon, VPCs ketika tidak memiliki akses internet. Atau, gateway NAT harus digunakan untuk memungkinkan instance di subnet pribadi beberapa VPCs untuk berbagi satu alamat IP publik yang disediakan oleh gateway internet saat mengakses internet.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-architecture-singleaccount-vpcendpoints.png)


## Studio dan Amazon EMR berada di VPC yang sama
<a name="studio-notebooks-emr-networking-requirements-same-vpc"></a>

Jika Studio atau Studio Classic dan Amazon EMR berada dalam subnet yang berbeda, tambahkan rute ke setiap tabel rute subnet pribadi untuk merutekan lalu lintas antara Studio atau Studio Classic dan subnet Amazon EMR. Anda dapat menentukan rute tersebut dengan membuka bagian **Tabel Rute** dari setiap VPC di dasbor VPC. Jika Anda menggunakan Studio atau Studio Classic dan Amazon EMR di VPC yang sama dan subnet yang sama, Anda tidak perlu merutekan lalu lintas antara Studio dan Amazon EMR.

Apakah Anda perlu memperbarui tabel perutean atau tidak, grup keamanan domain Studio atau Studio Classic Anda harus mengizinkan lalu lintas keluar, dan grup keamanan node utama EMR Amazon harus mengizinkan lalu lintas masuk pada port *Apache Livy*, *Hive*, atau *Presto* TCP (masing-masing, `8998``10000`, dan`8889`) dari grup keamanan instans Studio atau Studio Classic. [Apache Livy](https://livy.apache.org/) adalah layanan yang memungkinkan interaksi dengan Amazon EMR melalui antarmuka REST.

## Studio dan Amazon EMR berkomunikasi melalui internet publik
<a name="studio-notebooks-emr-networking-requirements-internet"></a>

Secara default, Studio dan Studio Classic menyediakan antarmuka jaringan yang memungkinkan komunikasi dengan internet melalui gateway internet di VPC yang terkait dengan domain. SageMaker Jika Anda memilih untuk terhubung ke Amazon EMR melalui internet publik, Amazon EMR harus menerima lalu lintas masuk pada port *Apache Livy*, *Hive, atau *Presto* TCP (masing-masing*,, dan) dari gateway internetnya. `8998` `10000` `8889` [Apache Livy](https://livy.apache.org/) adalah layanan yang memungkinkan interaksi dengan Amazon EMR melalui antarmuka REST.

Perlu diingat bahwa setiap port tempat Anda mengizinkan lalu lintas masuk merupakan potensi kelemahan keamanan. Cermatlah dalam meninjau grup keamanan kustom untuk memastikan bahwa Anda meminimalisir kelemahan. Untuk informasi selengkapnya, lihat [Mengendalikan lalu lintas jaringan dengan grup keamanan](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-security-groups.html).

Atau, lihat [Blog dan whitepaper](studio-notebooks-emr-resources.md) panduan terperinci tentang cara mengaktifkan [Kerberos di Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-kerberos.html), mengatur cluster di subnet pribadi, dan mengakses cluster menggunakan Network Load [Balancer (NLB) untuk mengekspos hanya port tertentu, yang dikendalikan akses melalui](https://docs.aws.amazon.com/elasticloadbalancing/latest/network/introduction.html) grup keamanan.

**catatan**  
Saat menghubungkan ke titik akhir Apache Livy Anda melalui internet publik, kami sarankan Anda mengamankan komunikasi antara Studio atau Studio Classic dan kluster EMR Amazon Anda menggunakan TLS.  
Untuk informasi tentang pengaturan HTTPS dengan Apache Livy, lihat [Mengaktifkan HTTPS dengan](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/enabling-https.html) Apache Livy. Untuk informasi tentang menyetel klaster EMR Amazon dengan enkripsi transit diaktifkan, lihat [Menyediakan sertifikat untuk mengenkripsi data saat transit dengan enkripsi Amazon](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-encryption-enable.html#emr-encryption-certificates) EMR. Selain itu, Anda perlu mengonfigurasi Studio atau Studio Classic untuk mengakses kunci sertifikat Anda seperti yang ditentukan dalam[Connect ke kluster EMR Amazon melalui HTTPS](connect-emr-clusters.md#connect-emr-clusters-ssl).

# Siapkan data menggunakan EMR Tanpa Server
<a name="studio-notebooks-emr-serverless"></a>

Dimulai dengan versi [gambar SageMaker distribusi](sagemaker-distribution.md)`1.10`, Amazon SageMaker Studio terintegrasi dengan EMR Tanpa Server. Dalam JupyterLab notebook di SageMaker Studio, ilmuwan data dan insinyur data dapat menemukan dan terhubung ke aplikasi EMR Tanpa Server, kemudian secara interaktif mengeksplorasi, memvisualisasikan, dan menyiapkan beban kerja Apache Spark atau Apache Hive skala besar. Integrasi ini memungkinkan untuk melakukan preprocessing data interaktif dalam skala besar dalam persiapan untuk pelatihan dan penerapan model ML.

Secara khusus, versi terbaru dari versi gambar [distribusi SageMaker AI](https://github.com/aws/sagemaker-distribution/tree/main/build_artifacts/v1) `1.10` memanfaatkan integrasi antara Apache Livy dan EMR Serverless, memungkinkan koneksi ke titik akhir Apache Livy melalui notebook. [https://pypi.org/project/sagemaker-studio-analytics-extension/](https://pypi.org/project/sagemaker-studio-analytics-extension/) JupyterLab Bagian ini mengasumsikan pengetahuan sebelumnya tentang aplikasi interaktif [EMR Tanpa Server](https://docs.aws.amazon.com/EMR-Serverless-UserGuide/interactive-workloads.html).

**penting**  
Saat menggunakan Studio, Anda hanya dapat menemukan dan terhubung ke aplikasi EMR Tanpa Server untuk JupyterLab aplikasi yang diluncurkan dari ruang pribadi. Pastikan bahwa aplikasi EMR Tanpa Server berada di AWS wilayah yang sama dengan lingkungan Studio Anda.

## Prasyarat
<a name="studio-set-up-emr-serverless-prerequisites"></a>

Sebelum Anda mulai menjalankan beban kerja interaktif dengan EMR Serverless dari notebook JupyterLab Anda, pastikan Anda memenuhi prasyarat berikut:

1.  JupyterLab Ruang Anda harus menggunakan versi gambar SageMaker Distribusi `1.10` atau lebih tinggi.

1. Buat aplikasi interaktif EMR Tanpa Server dengan versi Amazon EMR atau lebih tinggi. `6.14.0` Anda dapat membuat aplikasi EMR Tanpa Server dari antarmuka pengguna Studio dengan mengikuti langkah-langkahnya. [Buat aplikasi EMR Tanpa Server dari Studio](create-emr-serverless-application.md)
**catatan**  
Untuk pengaturan yang paling sederhana, Anda dapat membuat aplikasi EMR Tanpa Server di UI Studio tanpa mengubah pengaturan default apa pun untuk opsi **Virtual private cloud (VPC**). Ini memungkinkan aplikasi dibuat dalam VPC domain Anda tanpa memerlukan konfigurasi jaringan apa pun. Dalam hal ini, Anda dapat melewati langkah pengaturan jaringan berikut.

1. Tinjau persyaratan jaringan dan keamanan di[Konfigurasikan akses jaringan untuk kluster EMR Amazon Anda](studio-notebooks-emr-networking.md). Secara khusus, pastikan bahwa Anda:
   + Buat koneksi peering VPC antara akun Studio Anda dan akun EMR Tanpa Server Anda.
   + Tambahkan rute ke tabel rute subnet pribadi di kedua akun. 
   + Siapkan grup keamanan yang dilampirkan ke domain Studio Anda untuk mengizinkan lalu lintas keluar, dan konfigurasikan grup keamanan VPC tempat Anda berencana menjalankan aplikasi EMR Tanpa Server untuk mengizinkan lalu lintas TCP masuk dari grup keamanan instans Studio.

1. Untuk mengakses aplikasi interaktif di EMR Tanpa Server dan menjalankan beban kerja yang dikirimkan dari JupyterLab buku catatan di SageMaker Studio, Anda harus menetapkan izin dan peran tertentu. Lihat [Siapkan izin untuk mengaktifkan daftar dan meluncurkan aplikasi Amazon EMR dari Studio SageMaker](studio-emr-serverless-permissions.md) bagian untuk detail tentang peran dan izin yang diperlukan.

**Topics**
+ [

## Prasyarat
](#studio-set-up-emr-serverless-prerequisites)
+ [

# Siapkan izin untuk mengaktifkan daftar dan meluncurkan aplikasi Amazon EMR dari Studio SageMaker
](studio-emr-serverless-permissions.md)
+ [

# Buat aplikasi EMR Tanpa Server dari Studio
](create-emr-serverless-application.md)
+ [

# Connect ke aplikasi EMR Serverless dari Studio
](connect-emr-serverless-application.md)
+ [

# Menghentikan atau menghapus aplikasi EMR Tanpa Server dari UI Studio
](terminate-emr-serverless-application.md)

# Siapkan izin untuk mengaktifkan daftar dan meluncurkan aplikasi Amazon EMR dari Studio SageMaker
<a name="studio-emr-serverless-permissions"></a>

Di bagian ini, kami merinci peran dan izin yang diperlukan untuk mendaftar dan terhubung ke aplikasi EMR Tanpa Server SageMaker dari Studio, mempertimbangkan skenario di mana Studio dan aplikasi EMR Tanpa Server digunakan di akun yang sama atau di berbagai akun. AWS 

*Peran yang harus Anda tambahkan izin yang diperlukan bergantung pada apakah Studio dan aplikasi EMR Tanpa Server Anda berada di akun yang AWS sama (Akun *Tunggal) atau di akun terpisah (*Akun Lintas).* Ada dua jenis peran yang terlibat:
+ Peran eksekusi:
  + [Peran eksekusi runtime (peran](https://docs.aws.amazon.com/http://emr/latest/EMR-Serverless-UserGuide/jobs-spark.html#spark-defaults-executionRoleArn) Kontrol Akses Berbasis Peran) yang digunakan oleh EMR Tanpa Server: Ini adalah peran IAM yang digunakan oleh lingkungan eksekusi pekerjaan EMR Tanpa Server untuk mengakses layanan dan AWS sumber daya lain yang diperlukan selama runtime, seperti Amazon S3 untuk akses data, CloudWatch untuk pencatatan, akses ke Katalog Data, atau layanan lain berdasarkan persyaratan beban kerja Anda. AWS Glue Sebaiknya buat peran ini di akun tempat aplikasi EMR Tanpa Server berjalan.

    Untuk mempelajari lebih lanjut tentang peran runtime, lihat Peran [runtime Job di Panduan](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/security-iam-runtime-role.html) Pengguna Tanpa Server *EMR*.
**catatan**  
Anda dapat menentukan beberapa peran RBAC untuk aplikasi EMR Tanpa Server Anda. Peran ini dapat didasarkan pada tanggung jawab dan tingkat akses yang dibutuhkan oleh pengguna atau grup yang berbeda dalam organisasi Anda. Untuk informasi selengkapnya tentang izin RBAC, lihat Praktik [terbaik keamanan untuk Amazon Amazon EMR](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/security-best-practices.html#security-practice-rbac) Tanpa Server.
  + SageMaker Peran eksekusi AI: Peran eksekusi yang memungkinkan SageMaker AI melakukan tugas tertentu seperti membaca data dari bucket Amazon S3, menulis log CloudWatch, dan mengakses AWS layanan lain yang mungkin dibutuhkan alur kerja Anda. Peran eksekusi SageMaker AI juga memiliki izin khusus `iam:PassRole` yang disebut yang memungkinkan SageMaker AI untuk meneruskan peran eksekusi runtime sementara ke aplikasi EMR Tanpa Server. Peran ini memberi aplikasi EMR Tanpa Server izin yang mereka butuhkan untuk berinteraksi dengan AWS sumber daya lain saat mereka berjalan.
+ Peran yang dapat diasumsikan (Juga disebut sebagai *Peran Akses Layanan*):
  + Ini adalah peran IAM yang dapat diasumsikan oleh peran eksekusi SageMaker AI untuk melakukan operasi yang terkait dengan pengelolaan aplikasi EMR Tanpa Server. Peran ini menentukan izin dan kebijakan akses yang diperlukan saat mencantumkan, menghubungkan ke, atau mengelola aplikasi EMR Tanpa Server. Mereka biasanya digunakan dalam skenario lintas akun, di mana aplikasi EMR Tanpa Server berada di akun yang AWS berbeda dari domain AI. SageMaker Memiliki peran IAM khusus untuk aplikasi EMR Tanpa Server Anda membantu mengikuti prinsip hak istimewa paling sedikit dan memastikan bahwa Amazon EMR hanya memiliki izin yang diperlukan untuk menjalankan pekerjaan Anda sambil melindungi sumber daya lain di akun Anda. AWS 

Dengan memahami dan mengonfigurasi peran ini dengan benar, Anda dapat memastikan bahwa SageMaker Studio memiliki izin yang diperlukan untuk berinteraksi dengan aplikasi EMR Tanpa Server, terlepas dari apakah peran tersebut digunakan di akun yang sama atau di akun yang berbeda.

## Akun tunggal
<a name="studio-set-up-emr-serverless-permissions-singleaccount"></a>

Diagram berikut menggambarkan peran dan izin yang diperlukan untuk mendaftar dan terhubung ke aplikasi EMR Tanpa Server dari Studio saat Studio dan aplikasi digunakan di akun yang sama. AWS 

![\[Diagram menunjukkan peran dan izin yang diperlukan untuk membuat daftar dan menghubungkan aplikasi EMR Tanpa Server dari Studio saat Studio dan aplikasi berada di akun yang sama. AWS\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-serverless-permissions-setup-singleaccount.png)


Jika aplikasi Amazon EMR dan Studio Anda digunakan di AWS akun yang sama, ikuti langkah-langkah berikut:

1. **Langkah 1**[: Ambil ARN bucket Amazon S3 yang Anda gunakan untuk sumber data dan penyimpanan data keluaran di konsol Amazon S3.](https://console.aws.amazon.com/S3)

   Untuk mempelajari cara menemukan bucket berdasarkan nama, lihat [Mengakses dan mencantumkan bucket Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-bucket-intro.html). Untuk informasi tentang cara membuat bucket Amazon S3, lihat [Membuat](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) bucket. 

1. **Langkah 2**: Buat setidaknya satu peran eksekusi runtime pekerjaan untuk aplikasi EMR Tanpa Server Anda di akun Anda (`EMRServerlessRuntimeExecutionRoleA`Dalam diagram kasus penggunaan akun *Tunggal di atas*). Pilih **Kebijakan kepercayaan khusus** sebagai entitas tepercaya. Tambahkan izin yang diperlukan oleh pekerjaan Anda. Minimal, Anda memerlukan akses penuh ke bucket Amazon S3, serta membuat serta membaca akses ke Katalog AWS Glue Data.

   Untuk petunjuk terperinci tentang cara membuat peran eksekusi runtime baru untuk aplikasi EMR Tanpa Server Anda, ikuti langkah-langkah berikut:

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Di panel navigasi kiri, pilih **Kebijakan**, lalu **Buat kebijakan**.

   1. Tambahkan izin yang diperlukan oleh peran runtime Anda, beri nama kebijakan, lalu pilih **Buat** kebijakan.

      Anda dapat merujuk ke [peran runtime Job untuk EMR](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/security-iam-runtime-role.html) Tanpa Server untuk menemukan contoh kebijakan runtime untuk peran runtime EMR Tanpa Server.

   1. Di panel navigasi kiri, pilih **Peran** dan kemudian **Buat peran**.

   1. Pada halaman **Buat peran**, pilih **Kebijakan kepercayaan khusus** sebagai entitas tepercaya.

   1. Tempel dokumen JSON berikut di bagian **Kebijakan kepercayaan kustom** dan kemudian pilih **Berikutnya**.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "Service": "emr-serverless.amazonaws.com"
                  },
                  "Action": "sts:AssumeRole"
              }
          ]
      }
      ```

------

   1. Di halaman **Tambahkan izin**, tambahkan kebijakan yang Anda buat, lalu pilih **Berikutnya**.

   1. Pada halaman **Ulasan**, masukkan nama untuk peran seperti `EMRServerlessAppRuntimeRoleA` dan deskripsi opsional.

   1. Tinjau detail peran dan pilih **Buat peran**.

   Dengan peran ini, Anda dan rekan tim Anda dapat terhubung ke aplikasi yang sama, masing-masing menggunakan peran runtime yang dicakup dengan izin yang sesuai dengan tingkat akses individual Anda ke data.
**catatan**  
Sesi Spark beroperasi secara berbeda. Sesi percikan diisolasi berdasarkan peran eksekusi yang digunakan dari Studio, sehingga pengguna dengan peran eksekusi yang berbeda akan memiliki sesi Spark yang terpisah dan terisolasi. Selain itu, jika Anda telah mengaktifkan identitas sumber untuk domain Anda, ada isolasi lebih lanjut dari sesi Spark di berbagai identitas sumber.

1. **Langkah 3**: Ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda.

   Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

   Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)
**catatan**  
 Atau, pengguna yang baru mengenal SageMaker AI dapat menyederhanakan proses penyiapan mereka dengan secara otomatis membuat peran eksekusi SageMaker AI baru dengan izin yang sesuai. Dalam hal ini, lewati langkah 3 dan 4. Sebagai gantinya, pengguna dapat:  
Pilih opsi **Siapkan untuk organisasi** saat membuat domain baru dari menu **Domain** di navigasi kiri [konsol SageMaker AI](https://console.aws.amazon.com/sagemaker).
Buat peran eksekusi baru dari menu **Manajer peran** konsol, lalu lampirkan peran tersebut ke domain atau profil pengguna yang ada.
Saat membuat peran, pilih opsi **Run Studio EMR Serverless Applications** di **aktivitas ML apa yang** akan dilakukan pengguna? Kemudian, berikan nama bucket Amazon S3 Anda dan peran eksekusi runtime pekerjaan yang Anda inginkan untuk digunakan aplikasi EMR Tanpa Server (langkah 2).  
Manajer SageMaker Peran secara otomatis menambahkan izin yang diperlukan untuk menjalankan dan menghubungkan ke aplikasi EMR Tanpa Server ke peran eksekusi baru.Menggunakan SageMaker Manajer [Peran, Anda hanya dapat menetapkan satu peran]() runtime ke aplikasi EMR Tanpa Server, dan aplikasi harus berjalan di akun yang sama tempat Studio digunakan, menggunakan peran runtime yang dibuat dalam akun yang sama.

1. **Langkah 4**: Lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses aplikasi EMR Tanpa Server Anda.

   1. Buka konsol IAM di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

   1. Pilih **Peran** dan kemudian cari peran eksekusi berdasarkan nama di kolom **Pencarian**. Nama peran adalah bagian terakhir dari ARN, setelah garis miring terakhir (/).

   1. Ikuti tautan ke peran Anda.

   1. Pilih **Tambahkan izin**, lalu **Buat kebijakan sebaris**.

   1. Di tab **JSON**, tambahkan izin Amazon EMR Tanpa Server yang memungkinkan akses dan operasi EMR Tanpa Server. Untuk detail tentang dokumen kebijakan, lihat kebijakan *EMR Tanpa Server* di. [Kebijakan referensi](#studio-set-up-emr-serverless-permissions-reference) Ganti*region*,*accountID*, dan yang diteruskan *EMRServerlessAppRuntimeRole* dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda. 
**catatan**  
Anda dapat memasukkan string ARN sebanyak peran runtime yang diperlukan dalam izin, memisahkannya dengan koma.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Ulangi langkah **Buat kebijakan sebaris** untuk menambahkan kebijakan sebaris lain yang memberikan izin peran untuk memperbarui domain, profil pengguna, dan spasi. Untuk detail tentang dokumen `SageMakerUpdateResourcesPolicy` kebijakan, lihat *Kebijakan tindakan pembaruan domain, profil pengguna, dan spasi* di[Kebijakan referensi](#studio-set-up-emr-serverless-permissions-reference). Ganti *region* dan *accountID* dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

1. **Langkah 5**:

   Kaitkan daftar peran runtime dengan profil pengguna atau domain Anda sehingga Anda dapat menelusuri daftar peran secara visual dan memilih salah satu yang akan digunakan saat [menghubungkan ke aplikasi EMR Tanpa Server](connect-emr-serverless-application.md) dari. JupyterLab Anda dapat menggunakan konsol SageMaker AI atau skrip berikut. Selanjutnya, semua pekerjaan Apache Spark atau Apache Hive yang dibuat dari buku catatan Anda hanya akan mengakses data dan sumber daya yang diizinkan oleh kebijakan yang dilampirkan pada peran runtime yang dipilih.
**penting**  
Kegagalan untuk menyelesaikan langkah ini akan mencegah Anda menghubungkan JupyterLab notebook ke aplikasi EMR Tanpa Server.

------
#### [ SageMaker AI console ]

   Untuk mengaitkan peran runtime Anda dengan profil pengguna atau domain Anda menggunakan konsol SageMaker AI:

   1. Arahkan ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

   1. Di panel navigasi kiri, pilih **domain**, lalu pilih domain menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui.

   1. 
      + Untuk menambahkan peran runtime ke domain Anda: Di tab **Konfigurasi Aplikasi** pada halaman **Detail Domain**, navigasikan ke bagian tersebut **JupyterLab**.
      + Untuk menambahkan peran runtime ke profil pengguna: Pada halaman **Detail domain**, pilih tab **Profil pengguna, pilih profil** pengguna menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui. Di tab **Konfigurasi Aplikasi**, arahkan ke **JupyterLab**bagian tersebut.

   1. Pilih **Edit** dan tambahkan peran ARNs eksekusi runtime EMR Tanpa Server Anda.

   1. Pilih **Kirim**.

   Saat Anda selanjutnya terhubung ke aplikasi EMR Tanpa Server melalui JupyterLab, peran runtime akan muncul di menu tarik-turun untuk dipilih.

------
#### [ Python script ]

   Dalam JupyterLab aplikasi yang dimulai dari ruang pribadi menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui, jalankan perintah berikut di terminal. Ganti`domainID`,`user-profile-name`,`studio-accountID`, dan `EMRServerlessRuntimeExecutionRole` (s) dengan nilai yang tepat. Cuplikan kode ini memperbarui pengaturan profil pengguna untuk profil pengguna tertentu (`client.update_user_profile`) atau pengaturan domain (`client.update_domain`), yang secara khusus mengaitkan peran eksekusi runtime EMR Tanpa Server yang Anda buat sebelumnya.

   ```
   import botocore.session
   import json
   sess = botocore.session.get_session()
   client = sess.create_client('sagemaker')
   
   client.update_user_profile(
   DomainId="domainID", 
   UserProfileName="user-profile-name",
   DefaultUserSettings={
       'JupyterLabAppSettings': {
           'EmrSettings': {
               'ExecutionRoleArns': ["arn:aws:iam::studio-accountID:role/EMRServerlessRuntimeExecutionRoleA", 
                                "arn:aws:iam::studio-accountID:role/EMRServerlessRuntimeExecutionRoleAA"]
           }
           
       }
   })
   resp = client.describe_domain(DomainId="domainID")
   
   resp['CreationTime'] = str(resp['CreationTime'])
   resp['LastModifiedTime'] = str(resp['LastModifiedTime'])
   print(json.dumps(resp, indent=2))
   ```

------

## Lintas akun
<a name="studio-set-up-emr-serverless-permissions-crossaccount"></a>

Diagram berikut menggambarkan peran dan izin yang diperlukan untuk mendaftar dan terhubung ke aplikasi EMR Tanpa Server dari Studio saat Studio dan aplikasi digunakan di akun yang berbeda. AWS 

![\[Diagram menunjukkan peran dan izin yang diperlukan untuk membuat daftar dan menghubungkan aplikasi EMR Tanpa Server dari Studio saat Studio dan aplikasi berada di akun yang berbeda. AWS\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-serverless-permissions-setup-crossaccount.png)


Untuk informasi selengkapnya tentang membuat peran di AWS akun, lihat [https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-user.html](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-user.html) Membuat peran IAM (konsol).

Sebelum memulai: 
+ Ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda. Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md). Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)
+ [Ambil ARN bucket Amazon S3 yang akan Anda gunakan untuk sumber data dan penyimpanan data keluaran di konsol Amazon S3.](https://console.aws.amazon.com/S3)

  Untuk informasi tentang cara membuat bucket Amazon S3, lihat [Membuat](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-overview.html) bucket. Untuk mempelajari cara menemukan bucket berdasarkan nama, lihat [Mengakses dan mencantumkan bucket Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-bucket-intro.html).

Jika aplikasi EMR Tanpa Server dan Studio digunakan di AWS akun terpisah, Anda mengonfigurasi izin di kedua akun. 

### Di akun EMR Tanpa Server
<a name="studio-set-up-emr-serverless-permissions-crossaccount-emraccount"></a>

*Ikuti langkah-langkah ini untuk membuat peran dan kebijakan yang diperlukan pada akun tempat aplikasi EMR Tanpa Server Anda berjalan, juga disebut sebagai akun kepercayaan:*

1. **Langkah 1**: Buat setidaknya satu peran eksekusi runtime pekerjaan untuk aplikasi EMR Tanpa Server Anda di akun Anda (Dalam diagram *Cross account `EMRServerlessRuntimeExecutionRoleB` di atas*). Pilih **Kebijakan kepercayaan khusus** sebagai entitas tepercaya. Tambahkan izin yang diperlukan oleh pekerjaan Anda. Minimal, Anda memerlukan akses penuh ke bucket Amazon S3, serta membuat serta membaca akses ke Katalog AWS Glue Data.

   Untuk petunjuk terperinci tentang cara membuat peran eksekusi runtime baru untuk aplikasi EMR Tanpa Server Anda, ikuti langkah-langkah berikut:

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Di panel navigasi kiri, pilih **Kebijakan**, lalu **Buat kebijakan**.

   1. Tambahkan izin yang diperlukan oleh peran runtime Anda, beri nama kebijakan, lalu pilih **Buat** kebijakan.

      Untuk contoh kebijakan runtime [peran runtime EMR Tanpa Server, lihat Peran runtime Job](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/security-iam-runtime-role.html) untuk Amazon EMR Tanpa Server.

   1. Di panel navigasi kiri, pilih **Peran** dan kemudian **Buat peran**.

   1. Pada halaman **Buat peran**, pilih **Kebijakan kepercayaan khusus** sebagai entitas tepercaya.

   1. Tempel dokumen JSON berikut di bagian **Kebijakan kepercayaan kustom** dan kemudian pilih **Berikutnya**.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "Service": "emr-serverless.amazonaws.com"
                  },
                  "Action": "sts:AssumeRole"
              }
          ]
      }
      ```

------

   1. Di halaman **Tambahkan izin**, tambahkan kebijakan yang Anda buat, lalu pilih **Berikutnya**.

   1. Pada halaman **Ulasan**, masukkan nama untuk peran seperti `EMRServerlessAppRuntimeRoleB` dan deskripsi opsional.

   1. Tinjau detail peran dan pilih **Buat peran**.

   Dengan peran ini, Anda dan rekan tim Anda dapat terhubung ke aplikasi yang sama, masing-masing menggunakan peran runtime yang dicakup dengan izin yang sesuai dengan tingkat akses individual Anda ke data.
**catatan**  
Sesi Spark beroperasi secara berbeda.Sesi Spark diisolasi berdasarkan peran eksekusi yang digunakan dari Studio, sehingga pengguna dengan peran eksekusi yang berbeda akan memiliki sesi Spark yang terpisah dan terisolasi. Selain itu, jika Anda telah mengaktifkan identitas sumber untuk domain Anda, ada isolasi lebih lanjut dari sesi Spark di berbagai identitas sumber.

1. **Langkah 2**: Buat peran IAM kustom bernama `AssumableRole` dengan konfigurasi berikut:
   + Izin: Berikan izin yang diperlukan (kebijakan Amazon EMR Tanpa Server) untuk `AssumableRole` memungkinkan mengakses sumber daya EMR Tanpa Server. Peran ini juga dikenal sebagai *peran Akses*.
   + Hubungan kepercayaan: Konfigurasikan kebijakan kepercayaan `AssumableRole` untuk mengizinkan asumsi peran eksekusi (`SageMakerExecutionRole`Dalam diagram lintas akun) dari akun Studio yang memerlukan akses.

   Dengan mengasumsikan peran tersebut, Studio dapat memperoleh akses sementara ke izin yang dibutuhkan di akun EMR Tanpa Server.

   Untuk petunjuk terperinci tentang cara membuat yang baru `AssumableRole` di AWS akun EMR Tanpa Server Anda, ikuti langkah-langkah berikut:

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Di panel navigasi kiri, pilih **Kebijakan**, lalu **Buat kebijakan**.

   1. Di tab **JSON**, tambahkan izin Amazon EMR Tanpa Server yang memungkinkan akses dan operasi EMR Tanpa Server. Untuk detail tentang dokumen kebijakan, lihat kebijakan *EMR Tanpa Server* di. [Kebijakan referensi](#studio-set-up-emr-serverless-permissions-reference) Ganti`region`,`accountID`, dan yang diteruskan `EMRServerlessAppRuntimeRole` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.
**catatan**  
`EMRServerlessAppRuntimeRole`Berikut ini adalah peran eksekusi runtime pekerjaan yang dibuat di Langkah 1 (`EMRServerlessAppRuntimeRoleB`Dalam diagram *Cross account* di atas). Anda dapat memasukkan string ARN sebanyak peran runtime yang diperlukan dalam izin, memisahkannya dengan koma. 

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Di panel navigasi kiri, pilih **Peran** dan kemudian **Buat peran**.

   1. Pada halaman **Buat peran**, pilih **Kebijakan kepercayaan khusus** sebagai entitas tepercaya.

   1. Tempel dokumen JSON berikut di bagian **Kebijakan kepercayaan kustom** dan kemudian pilih **Berikutnya**.

      Ganti `studio-account` dengan ID akun Studio, dan `AmazonSageMaker-ExecutionRole` dengan peran eksekusi yang digunakan oleh JupyterLab spasi Anda. 

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "AWS": "arn:aws:iam::111122223333:role/service-role/AmazonSageMaker-ExecutionRole"
                  },
                  "Action": "sts:AssumeRole"
              }
          ]
      }
      ```

------

   1. Di halaman **Tambahkan izin**, tambahkan izin yang `EMRServerlessAppRuntimeRoleB` Anda buat di Langkah 2 lalu pilih **Berikutnya**.

   1. Pada halaman **Ulasan**, masukkan nama untuk peran seperti `AssumableRole` dan deskripsi opsional.

   1. Tinjau detail peran dan pilih **Buat peran**.

   Untuk informasi selengkapnya tentang membuat peran di AWS akun, lihat [Membuat peran IAM (konsol)](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-user.html).

### Di akun Studio
<a name="studio-set-up-emr-serverless-permissions-crossaccount-studioaccount"></a>

Pada akun tempat Studio digunakan, juga disebut sebagai *akun tepercaya*, perbarui peran eksekusi SageMaker AI yang mengakses aplikasi EMR Tanpa Server Anda dengan izin yang diperlukan untuk mengakses sumber daya di akun tepercaya.

1. **Langkah 1**: Ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang Anda.

   Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

   Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)

1. **Langkah 2**: Lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses aplikasi EMR Tanpa Server Anda.

   1. Buka konsol IAM di [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/).

   1. Pilih **Peran** dan kemudian cari peran eksekusi berdasarkan nama di kolom **Pencarian**. Nama peran adalah bagian terakhir dari ARN, setelah garis miring terakhir (/). 

   1. Ikuti tautan ke peran Anda.

   1. Pilih **Tambahkan izin**, lalu **Buat kebijakan sebaris**.

   1. Di tab **JSON**, tambahkan kebijakan sebaris yang memberikan izin peran untuk memperbarui domain, profil pengguna, dan spasi. Untuk detail tentang dokumen `SageMakerUpdateResourcesPolicy` kebijakan, lihat *Kebijakan tindakan pembaruan domain, profil pengguna, dan spasi* di[Kebijakan referensi](#studio-set-up-emr-serverless-permissions-reference). Ganti `region` dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Ulangi langkah **Buat kebijakan sebaris** untuk menambahkan kebijakan lain yang memberikan peran eksekusi izin untuk mengambil alih `AssumableRole` dan kemudian melakukan tindakan yang diizinkan oleh kebijakan akses peran.

      Ganti `emr-account` dengan ID akun Amazon EMR Tanpa Server, dan `AssumableRole` dengan nama peran yang dapat diasumsikan dibuat di akun Amazon EMR Tanpa Server.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": {
              "Sid": "AllowSTSToAssumeAssumableRole",
              "Effect": "Allow",
              "Action": "sts:AssumeRole",
              "Resource": "arn:aws:iam::111122223333:role/AssumableRole"
          }
      }
      ```

------

1. **Langkah 3:**

   Kaitkan daftar peran runtime dengan domain atau profil pengguna Anda sehingga Anda dapat menelusuri daftar peran secara visual dan memilih salah satu yang akan digunakan saat [menghubungkan ke aplikasi EMR Tanpa Server](connect-emr-serverless-application.md) dari. JupyterLab Anda dapat menggunakan konsol SageMaker AI atau skrip berikut. Selanjutnya, semua pekerjaan Apache Spark atau Apache Hive yang dibuat dari buku catatan Anda hanya akan mengakses data dan sumber daya yang diizinkan oleh kebijakan yang dilampirkan pada peran runtime yang dipilih.
**penting**  
Kegagalan untuk menyelesaikan langkah ini akan mencegah Anda menghubungkan JupyterLab notebook ke aplikasi EMR Tanpa Server.

------
#### [ SageMaker AI console ]

   Untuk mengaitkan peran runtime Anda dengan profil pengguna atau domain Anda menggunakan konsol SageMaker AI:

   1. Arahkan ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

   1. Di panel navigasi kiri, pilih **domain**, lalu pilih domain menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui.

   1. 
      + Untuk menambahkan peran runtime ke domain Anda: Di tab **Konfigurasi Aplikasi** pada halaman **Detail Domain**, navigasikan ke bagian tersebut **JupyterLab**.
      + Untuk menambahkan peran runtime ke profil pengguna: Pada halaman **Detail domain**, pilih tab **Profil pengguna, pilih profil** pengguna menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui. Di tab **Konfigurasi Aplikasi**, arahkan ke **JupyterLab**bagian tersebut.

   1. Pilih **Edit** dan tambahkan peran ARNs yang dapat diasumsikan dan peran eksekusi runtime EMR Tanpa Server.

   1. Pilih **Kirim**.

   Saat Anda selanjutnya terhubung ke aplikasi EMR Tanpa Server melalui JupyterLab, peran runtime akan muncul di menu tarik-turun untuk dipilih.

------
#### [ Python script ]

    Dalam JupyterLab aplikasi yang dimulai dari ruang pribadi menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui, jalankan perintah berikut di terminal. Ganti`domainID`,`user-profile-name`,`studio-accountID`, dan `EMRServerlessRuntimeExecutionRole` dengan nilai-nilai yang tepat. Cuplikan kode ini memperbarui pengaturan profil pengguna untuk profil pengguna tertentu (`client.update_user_profile`) atau pengaturan domain (`client.update_domain`) dalam domain SageMaker AI. Secara khusus, ini menetapkan peran eksekusi runtime untuk Amazon EMR Serverless, yang telah Anda buat sebelumnya. Ini juga memungkinkan JupyterLab aplikasi untuk mengambil peran IAM tertentu (`AssumableRole`) untuk menjalankan aplikasi EMR Tanpa Server dalam akun EMR Amazon.

   ```
   import botocore.session
   import json
   sess = botocore.session.get_session()
   client = sess.create_client('sagemaker')
   
   client.update_user_profile(
   DomainId="domainID", 
   UserProfileName="user-profile-name",
   DefaultUserSettings={
       'JupyterLabAppSettings': {
           'EmrSettings': {
               'AssumableRoleArns': ["arn:aws:iam::emr-accountID:role/AssumableRole"],
               'ExecutionRoleArns': ["arn:aws:iam::emr-accountID:role/EMRServerlessRuntimeExecutionRoleA", 
                                "arn:aws:iam::emr-accountID:role/AnotherRuntimeExecutionRole"]
           }
           
       }
   })
   resp = client.describe_user_profile(DomainId="domainID", UserProfileName=user-profile-name")
   
   resp['CreationTime'] = str(resp['CreationTime'])
   resp['LastModifiedTime'] = str(resp['LastModifiedTime'])
   print(json.dumps(resp, indent=2))
   ```

------

## Kebijakan referensi
<a name="studio-set-up-emr-serverless-permissions-reference"></a>
+ Kebijakan **EMR Tanpa Server: Kebijakan** ini memungkinkan pengelolaan aplikasi EMR Tanpa Server, termasuk membuat daftar, membuat (dengan tag SageMaker AI yang diperlukan), memulai, menghentikan, mendapatkan detail, menghapus, mengakses titik akhir Livy, dan mendapatkan dasbor yang dijalankan pekerjaan. Ini juga memungkinkan meneruskan peran runtime aplikasi EMR Tanpa Server yang diperlukan ke layanan.
  + `EMRServerlessListApplications`: Memungkinkan ListApplications tindakan pada semua sumber daya EMR Tanpa Server di wilayah dan akun yang ditentukan. AWS 
  + `EMRServerlessPassRole`: Memungkinkan meneruskan peran runtime yang ditentukan di AWS akun yang disediakan, tetapi hanya ketika peran diteruskan ke`emr-serverless.amazonaws.com service`. 
  + `EMRServerlessCreateApplicationAction`: Memungkinkan CreateApplication dan TagResource tindakan pada sumber daya EMR Tanpa Server di wilayah dan akun yang ditentukan. AWS Namun, ini mengharuskan sumber daya yang dibuat atau diberi tag memiliki kunci tag tertentu (`sagemaker:domain-arn`,`sagemaker:user-profile-arn`, dan`sagemaker:space-arn`) yang hadir dengan nilai non-null.
  + `EMRServerlessDenyTaggingAction`: UntagResource Tindakan TagResource dan pada sumber daya EMR Tanpa Server di wilayah dan AWS akun tertentu jika sumber daya tidak memiliki kunci tag yang ditentukan (`sagemaker:domain-arn`,`sagemaker:user-profile-arn`, dan) yang ditetapkan. `sagemaker:space-arn`
  + `EMRServerlessActions`: Mengizinkan berbagai tindakan (`StartApplication`,`StopApplication`,`GetApplication`,, `DeleteApplication``AccessLivyEndpoints`, dan`GetDashboardForJobRun`) pada sumber daya EMR Tanpa Server, tetapi hanya jika sumber daya memiliki kunci tag yang ditentukan (`sagemaker:domain-arn`,`sagemaker:user-profile-arn`, dan`sagemaker:space-arn`) disetel dengan nilai non-null.

  Kebijakan IAM yang didefinisikan dalam dokumen JSON yang disediakan memberikan izin tersebut, tetapi membatasi akses ke keberadaan tag SageMaker AI tertentu pada aplikasi EMR Tanpa Server untuk memastikan bahwa hanya sumber daya Amazon EMR Tanpa Server yang terkait dengan domain AI SageMaker tertentu, profil pengguna, dan ruang yang dapat dikelola. 

------
#### [ JSON ]

****  

  ```
  {
      "Version":"2012-10-17",		 	 	 
      "Statement": [
          {
              "Sid": "EMRServerlessListApplications",
              "Effect": "Allow",
              "Action": [
                  "emr-serverless:ListApplications"
              ],
              "Resource": "arn:aws:emr-serverless:us-east-1:111122223333:/*"
          },
          {
              "Sid": "EMRServerlessPassRole",
              "Effect": "Allow",
              "Action": "iam:PassRole",
              "Resource": "arn:aws:iam::111122223333:role/EMRServerlessAppRuntimeRole",
              "Condition": {
                  "StringLike": {
                      "iam:PassedToService": "emr-serverless.amazonaws.com"
                  }
              }
          },
          {
              "Sid": "EMRServerlessCreateApplicationAction",
              "Effect": "Allow",
              "Action": [
                  "emr-serverless:CreateApplication",
                  "emr-serverless:TagResource"
              ],
              "Resource": "arn:aws:emr-serverless:us-east-1:111122223333:/*",
              "Condition": {
                  "ForAllValues:StringEquals": {
                      "aws:TagKeys": [
                          "sagemaker:domain-arn",
                          "sagemaker:user-profile-arn",
                          "sagemaker:space-arn"
                      ]
                  },
                  "Null": {
                      "aws:RequestTag/sagemaker:domain-arn": "false",
                      "aws:RequestTag/sagemaker:user-profile-arn": "false",
                      "aws:RequestTag/sagemaker:space-arn": "false"
                  }
              }
          },
          {
              "Sid": "EMRServerlessDenyTaggingAction",
              "Effect": "Deny",
              "Action": [
                  "emr-serverless:TagResource",
                  "emr-serverless:UntagResource"
              ],
              "Resource": "arn:aws:emr-serverless:us-east-1:111122223333:/*",
              "Condition": {
                  "Null": {
                      "aws:ResourceTag/sagemaker:domain-arn": "true",
                      "aws:ResourceTag/sagemaker:user-profile-arn": "true",
                      "aws:ResourceTag/sagemaker:space-arn": "true"
                  }
              }
          },
          {
              "Sid": "EMRServerlessActions",
              "Effect": "Allow",
              "Action": [
                  "emr-serverless:StartApplication",
                  "emr-serverless:StopApplication",
                  "emr-serverless:GetApplication",
                  "emr-serverless:DeleteApplication",
                  "emr-serverless:AccessLivyEndpoints",
                  "emr-serverless:GetDashboardForJobRun"
              ],
              "Resource": "arn:aws:emr-serverless:us-east-1:111122223333:/applications/*",
              "Condition": {
                  "Null": {
                      "aws:ResourceTag/sagemaker:domain-arn": "false",
                      "aws:ResourceTag/sagemaker:user-profile-arn": "false",
                      "aws:ResourceTag/sagemaker:space-arn": "false"
                  }
              }
          }
      ]
  }
  ```

------
+ **Kebijakan tindakan pembaruan domain, profil pengguna, dan ruang: Kebijakan** berikut memberikan izin untuk memperbarui domain SageMaker AI, profil pengguna, dan spasi dalam wilayah dan akun yang ditentukan. AWS 

------
#### [ JSON ]

****  

  ```
  {
      "Version":"2012-10-17",		 	 	 
      "Statement": [
          {
              "Sid": "SageMakerUpdateResourcesPolicy",
              "Effect": "Allow",
              "Action": [
                  "sagemaker:UpdateDomain",
                  "sagemaker:UpdateUserprofile",
                  "sagemaker:UpdateSpace"
              ],
              "Resource": [
                  "arn:aws:sagemaker:us-east-1:111122223333:domain/*",
                  "arn:aws:sagemaker:us-east-1:111122223333:user-profile/*"
              ]
          }
      ]
  }
  ```

------

# Buat aplikasi EMR Tanpa Server dari Studio
<a name="create-emr-serverless-application"></a>

Ilmuwan data dan insinyur data dapat membuat aplikasi EMR Tanpa Server langsung dari antarmuka pengguna Studio. Sebelum memulai, pastikan bahwa Anda telah mengonfigurasi izin yang diperlukan seperti yang dijelaskan di [Siapkan izin untuk mengaktifkan daftar dan meluncurkan aplikasi Amazon EMR dari Studio SageMaker](studio-emr-serverless-permissions.md) bagian. Izin ini memberi Studio kemampuan untuk membuat, memulai, melihat, mengakses, dan menghentikan aplikasi.

Untuk membuat aplikasi EMR Tanpa Server dari Studio:

1. Di UI Studio, arahkan ke panel sisi kiri dan pilih simpul **Data** di menu navigasi kiri. Kemudian, gulir dan pilih **aplikasi Amazon EMR dan opsi cluster**. Ini membuka halaman yang menampilkan aplikasi EMR Amazon yang dapat Anda akses dari dalam lingkungan Studio, di bawah tab Aplikasi Tanpa **Server**.

1. Pilih tombol **Create serverless application** di pojok kanan atas. **Ini membuka halaman **Buat aplikasi** menyerupai tampilan yang akan Anda lihat di konsol [EMR Tanpa Server](https://console.aws.amazon.com/emrserverless) ketika memilih **untuk Menggunakan pengaturan khusus** dalam opsi pengaturan aplikasi.**

1. Berikan detail yang diperlukan untuk aplikasi Anda, termasuk nama dan parameter tertentu yang dapat dikonfigurasi yang ingin Anda tetapkan, lalu pilih **Buat aplikasi**.  
![\[Bentuk pembuatan aplikasi EMR Tanpa Server dari Studio.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-serverless-create-app.png)

   Semua pengaturan konfigurasi memiliki nilai default dan opsional untuk memodifikasi. Untuk informasi rinci tentang setiap parameter yang tersedia, lihat [Mengonfigurasi aplikasi](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/application-capacity.html) dalam panduan pengguna EMR Tanpa Server.
**catatan**  
Selama proses pembuatan aplikasi di UI Studio, Anda memiliki opsi untuk **Buat aplikasi** atau **Buat dan mulai aplikasi**. Berdasarkan pilihan Anda, aplikasi akan masuk ke `Starting` negara bagian `Creating` atau masing-masing.  
Jika Anda memilih untuk membuat aplikasi tanpa segera memulainya, pastikan opsi **Mulai aplikasi secara otomatis pada pengiriman pekerjaan** tetap dipilih. Ini akan memastikan bahwa aplikasi secara otomatis bertransisi ke `Starting` status ketika Anda nanti mengirimkan pekerjaan untuk menjalankannya. 
**Untuk pengaturan yang paling sederhana, sebaiknya biarkan opsi **Virtual private cloud (VPC)** disetel ke nilai defaultnya dari **Tidak ada konektivitas jaringan ke sumber daya di VPC Anda di** bawah bagian Koneksi jaringan.** Ini memungkinkan aplikasi dibuat dalam VPC domain Anda tanpa memerlukan konfigurasi jaringan tambahan.  
 Dalam kasus lain, pastikan Anda melakukan langkah-langkah berikut:   
Rekan Anda VPCs.
Tambahkan rute ke tabel rute subnet pribadi Anda.
Konfigurasikan grup keamanan Anda seperti yang dijelaskan dalam[Konfigurasikan akses jaringan untuk kluster EMR Amazon Anda](studio-notebooks-emr-networking.md).
Ini memastikan pengaturan jaringan yang tepat untuk aplikasi Anda, di luar opsi default **Tidak ada konektivitas jaringan**.
Untuk aplikasi yang dibuat dari UI Studio Classic, konfigurasi berikut diterapkan secara otomatis:  
Endpoint Apache Livy yang diaktifkan.
Aplikasi ini ditandai dengan yang berikut:  
pembuat sagemaker: user-profile-arn
pembuat sagemaker:domain-arn
pembuat sagemaker:ruang-arn
Jika Anda membuat aplikasi di luar Studio, pastikan Anda mengaktifkan titik akhir Apache Livy secara manual dan menerapkan set tag yang sama ke aplikasi.

Setelah aplikasi dibuat, UI Studio Classic menampilkan pesan *Aplikasi telah berhasil dibuat* dan aplikasi baru muncul dalam daftar aplikasi **Tanpa Server**.

Untuk terhubung ke aplikasi EMR Tanpa Server Anda, lihat [Connect ke aplikasi EMR Serverless dari Studio](connect-emr-serverless-application.md)

# Connect ke aplikasi EMR Serverless dari Studio
<a name="connect-emr-serverless-application"></a>

Ilmuwan data dan insinyur data dapat menemukan dan kemudian terhubung ke aplikasi EMR Tanpa Server langsung dari antarmuka pengguna Studio. Sebelum Anda mulai, pastikan bahwa Anda telah membuat aplikasi EMR Tanpa Server dengan mengikuti petunjuk di. [Buat aplikasi EMR Tanpa Server dari Studio](create-emr-serverless-application.md)

Anda dapat menghubungkan aplikasi EMR Tanpa Server ke JupyterLab notebook baru langsung dari UI Studio, atau memilih untuk memulai koneksi di buku catatan aplikasi yang sedang berjalan. JupyterLab 

**penting**  
Saat menggunakan Studio, Anda hanya dapat menemukan dan terhubung ke aplikasi EMR Tanpa Server untuk JupyterLab aplikasi yang diluncurkan dari ruang pribadi. Pastikan bahwa aplikasi EMR Tanpa Server berada di AWS wilayah yang sama dengan lingkungan Studio Anda. JupyterLab Ruang Anda harus menggunakan versi gambar SageMaker Distribusi `1.10` atau lebih tinggi.

**Untuk menghubungkan aplikasi EMR Tanpa Server ke JupyterLab notebook baru dari UI Studio:**

1. Di UI Studio, arahkan ke panel sisi kiri dan pilih simpul **Data** di menu navigasi kiri. Kemudian, gulir dan pilih **aplikasi Amazon EMR dan opsi cluster**. Ini membuka halaman yang menampilkan aplikasi EMR Amazon yang dapat Anda akses dari dalam lingkungan Studio, di bawah tab Aplikasi Tanpa **Server**.
**catatan**  
Jika Anda atau administrator telah mengonfigurasi izin untuk mengizinkan akses lintas akun ke aplikasi EMR Tanpa Server, Anda dapat melihat daftar aplikasi gabungan di semua akun yang telah Anda berikan akses ke Studio.

1. **Pilih aplikasi EMR Tanpa Server yang ingin Anda sambungkan ke notebook baru, lalu pilih Lampirkan ke notebook.** Ini membuka jendela modal yang menampilkan daftar JupyterLab spasi Anda.

1. 
   + Pilih ruang pribadi tempat Anda ingin meluncurkan JupyterLab aplikasi, lalu pilih **Buka notebook**. Ini meluncurkan JupyterLab aplikasi dari ruang yang Anda pilih dan membuka notebook baru.
   + Atau, Anda dapat membuat ruang pribadi baru dengan memilih tombol **Buat ruang baru** di bagian atas jendela modal. Masukkan nama untuk ruang Anda dan kemudian pilih **Buat ruang dan buka buku catatan**. Ini menciptakan ruang pribadi dengan jenis instans default dan gambar SageMaker distribusi terbaru yang tersedia, meluncurkan JupyterLab aplikasi, dan membuka buku catatan baru.

1. Pilih nama peran eksekusi runtime IAM yang dapat diasumsikan oleh aplikasi EMR Tanpa Server Anda untuk menjalankan pekerjaan. Setelah dipilih, perintah koneksi mengisi sel pertama notebook Anda dan memulai koneksi dengan aplikasi EMR Tanpa Server.
**penting**  
Agar berhasil menghubungkan JupyterLab notebook ke aplikasi EMR Tanpa Server, Anda harus terlebih dahulu mengaitkan daftar peran runtime dengan domain atau profil pengguna Anda, seperti yang diuraikan dalam. [Siapkan izin untuk mengaktifkan daftar dan meluncurkan aplikasi Amazon EMR dari Studio SageMaker](studio-emr-serverless-permissions.md) Gagal menyelesaikan langkah ini akan mencegah Anda membuat koneksi. 

   Setelah koneksi berhasil, pesan mengonfirmasi koneksi, memulai aplikasi EMR Tanpa Server Anda, dan memulai sesi Spark Anda.
**catatan**  
Saat Anda terhubung ke aplikasi EMR Tanpa Server, statusnya bertransisi dari salah satu atau ke. `Stopped` `Created` `Started`

**Atau, Anda dapat terhubung ke cluster dari JupyterLab notebook.**

1. Pilih tombol **Cluster** di kanan atas notebook Anda. Ini membuka jendela modal yang mencantumkan aplikasi EMR Tanpa Server yang dapat Anda akses. Anda dapat melihat aplikasi di tab **Aplikasi Tanpa Server**.

1. Pilih aplikasi yang ingin Anda sambungkan, lalu pilih **Connect**.

1. EMR Tanpa Server mendukung peran IAM runtime yang dimuat sebelumnya saat menyetel izin yang diperlukan seperti yang diuraikan dalam. [Siapkan izin untuk mengaktifkan daftar dan meluncurkan aplikasi Amazon EMR dari Studio SageMaker](studio-emr-serverless-permissions.md) Gagal menyelesaikan langkah ini akan mencegah Anda membuat koneksi. 

   Anda dapat memilih peran Anda dari menu drop-down **peran eksekusi EMR Amazon**. Saat Anda terhubung ke EMR Tanpa Server, Studio menambahkan blok kode ke sel aktif buku catatan Anda untuk membuat koneksi.

1. Sel aktif mengisi dan berjalan. Sel ini berisi perintah ajaib koneksi untuk menghubungkan notebook Anda ke aplikasi Anda.

   Setelah koneksi berhasil, sebuah pesan mengkonfirmasi koneksi dan dimulainya aplikasi Spark. Anda dapat mulai mengirimkan pekerjaan pemrosesan data Anda ke aplikasi EMR Tanpa Server Anda.

# Menghentikan atau menghapus aplikasi EMR Tanpa Server dari UI Studio
<a name="terminate-emr-serverless-application"></a>

Anda dapat menghentikan (transisi ke `Stopped` status) atau menghapus (transisi ke `Deleted` status) aplikasi EMR Tanpa Server dari daftar aplikasi di UI Studio. 

**Untuk menghentikan atau menghapus aplikasi, navigasikan ke daftar aplikasi EMR Tanpa Server yang tersedia.**

1. Di UI Studio, arahkan ke panel sisi kiri dan pilih simpul **Data** di menu navigasi kiri. Kemudian, gulir dan pilih **aplikasi Amazon EMR dan opsi cluster**. Ini membuka halaman yang menampilkan aplikasi EMR Amazon yang dapat Anda akses dari dalam lingkungan Studio, di bawah tab Aplikasi Tanpa **Server**.

1. Pilih nama aplikasi yang ingin Anda hentikan atau hapus, lalu pilih tombol **Stop** atau **Delete** yang sesuai.

1. Pesan konfirmasi memberi tahu Anda bahwa pekerjaan yang tertunda akan hilang secara permanen. 

# Persiapan data menggunakan Amazon EMR
<a name="studio-notebooks-emr-cluster"></a>

**penting**  
Amazon SageMaker Studio dan Amazon SageMaker Studio Classic adalah dua lingkungan pembelajaran mesin yang dapat Anda gunakan untuk berinteraksi dengan SageMaker AI.  
Jika domain Anda dibuat setelah 30 November 2023, Studio adalah pengalaman default Anda.  
Jika domain Anda dibuat sebelum 30 November 2023, Amazon SageMaker Studio Classic adalah pengalaman default Anda. Untuk menggunakan Studio jika Amazon SageMaker Studio Classic adalah pengalaman default Anda, lihat[Migrasi dari Amazon SageMaker Studio Classic](studio-updated-migrate.md).  
Saat Anda bermigrasi dari Amazon SageMaker Studio Classic ke Amazon SageMaker Studio, tidak ada kerugian dalam ketersediaan fitur. Studio Classic juga ada sebagai aplikasi dalam Amazon SageMaker Studio untuk membantu Anda menjalankan alur kerja machine learning lama.

Amazon SageMaker Studio dan Studio Classic hadir dengan integrasi built-in dengan [Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html). [https://aws.amazon.com/emr/features/hive](https://aws.amazon.com/emr/features/hive) Dengan satu klik, mereka dapat mengakses UI Spark untuk memantau status dan metrik pekerjaan Spark mereka tanpa meninggalkan notebook mereka.

Administrator dapat membuat [CloudFormation templat](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html) yang menentukan kluster EMR Amazon. Mereka kemudian dapat membuat template cluster tersebut tersedia di [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/userguide/end-user-console.html)untuk pengguna Studio dan Studio Classic untuk diluncurkan. Ilmuwan data kemudian dapat memilih template yang telah ditentukan untuk menyediakan sendiri cluster EMR Amazon langsung dari lingkungan Studio mereka. Administrator selanjutnya dapat membuat parameter template untuk memungkinkan pengguna memilih aspek cluster dalam nilai yang telah ditentukan. Misalnya, pengguna mungkin ingin menentukan jumlah node inti atau memilih jenis instance node dari menu dropdown.

Dengan menggunakan CloudFormation, administrator dapat mengontrol pengaturan organisasi, keamanan, dan jaringan kluster EMR Amazon. Ilmuwan data dan insinyur data kemudian dapat menyesuaikan template tersebut untuk beban kerja mereka guna membuat klaster EMR Amazon sesuai permintaan langsung dari Studio dan Studio Classic tanpa menyiapkan konfigurasi yang rumit. Pengguna dapat menghentikan cluster EMR Amazon setelah digunakan.
+ **Jika Anda seorang administrator**:

  Pastikan Anda telah mengaktifkan komunikasi antara klaster EMR Studio atau Studio Classic dan Amazon. Untuk instruksi, lihat [Konfigurasikan akses jaringan untuk kluster EMR Amazon Anda](studio-notebooks-emr-networking.md) bagian. Setelah komunikasi ini diaktifkan, Anda dapat:
  + [Konfigurasikan CloudFormation template Amazon EMR di Service Catalog](studio-notebooks-set-up-emr-templates.md)
  + [Konfigurasikan daftar kluster EMR Amazon](studio-notebooks-configure-discoverability-emr-cluster.md)
+ **Jika Anda seorang ilmuwan data atau insinyur data**, Anda dapat:
  + [Luncurkan kluster EMR Amazon dari Studio atau Studio Classic](studio-notebooks-launch-emr-cluster-from-template.md)
  + [Daftar kluster EMR Amazon dari Studio atau Studio Classic](discover-emr-clusters.md)
  + [Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic](connect-emr-clusters.md)
  + [Mengakhiri klaster EMR Amazon dari Studio atau Studio Classic](terminate-emr-clusters.md)
  + [Akses Spark UI dari Studio atau Studio Classic](studio-notebooks-access-spark-ui.md)

**Topics**
+ [

# Mulai cepat: Buat domain kotak pasir SageMaker AI untuk meluncurkan kluster EMR Amazon di Studio
](studio-notebooks-emr-cluster-quickstart.md)
+ [

# Panduan admin
](studio-emr-admin-guide.md)
+ [

# Panduan pengguna
](studio-emr-user-guide.md)
+ [

# Blog dan whitepaper
](studio-notebooks-emr-resources.md)
+ [

# Pemecahan masalah
](studio-notebooks-emr-troubleshooting.md)

# Mulai cepat: Buat domain kotak pasir SageMaker AI untuk meluncurkan kluster EMR Amazon di Studio
<a name="studio-notebooks-emr-cluster-quickstart"></a>

Bagian ini memandu Anda melalui pengaturan cepat lingkungan pengujian lengkap di Amazon SageMaker Studio. Anda akan membuat domain Studio baru yang memungkinkan pengguna meluncurkan kluster EMR Amazon baru langsung dari Studio. Langkah-langkahnya memberikan contoh notebook yang dapat Anda sambungkan ke klaster EMR Amazon untuk mulai menjalankan Spark beban kerja. Dengan menggunakan notebook ini, Anda akan membangun Retrieval Augmented Generation System (RAG) menggunakan pemrosesan terdistribusi Amazon EMR Spark dan database vektor. OpenSearch 

**catatan**  
Untuk memulai, masuk ke Konsol AWS Manajemen menggunakan akun pengguna AWS Identity and Access Management (IAM) dengan izin admin. Untuk informasi tentang cara mendaftar AWS akun dan membuat pengguna dengan akses administratif, lihat[Lengkapi prasyarat Amazon SageMaker AI](gs-set-up.md).

**Untuk menyiapkan lingkungan pengujian Studio dan mulai menjalankan Spark pekerjaan:**
+ [

## Langkah 1: Buat domain SageMaker AI untuk meluncurkan cluster EMR Amazon di Studio
](#studio-notebooks-emr-cluster-quickstart-setup)
+ [

## Langkah 2: Luncurkan cluster EMR Amazon baru dari Studio UI
](#studio-notebooks-emr-cluster-quickstart-launch)
+ [

## Langkah 3: Hubungkan JupyterLab notebook ke cluster Amazon EMR
](#studio-notebooks-emr-cluster-quickstart-connect)
+ [

## Langkah 4: Bersihkan CloudFormation tumpukan Anda
](#studio-notebooks-emr-cluster-quickstart-clean-stack)

## Langkah 1: Buat domain SageMaker AI untuk meluncurkan cluster EMR Amazon di Studio
<a name="studio-notebooks-emr-cluster-quickstart-setup"></a>

Pada langkah-langkah berikut, Anda menerapkan CloudFormation tumpukan untuk secara otomatis membuat domain SageMaker AI baru. Tumpukan juga membuat profil pengguna dan mengonfigurasi lingkungan dan izin yang diperlukan. Domain SageMaker AI dikonfigurasi untuk memungkinkan Anda meluncurkan kluster EMR Amazon secara langsung dari Studio. Untuk contoh ini, cluster EMR Amazon dibuat di AWS akun yang sama dengan SageMaker AI tanpa otentikasi. [Anda dapat menemukan CloudFormation tumpukan tambahan yang mendukung berbagai metode otentikasi seperti Kerberos di repositori getting\$1started.](https://github.com/aws-samples/sagemaker-studio-emr/tree/main/cloudformation/getting_started) GitHub 

**catatan**  
SageMaker AI memungkinkan 5 domain Studio per AWS akun dan secara Wilayah AWS default. Pastikan akun Anda memiliki tidak lebih dari 4 domain di wilayah Anda sebelum Anda membuat tumpukan.

**Ikuti langkah-langkah ini untuk menyiapkan domain SageMaker AI untuk meluncurkan kluster EMR Amazon dari Studio.**

1. Unduh file mentah [CloudFormation template](https://github.com/aws-samples/sagemaker-studio-foundation-models/blob/main/workshop-artifacts/cfn/workshop-cfn.yaml) ini dari `sagemaker-studio-emr` GitHub repositori.

1. Pergi ke CloudFormation konsol: [https://console.aws.amazon.com/cloudformation](https://console.aws.amazon.com/cloudformation/)

1. Pilih **Buat tumpukan** dan pilih **Dengan sumber daya baru (standar)** dari menu tarik-turun.

1. Di **Langkah 1:**

   1. Di bagian **Siapkan templat**, pilih **Pilih templat yang ada**.

   1. Di bagian **Tentukan templat**, pilih **Unggah file templat**.

   1. Unggah CloudFormation templat yang diunduh dan pilih **Berikutnya**.

1. Pada **Langkah 2**, masukkan **nama Stack** dan **SageMakerDomainName**kemudian pilih **Berikutnya**.

1. Pada **Langkah 3**, simpan semua nilai default dan pilih **Berikutnya**.

1. Pada **Langkah 4**, centang kotak untuk mengakui pembuatan sumber daya dan pilih **Buat tumpukan**. Ini membuat domain Studio di akun dan wilayah Anda.

## Langkah 2: Luncurkan cluster EMR Amazon baru dari Studio UI
<a name="studio-notebooks-emr-cluster-quickstart-launch"></a>

Pada langkah-langkah berikut, Anda membuat cluster EMR Amazon baru dari UI Studio.

1. Buka konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)dan pilih **Domain** di menu sebelah kiri.

1. Klik nama domain Anda **Generatif AIDomain** untuk membuka halaman **detail Domain**.

1. Luncurkan Studio dari profil pengguna`genai-user`.

1. Di panel navigasi kiri, buka **Data** lalu **Amazon EMR Clusters**.

1. **Di halaman klaster EMR Amazon, pilih Buat.** **Pilih template **SageMaker Studio Domain No Auth EMR** yang dibuat oleh CloudFormation tumpukan dan kemudian pilih Berikutnya.**

1. Masukkan nama untuk cluster EMR Amazon yang baru. Opsional memperbarui parameter lain seperti jenis instance core dan master node, idle timeout, atau jumlah node inti.

1. Pilih **Buat sumber daya** untuk meluncurkan kluster EMR Amazon baru. 

   Setelah membuat cluster EMR Amazon, ikuti status di halaman Cluster **EMR**. Saat status berubah`Running/Waiting`, klaster EMR Amazon Anda siap digunakan di Studio.

## Langkah 3: Hubungkan JupyterLab notebook ke cluster Amazon EMR
<a name="studio-notebooks-emr-cluster-quickstart-connect"></a>

Pada langkah-langkah berikut, Anda menghubungkan notebook JupyterLab ke cluster EMR Amazon yang sedang berjalan. Untuk contoh ini, Anda mengimpor notebook yang memungkinkan Anda membangun sistem Retrieval Augmented Generation (RAG) menggunakan pemrosesan terdistribusi Amazon EMR Spark dan database vektor. OpenSearch 

1. 

**Peluncuran JupyterLab**

   Dari Studio, luncurkan JupyterLab aplikasi.

1. 

**Buat ruang pribadi**

   Jika Anda belum membuat ruang untuk JupyterLab aplikasi Anda, pilih **Buat JupyterLab spasi**. Masukkan nama untuk ruang, dan pertahankan ruang sebagai **Pribadi**. Biarkan semua pengaturan lain pada nilai defaultnya, lalu pilih **Buat ruang**. 

   Jika tidak, jalankan JupyterLab ruang Anda untuk meluncurkan JupyterLab aplikasi.

1. 

**Terapkan LLM Anda dan menyematkan model untuk inferensi**
   + Dari menu atas, pilih **File**, **New**, dan kemudian **Terminal**.
   + Di terminal, jalankan perintah berikut.

     ```
     wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-00-setup/Lab_0_Warm_Up_Deploy_EmbeddingModel_Llama2_on_Nvidia.ipynb
     mkdir AWSGuides
     cd AWSGuides
     wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/AWSGuides/AmazonSageMakerDeveloperGuide.pdf
     wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/AWSGuides/EC2DeveloperGuide.pdf
     wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/AWSGuides/S3DeveloperGuide.pdf
     ```

     Ini mengambil `Lab_0_Warm_Up_Deploy_EmbeddingModel_Llama2_on_Nvidia.ipynb` buku catatan ke direktori lokal Anda dan mengunduh tiga file PDF ke `AWSGuides` folder lokal.
   + Buka`lab-00-setup/Lab_0_Warm_Up_Deploy_EmbeddingModel_Llama2_on_Nvidia.ipynb`, simpan `Python 3 (ipykernel)` kernel, dan jalankan setiap sel.
**Awas**  
Di bagian **Perjanjian Lisensi Llama 2**, pastikan untuk menerima EULA Llama2 sebelum Anda melanjutkan.  
Notebook ini menyebarkan dua model, `Llama 2` dan`all-MiniLM-L6-v2 Models`, `ml.g5.2xlarge` untuk inferensi.

     Penyebaran model dan pembuatan titik akhir mungkin memakan waktu.

1. 

**Buka buku catatan utama Anda**

   Masuk JupyterLab, buka terminal Anda dan jalankan perintah berikut.

   ```
   cd ..
   wget --no-check-certificate https://raw.githubusercontent.com/aws-samples/sagemaker-studio-foundation-models/main/lab-03-rag/Lab_3_RAG_on_SageMaker_Studio_using_EMR.ipynb
   ```

   Anda akan melihat `Lab_3_RAG_on_SageMaker_Studio_using_EMR.ipynb` notebook tambahan di panel kiri JupyterLab.

1. 

**Pilih `PySpark` kernel**

   Buka `Lab_3_RAG_on_SageMaker_Studio_using_EMR.ipynb` buku catatan Anda dan pastikan Anda menggunakan `SparkMagic PySpark` kernel. Anda dapat mengganti kernel di kanan atas notebook Anda. Pilih nama kernel saat ini untuk membuka modal pemilihan kernel, lalu pilih`SparkMagic PySpark`.

1. 

**Hubungkan notebook Anda ke cluster**

   1. Di kanan atas notebook Anda, pilih **Cluster**. Tindakan ini membuka jendela modal yang mencantumkan semua cluster yang berjalan yang Anda memiliki izin untuk mengakses. 

   1. Pilih klaster Anda lalu pilih **Connect**. Jendela modal pemilihan tipe kredensi baru terbuka.

   1. Pilih **No credential** dan kemudian **Connect**.  
![\[Modal yang menunjukkan pilihan kredensi EMR Amazon untuk notebook. JupyterLab\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-credential-selection.png)

   1. Sel notebook secara otomatis mengisi dan berjalan. Sel notebook memuat `sagemaker_studio_analytics_extension.magics` ekstensi, yang menyediakan fungsionalitas untuk terhubung ke cluster EMR Amazon. Kemudian menggunakan perintah `%sm_analytics` ajaib untuk memulai koneksi ke cluster EMR Amazon Anda dan aplikasi Spark.
**catatan**  
Pastikan string koneksi ke kluster EMR Amazon Anda memiliki jenis otentikasi yang disetel ke. `None` Ini diilustrasikan oleh nilai `--auth-type None` dalam contoh berikut. Anda dapat memodifikasi bidang jika perlu.  

      ```
      %load_ext sagemaker_studio_analytics_extension.magics
      %sm_analytics emr connect --verify-certificate False --cluster-id your-cluster-id --auth-type None --language python
      ```

   1. Setelah Anda berhasil membuat koneksi, pesan keluaran sel koneksi Anda akan menampilkan `SparkSession` detail Anda termasuk ID klaster, ID `YARN` aplikasi, dan tautan ke Spark UI untuk memantau Spark pekerjaan Anda.

Anda siap menggunakan `Lab_3_RAG_on_SageMaker_Studio_using_EMR.ipynb` notebook. Notebook contoh ini menjalankan PySpark beban kerja terdistribusi untuk membangun sistem RAG menggunakan LangChain dan. OpenSearch

## Langkah 4: Bersihkan CloudFormation tumpukan Anda
<a name="studio-notebooks-emr-cluster-quickstart-clean-stack"></a>

Setelah Anda selesai, pastikan untuk mengakhiri dua titik akhir Anda dan menghapus CloudFormation tumpukan Anda untuk mencegah biaya lanjutan. Menghapus tumpukan membersihkan semua sumber daya yang disediakan oleh tumpukan.

**Untuk menghapus CloudFormation tumpukan Anda ketika Anda selesai dengan itu**

1. Pergi ke CloudFormation konsol: [https://console.aws.amazon.com/cloudformation](https://console.aws.amazon.com/cloudformation/)

1. Pilih tumpukan yang ingin Anda hapus. Anda dapat mencarinya dengan nama atau menemukannya di daftar tumpukan.

1. Klik tombol **Delete** untuk menyelesaikan penghapusan tumpukan dan kemudian **Hapus** lagi untuk mengakui bahwa ini akan menghapus semua sumber daya yang dibuat oleh tumpukan.

   Tunggu penghapusan tumpukan selesai. Ini bisa memakan waktu beberapa menit. CloudFormation secara otomatis membersihkan semua sumber daya yang ditentukan dalam template tumpukan.

1. Verifikasi bahwa semua sumber daya yang dibuat oleh tumpukan telah dihapus. Misalnya, periksa klaster EMR Amazon yang tersisa.

**Untuk menghapus titik akhir API untuk model**

1. Buka konsol SageMaker AI: [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. **Di panel navigasi kiri, pilih **Inferensi** dan kemudian Titik Akhir.**

1. Pilih titik akhir `hf-allminil6v2-embedding-ep` dan kemudian pilih **Hapus** di daftar drop-down **Tindakan**. Ulangi langkah untuk titik akhir`meta-llama2-7b-chat-tg-ep`.

# Panduan admin
<a name="studio-emr-admin-guide"></a>

Bagian ini menyediakan prasyarat, instruksi jaringan untuk memungkinkan komunikasi antara kluster Studio atau Studio Classic dan Amazon EMR. Ini mencakup skenario penyebaran yang berbeda - ketika Studio dan Amazon EMR disediakan dalam VPCs Amazon pribadi tanpa akses internet publik, serta ketika mereka perlu berkomunikasi melalui internet.

Ini berjalan melalui bagaimana administrator dapat menggunakan AWS Service Catalog untuk membuat CloudFormation template tersedia untuk Studio, memungkinkan ilmuwan data untuk menemukan dan menyediakan sendiri kluster EMR Amazon langsung dari dalam Studio. Ini melibatkan pembuatan portofolio Service Catalog, memberikan izin yang diperlukan, mereferensikan template EMR Amazon, dan membuat parameter untuk mengaktifkan penyesuaian selama pembuatan klaster.

Terakhir, ini memberikan panduan tentang mengonfigurasi kemampuan penemuan kluster EMR Amazon yang sedang berjalan dari Studio, dan Studio Classic, yang mencakup skenario akses akun tunggal dan lintas akun bersama dengan izin IAM yang diperlukan.

**Topics**
+ [

# Konfigurasikan CloudFormation template Amazon EMR di Service Catalog
](studio-notebooks-set-up-emr-templates.md)
+ [

# Konfigurasikan daftar kluster EMR Amazon
](studio-notebooks-configure-discoverability-emr-cluster.md)
+ [

# Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio
](studio-notebooks-emr-cluster-rbac.md)
+ [

# Kebijakan referensi
](studio-set-up-emr-permissions-reference.md)

# Konfigurasikan CloudFormation template Amazon EMR di Service Catalog
<a name="studio-notebooks-set-up-emr-templates"></a>

[Topik ini mengasumsikan administrator akrab dengan [CloudFormation](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/Welcome.html), [portofolio dan produk di AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/getstarted-portfolio.html), serta Amazon EMR.](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html)

Untuk menyederhanakan pembuatan cluster EMR Amazon dari Studio, administrator dapat mendaftarkan template [ CloudFormation EMR Amazon](https://docs.aws.amazon.com/AWSCloudFormation/latest/UserGuide/aws-resource-elasticmapreduce-cluster.html) sebagai produk dalam portofolio. [AWS Service Catalog](https://docs.aws.amazon.com/servicecatalog/latest/adminguide/introduction.html) Untuk membuat template tersedia bagi ilmuwan data, mereka harus mengaitkan portofolio dengan peran eksekusi SageMaker AI yang digunakan di Studio atau Studio Classic. Terakhir, untuk memungkinkan pengguna menemukan templat, menyediakan kluster, dan terhubung ke kluster EMR Amazon dari Studio atau Studio Classic, administrator perlu menetapkan izin akses yang sesuai.

 CloudFormation Template EMR Amazon dapat memungkinkan pengguna akhir untuk menyesuaikan berbagai aspek cluster. Misalnya, administrator dapat menentukan daftar jenis instans yang disetujui yang dapat dipilih pengguna saat membuat klaster.

Petunjuk berikut menggunakan end-to-end [CloudFormation tumpukan](https://github.com/aws-samples/sagemaker-studio-emr/tree/main/cloudformation/getting_started) untuk menyiapkan domain Studio atau Studio Classic, profil pengguna, portofolio Service Catalog, dan mengisi template peluncuran Amazon EMR. Langkah-langkah berikut menyoroti setelan spesifik yang harus diterapkan administrator di end-to-end tumpukan mereka untuk mengaktifkan Studio atau Studio Classic untuk mengakses produk Service Catalog dan menyediakan kluster Amazon EMR.

**catatan**  
 GitHub Repositori [aws-samples/ sagemaker-studio-emr](https://github.com/aws-samples/sagemaker-studio-emr/tree/main/cloudformation/getting_started) berisi contoh end-to-end CloudFormation tumpukan yang menerapkan peran IAM yang diperlukan, jaringan, domain, profil SageMaker pengguna, portofolio Service Catalog, dan menambahkan template peluncuran Amazon EMR. CloudFormation Template menyediakan opsi otentikasi yang berbeda antara Studio atau Studio Classic dan klaster EMR Amazon. Dalam contoh templat ini, CloudFormation tumpukan induk meneruskan parameter SageMaker AI VPC, grup keamanan, dan subnet ke template cluster EMR Amazon.  
Repositori [sagemaker-studio-emr/cloudformation/emr\$1servicecatalog\$1templates berisi berbagai contoh templat](https://github.com/aws-samples/sagemaker-studio-emr/tree/main/cloudformation/emr_servicecatalog_templates) peluncuran EMR Amazon, termasuk opsi untuk penerapan akun tunggal dan lintas akun. CloudFormation   
Lihat detail tentang metode otentikasi yang dapat Anda gunakan untuk terhubung ke klaster EMR Amazon. [Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic](connect-emr-clusters.md)

Untuk memungkinkan ilmuwan data menemukan CloudFormation templat EMR Amazon dan klaster penyediaan dari Studio atau Studio Classic, ikuti langkah-langkah berikut.

## Langkah 0: Periksa jaringan Anda dan siapkan CloudFormation tumpukan Anda
<a name="studio-set-up-emr-prereq"></a>

Sebelum Anda mulai:
+ Pastikan Anda telah meninjau persyaratan jaringan dan keamanan di[Konfigurasikan akses jaringan untuk kluster EMR Amazon Anda](studio-notebooks-emr-networking.md).
+ Anda harus memiliki end-to-end CloudFormation tumpukan yang ada yang mendukung metode otentikasi pilihan Anda. Anda dapat menemukan contoh CloudFormation template tersebut di [sagemaker-studio-emr GitHub aws-samples/](https://github.com/aws-samples/sagemaker-studio-emr/tree/main/cloudformation/getting_started) repositori. Langkah-langkah berikut menyoroti konfigurasi spesifik di end-to-end tumpukan Anda untuk mengaktifkan penggunaan templat EMR Amazon dalam Studio atau Studio Classic. 

## Langkah 1: Kaitkan portofolio Service Catalog Anda dengan SageMaker AI
<a name="studio-set-up-emr-service-catalog-portfolio"></a>

**Dalam portofolio Service Catalog** Anda, kaitkan ID portofolio Anda dengan peran eksekusi SageMaker AI yang mengakses klaster Anda.

Untuk melakukannya, tambahkan bagian berikut (di sini dalam format YAMAL) ke tumpukan Anda. Ini memberikan akses peran eksekusi SageMaker AI ke portofolio Service Catalog tertentu yang berisi produk seperti template Amazon EMR. Ini memungkinkan peran yang diasumsikan oleh SageMaker AI untuk meluncurkan produk tersebut.

 Ganti *SageMakerExecutionRole.Arn* dan *SageMakerStudioEMRProductPortfolio.ID* dengan nilai aktualnya.

```
SageMakerStudioEMRProductPortfolioPrincipalAssociation:
    Type: AWS::ServiceCatalog::PortfolioPrincipalAssociation
    Properties:
      PrincipalARN: SageMakerExecutionRole.Arn
      PortfolioId: SageMakerStudioEMRProductPortfolio.ID
      PrincipalType: IAM
```

Untuk detail tentang set izin IAM yang diperlukan, lihat bagian [izin](#studio-emr-permissions).

## Langkah 2: Referensi template EMR Amazon dalam produk Service Catalog
<a name="studio-set-up-emr-service-catalog-product"></a>

**Dalam produk Service Catalog portofolio Anda**, rujuk sumber daya template EMR Amazon dan pastikan visibilitasnya di Studio atau Studio Classic. 

Untuk melakukannya, rujuk sumber daya template Amazon EMR dalam definisi produk Service Catalog, lalu tambahkan kunci tag berikut yang `"sagemaker:studio-visibility:emr"` disetel ke nilai `"true"` (lihat contoh dalam format YAMM).

Dalam definisi produk Service Catalog, CloudFormation template cluster direferensikan melalui URL. Tag tambahan yang disetel ke true memastikan visibilitas template EMR Amazon di Studio atau Studio Classic. 

**catatan**  
Template EMR Amazon yang direferensikan oleh URL yang disediakan dalam contoh tidak memberlakukan persyaratan otentikasi apa pun saat diluncurkan. Opsi ini dimaksudkan untuk tujuan demonstrasi dan pembelajaran. Hal ini tidak direkomendasikan dalam lingkungan produksi.

```
SMStudioEMRNoAuthProduct:
    Type: AWS::ServiceCatalog::CloudFormationProduct
    Properties:
      Owner: AWS
      Name: SageMaker Studio Domain No Auth EMR
      ProvisioningArtifactParameters:
        - Name: SageMaker Studio Domain No Auth EMR
          Description: Provisions a SageMaker domain and No Auth EMR Cluster
          Info:
            LoadTemplateFromURL: Link to your CloudFormation template. For example, https://aws-blogs-artifacts-public.s3.amazonaws.com/artifacts/astra-m4-sagemaker/end-to-end/CFN-EMR-NoStudioNoAuthTemplate-v3.yaml
      Tags:
        - Key: "sagemaker:studio-visibility:emr"
          Value: "true"
```

## Langkah 3: Parameterisasi template EMR Amazon CloudFormation
<a name="studio-set-up-emr-cfn-template"></a>

** CloudFormation Template yang digunakan untuk menentukan klaster EMR Amazon dalam produk Service Catalog** memungkinkan administrator menentukan parameter yang dapat dikonfigurasi. Administrator dapat menentukan `Default` nilai dan `AllowedValues` rentang untuk parameter ini dalam `Parameters` bagian template. Selama proses peluncuran cluster, ilmuwan data dapat memberikan input khusus atau membuat pilihan dari opsi yang telah ditentukan untuk menyesuaikan aspek tertentu dari cluster EMR Amazon mereka.

Contoh berikut menggambarkan parameter input tambahan yang administrator dapat mengatur saat membuat template Amazon EMR.

```
"Parameters": {
    "EmrClusterName": {
      "Type": "String",
      "Description": "EMR cluster Name."
    },
    "MasterInstanceType": {
      "Type": "String",
      "Description": "Instance type of the EMR master node.",
      "Default": "m5.xlarge",
      "AllowedValues": [
        "m5.xlarge",
        "m5.2xlarge",
        "m5.4xlarge"
      ]
    },
    "CoreInstanceType": {
      "Type": "String",
      "Description": "Instance type of the EMR core nodes.",
      "Default": "m5.xlarge",
      "AllowedValues": [
        "m5.xlarge",
        "m5.2xlarge",
        "m5.4xlarge",
        "m3.medium",
        "m3.large",
        "m3.xlarge",
        "m3.2xlarge"
      ]
    },
    "CoreInstanceCount": {
      "Type": "String",
      "Description": "Number of core instances in the EMR cluster.",
      "Default": "2",
      "AllowedValues": [
        "2",
        "5",
        "10"
      ]
    },
    "EmrReleaseVersion": {
      "Type": "String",
      "Description": "The release version of EMR to launch.",
      "Default": "emr-5.33.1",
      "AllowedValues": [
        "emr-5.33.1",
        "emr-6.4.0"
      ]
    }
  }
```

Setelah administrator membuat templat CloudFormation EMR Amazon tersedia di Studio, ilmuwan data dapat menggunakannya untuk menyediakan sendiri kluster EMR Amazon. `Parameters`Bagian yang didefinisikan dalam template diterjemahkan ke dalam bidang input pada formulir pembuatan cluster dalam Studio atau Studio Classic. Untuk setiap parameter, ilmuwan data dapat memasukkan nilai khusus ke dalam kotak input atau memilih dari opsi yang telah ditentukan yang tercantum dalam menu tarik-turun, yang sesuai dengan yang `AllowedValues` ditentukan dalam templat.

Ilustrasi berikut menunjukkan bentuk dinamis yang dirakit dari template EMR CloudFormation Amazon untuk membuat cluster EMR Amazon di Studio atau Studio Classic.

![\[Ilustrasi bentuk dinamis yang dirakit dari template EMR CloudFormation Amazon untuk membuat cluster EMR Amazon dari Studio atau Studio Classic.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-cluster-creation.png)


Kunjungi [Luncurkan kluster EMR Amazon dari Studio atau Studio Classic](studio-notebooks-launch-emr-cluster-from-template.md) untuk mempelajari cara meluncurkan klaster dari Studio atau Studio Classic menggunakan template Amazon EMR tersebut.

## Langkah 4: Siapkan izin untuk mengaktifkan daftar dan meluncurkan kluster EMR Amazon dari Studio
<a name="studio-emr-permissions"></a>

Terakhir, lampirkan izin IAM yang diperlukan untuk mengaktifkan daftar kluster EMR Amazon yang sedang berjalan dan menyediakan sendiri cluster baru dari Studio atau Studio Classic.

*Peran yang harus Anda tambahkan izin tersebut bergantung pada apakah Studio atau Studio Classic dan Amazon EMR digunakan di akun yang sama (pilih Akun *Tunggal) atau di akun yang berbeda (pilih* Akun Lintas).*

**penting**  
Anda hanya dapat menemukan dan terhubung ke cluster EMR Amazon untuk JupyterLab dan aplikasi Studio Classic yang diluncurkan dari ruang pribadi. Pastikan bahwa kluster EMR Amazon berada di AWS wilayah yang sama dengan lingkungan Studio Anda.

### Akun tunggal
<a name="studio-set-up-emr-permissions-singleaccount"></a>

Jika klaster EMR Amazon dan Studio atau Studio Classic digunakan di AWS akun yang sama, lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses klaster Anda.

1. **Langkah 1**: Ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda.

   Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

   Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)

1. **Langkah 2**: Lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses kluster EMR Amazon Anda.

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Pilih **Peran** dan kemudian cari peran eksekusi berdasarkan nama di kolom **Pencarian**. Nama peran adalah bagian terakhir dari ARN, setelah garis miring terakhir (/). 

   1. Ikuti tautan ke peran Anda.

   1. Pilih **Tambahkan izin**, lalu **Buat kebijakan sebaris**.

   1. Di tab **JSON**, tambahkan izin EMR Amazon yang memungkinkan akses dan operasi EMR Amazon. Untuk detail tentang dokumen kebijakan, lihat *Daftar kebijakan EMR Amazon* di. [Kebijakan referensi](studio-set-up-emr-permissions-reference.md) Ganti`region`, dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Ulangi langkah **Buat kebijakan sebaris** untuk menambahkan kebijakan lain yang memberikan izin kepada peran eksekusi untuk menyediakan kluster EMR Amazon baru menggunakan templat. CloudFormation Untuk detail tentang dokumen kebijakan, lihat *Membuat EMRclusters kebijakan Amazon* di[Kebijakan referensi](studio-set-up-emr-permissions-reference.md). Ganti `region` dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

**catatan**  
Pengguna konektivitas kontrol akses berbasis peran (RBAC) ke kluster EMR Amazon juga harus merujuk. [Konfigurasikan autentikasi peran runtime saat klaster EMR Amazon dan Studio berada di akun yang sama](studio-notebooks-emr-cluster-rbac.md#studio-notebooks-emr-cluster-iam-same) 

### Lintas akun
<a name="studio-set-up-emr-permissions-crossaccount"></a>

Sebelum Anda memulai, ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda.

Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)

Jika klaster EMR Amazon dan Studio atau Studio Classic digunakan di AWS akun terpisah, Anda mengonfigurasi izin di kedua akun.

**catatan**  
Pengguna konektivitas kontrol akses berbasis peran (RBAC) ke kluster EMR Amazon juga harus merujuk. [Konfigurasikan autentikasi peran runtime saat klaster dan Studio Anda berada di akun yang berbeda](studio-notebooks-emr-cluster-rbac.md#studio-notebooks-emr-cluster-iam-diff) 

#### Di akun cluster Amazon EMR
<a name="studio-set-up-emr-permissions-crossaccount-emraccount"></a>

*Ikuti langkah-langkah ini untuk membuat peran dan kebijakan yang diperlukan pada akun tempat Amazon EMR digunakan, juga disebut sebagai akun kepercayaan:*

1. **Langkah 1**: Ambil ARN dari [peran layanan cluster EMR Amazon Anda](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-iam-role.html). 

   Untuk mempelajari cara menemukan ARN peran layanan klaster, lihat [Mengonfigurasi peran layanan IAM untuk izin EMR Amazon ke layanan](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-iam-roles.html#emr-iam-role-landing) dan sumber daya. AWS 

1. **Langkah 2**: Buat peran IAM kustom bernama `AssumableRole` dengan konfigurasi berikut:
   + Izin: Berikan izin yang diperlukan `AssumableRole` untuk mengizinkan mengakses sumber daya EMR Amazon. Peran ini juga dikenal sebagai *peran Access* dalam skenario yang melibatkan akses lintas akun.
   + Hubungan kepercayaan: Konfigurasikan kebijakan kepercayaan `AssumableRole` untuk mengizinkan asumsi peran eksekusi (`SageMakerExecutionRole`Dalam diagram lintas akun) dari akun Studio yang memerlukan akses.

   Dengan mengasumsikan peran tersebut, Studio atau Studio Classic dapat memperoleh akses sementara ke izin yang dibutuhkan di Amazon EMR.

   Untuk petunjuk terperinci tentang cara membuat yang baru `AssumableRole` di AWS akun EMR Amazon Anda, ikuti langkah-langkah berikut:

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Di panel navigasi kiri, pilih **Kebijakan**, lalu **Buat kebijakan**.

   1. Di tab **JSON**, tambahkan izin EMR Amazon yang memungkinkan akses dan operasi EMR Amazon. Untuk detail tentang dokumen kebijakan, lihat *Daftar kebijakan EMR Amazon* di. [Kebijakan referensi](studio-set-up-emr-permissions-reference.md) Ganti`region`, dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Di panel navigasi kiri, pilih **Peran** dan kemudian **Buat peran**.

   1. Pada halaman **Buat peran**, pilih **Kebijakan kepercayaan khusus** sebagai entitas tepercaya.

   1. Tempel dokumen JSON berikut di bagian **Kebijakan kepercayaan kustom** dan kemudian pilih **Berikutnya**.

------
#### [ For users of Studio and JupyterLab ]

      Ganti `studio-account` dengan ID akun Studio, dan `AmazonSageMaker-ExecutionRole` dengan peran eksekusi yang digunakan oleh JupyterLab spasi Anda.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "AWS": "arn:aws:iam::111122223333:role/service-role/AmazonSageMaker-ExecutionRole"
                  },
                  "Action": "sts:AssumeRole"
              }
          ]
      }
      ```

------

------
#### [ For users of Studio Classic ]

      Ganti `studio-account` dengan ID akun Studio Classic.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "AWS": "arn:aws:iam::111122223333:root"
                  },
                  "Action": "sts:AssumeRole"
              }
          ]
      }
      ```

------

------

   1. Di halaman **Tambahkan izin**, tambahkan izin yang baru saja Anda buat lalu pilih **Berikutnya**.

   1. Pada halaman **Ulasan**, masukkan nama untuk peran seperti `AssumableRole` dan deskripsi opsional.

   1. Tinjau detail peran dan pilih **Buat peran**.

   Untuk informasi selengkapnya tentang membuat peran di AWS akun, lihat [Membuat peran IAM (konsol)](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-user.html).

#### Di akun Studio
<a name="studio-set-up-emr-permissions-crossaccount-studioaccount"></a>

Pada akun tempat Studio digunakan, juga disebut sebagai *akun tepercaya*, perbarui peran eksekusi SageMaker AI yang mengakses kluster Anda dengan izin yang diperlukan untuk mengakses sumber daya di akun kepercayaan.

1. **Langkah 1**: Ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda.

   Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

   Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)

1. **Langkah 2**: Lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses kluster EMR Amazon Anda.

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Pilih **Peran** dan kemudian cari peran eksekusi berdasarkan nama di kolom **Pencarian**. Nama peran adalah bagian terakhir dari ARN, setelah garis miring terakhir (/). 

   1. Ikuti tautan ke peran Anda.

   1. Pilih **Tambahkan izin**, lalu **Buat kebijakan sebaris**.

   1. Di tab **JSON**, tambahkan kebijakan sebaris yang memberikan izin peran untuk memperbarui domain, profil pengguna, dan spasi. Untuk detail tentang dokumen kebijakan, lihat *Kebijakan tindakan pembaruan domain, profil pengguna, dan ruang* di[Kebijakan referensi](studio-set-up-emr-permissions-reference.md). Ganti `region` dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Ulangi langkah **Buat kebijakan sebaris** untuk menambahkan kebijakan lain yang memberikan peran eksekusi izin untuk mengambil alih `AssumableRole` dan kemudian melakukan tindakan yang diizinkan oleh kebijakan akses peran. Ganti `emr-account` dengan ID akun EMR Amazon, dan `AssumableRole` dengan nama peran yang dapat diasumsikan dibuat di akun EMR Amazon.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Sid": "AllowRoleAssumptionForCrossAccountDiscovery",
                  "Effect": "Allow",
                  "Action": "sts:AssumeRole",
                  "Resource": [
                      "arn:aws:iam::111122223333:role/AssumableRole"
                  ]
              }
          ]
      }
      ```

------

   1. Ulangi langkah **Buat kebijakan sebaris** untuk menambahkan kebijakan lain yang memberikan izin kepada peran eksekusi untuk menyediakan kluster EMR Amazon baru menggunakan templat. CloudFormation Untuk detail tentang dokumen kebijakan, lihat *Membuat EMRclusters kebijakan Amazon* di[Kebijakan referensi](studio-set-up-emr-permissions-reference.md). Ganti `region` dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. (Opsional) Untuk mengizinkan pencantuman klaster EMR Amazon yang diterapkan di akun yang sama dengan Studio, tambahkan kebijakan sebaris tambahan ke peran eksekusi Studio Anda seperti yang ditentukan dalam Daftar kebijakan EMR *Amazon* di. [Kebijakan referensi](studio-set-up-emr-permissions-reference.md) 

1. **Langkah 3**: Kaitkan peran yang dapat diasumsikan (peran akses) Anda dengan domain atau profil pengguna Anda. JupyterLab pengguna di Studio dapat menggunakan konsol SageMaker AI atau skrip yang disediakan.

    Pilih tab yang sesuai dengan kasus penggunaan Anda.

------
#### [ Associate your assumable roles in JupyterLab using the SageMaker AI console ]

   Untuk mengaitkan peran yang dapat diasumsikan dengan profil pengguna atau domain Anda menggunakan konsol SageMaker AI:

   1. Arahkan ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

   1. Di panel navigasi kiri, pilih **domain**, lalu pilih domain menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui.

   1. 
      + Untuk menambahkan peran yang dapat diasumsikan (peran akses) ke domain Anda: Di tab **Konfigurasi Aplikasi** pada halaman **detail Domain**, navigasikan ke bagian tersebut **JupyterLab**.
      + Untuk menambahkan peran yang dapat diasumsikan (peran akses) ke profil pengguna: Pada halaman **Detail domain**, pilih tab **Profil pengguna, pilih profil** pengguna menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui. Di tab **Konfigurasi Aplikasi**, arahkan ke **JupyterLab**bagian tersebut.

   1. Pilih **Edit** dan tambahkan peran ARNs yang dapat diasumsikan (peran akses).

   1. Pilih **Kirim**.

------
#### [ Associate your assumable roles in JupyterLab using a Python script ]

    Dalam JupyterLab aplikasi yang dimulai dari ruang menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui, jalankan perintah berikut di terminal. Ganti`domainID`,, `user-profile-name``emr-accountID`, dan `AssumableRole` (`EMRServiceRole`untuk [peran runtime RBAC]()) dengan nilai yang tepat. Cuplikan kode ini memperbarui pengaturan profil pengguna untuk profil pengguna tertentu (penggunaan`client.update_userprofile`) atau pengaturan domain (penggunaan`client.update_domain`) dalam domain SageMaker AI. Secara khusus, ini memungkinkan JupyterLab aplikasi untuk mengambil peran IAM tertentu (`AssumableRole`) untuk menjalankan cluster EMR Amazon dalam akun EMR Amazon.

   ```
   import botocore.session
   import json
   sess = botocore.session.get_session()
   client = sess.create_client('sagemaker')
   
   client.update_userprofile(
   DomainId="domainID", 
   UserProfileName="user-profile-name",
   DefaultUserSettings={
       'JupyterLabAppSettings': {
           'EmrSettings': {
               'AssumableRoleArns': ["arn:aws:iam::emr-accountID:role/AssumableRole"],
               'ExecutionRoleArns': ["arn:aws:iam::emr-accountID:role/EMRServiceRole", 
                                "arn:aws:iam::emr-accountID:role/AnotherServiceRole"]
           }
           
       }
   })
   resp = client.describe_user_profile(DomainId="domainID", UserProfileName=user-profile-name")
   
   resp['CreationTime'] = str(resp['CreationTime'])
   resp['LastModifiedTime'] = str(resp['LastModifiedTime'])
   print(json.dumps(resp, indent=2))
   ```

------
#### [ For users of Studio Classic ]

   Berikan ARN `AssumableRole` untuk peran eksekusi Studio Classic Anda. ARN dimuat oleh server Jupyter saat diluncurkan. *Peran eksekusi yang digunakan oleh Studio mengasumsikan peran lintas akun untuk menemukan dan terhubung ke klaster EMR Amazon di akun kepercayaan.*

   Anda dapat menentukan informasi ini dengan menggunakan skrip Lifecycle Configuration (LCC). Anda dapat melampirkan LCC ke domain Anda atau profil pengguna tertentu. Skrip LCC yang Anda gunakan harus berupa JupyterServer konfigurasi. Untuk informasi selengkapnya tentang cara membuat skrip LCC, lihat [Menggunakan Konfigurasi Siklus Hidup](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc.html) dengan Studio Classic. 

   Berikut ini adalah contoh skrip LCC. Untuk memodifikasi skrip, ganti `AssumableRole` dan `emr-account` dengan nilainya masing-masing. Jumlah akun silang dibatasi hingga lima.

   ```
   # This script creates the file that informs Studio Classic that the role "arn:aws:iam::emr-account:role/AssumableRole" in remote account "emr-account" must be assumed to list and describe Amazon EMR clusters in the remote account.
   
   #!/bin/bash
   
   set -eux
   
   FILE_DIRECTORY="/home/sagemaker-user/.cross-account-configuration-DO_NOT_DELETE"
   FILE_NAME="emr-discovery-iam-role-arns-DO_NOT_DELETE.json"
   FILE="$FILE_DIRECTORY/$FILE_NAME"
   
   mkdir -p $FILE_DIRECTORY
   
   cat > "$FILE" <<- "EOF"
   {
     emr-cross-account1: "arn:aws:iam::emr-cross-account1:role/AssumableRole",
     emr-cross-account2: "arn:aws:iam::emr-cross-account2:role/AssumableRole"
   }
   EOF
   ```

    Setelah LCC berjalan dan file ditulis, server membaca file `/home/sagemaker-user/.cross-account-configuration-DO_NOT_DELETE/emr-discovery-iam-role-arns-DO_NOT_DELETE.json` dan menyimpan ARN lintas akun.

------

# Konfigurasikan daftar kluster EMR Amazon
<a name="studio-notebooks-configure-discoverability-emr-cluster"></a>

Administrator dapat mengonfigurasi izin untuk peran eksekusi SageMaker Studio agar pengguna dapat melihat daftar kluster EMR Amazon yang dapat mereka akses, sehingga memungkinkan mereka untuk terhubung ke klaster ini. Cluster yang ingin Anda akses dapat digunakan di AWS akun yang sama dengan Studio (pilih Akun *tunggal) atau di akun* terpisah (pilih *Akun silang*). Halaman berikut menjelaskan cara memberikan izin untuk melihat kluster EMR Amazon dari Studio atau Studio Classic.

**penting**  
Anda hanya dapat menemukan dan terhubung ke cluster EMR Amazon untuk JupyterLab dan aplikasi Studio Classic yang diluncurkan dari ruang pribadi. Pastikan bahwa kluster EMR Amazon berada di AWS wilayah yang sama dengan lingkungan Studio Anda.

Untuk memungkinkan ilmuwan data menemukan dan kemudian terhubung ke Amazon EMRclusters dari Studio atau Studio Classic, ikuti langkah-langkah berikut.

## Akun tunggal
<a name="studio-set-up-emr-permissions-singleaccount-list-clusters"></a>

Jika klaster EMR Amazon dan Studio atau Studio Classic digunakan di AWS akun yang sama, lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses klaster Anda.

1. **Langkah 1**: Ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda.

   Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

   Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)

1. **Langkah 2**: Lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses kluster EMR Amazon Anda.

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Pilih **Peran** dan kemudian cari peran eksekusi berdasarkan nama di kolom **Pencarian**. Nama peran adalah bagian terakhir dari ARN, setelah garis miring terakhir (/). 

   1. Ikuti tautan ke peran Anda.

   1. Pilih **Tambahkan izin**, lalu **Buat kebijakan sebaris**.

   1. Di tab **JSON**, tambahkan izin EMR Amazon yang memungkinkan akses dan operasi EMR Amazon. Untuk detail tentang dokumen kebijakan, lihat *Daftar kebijakan EMR Amazon* di. [Kebijakan referensi](studio-set-up-emr-permissions-reference.md) Ganti`region`, dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

**catatan**  
Pengguna konektivitas kontrol akses berbasis peran (RBAC) ke kluster EMR Amazon juga harus merujuk. [Konfigurasikan autentikasi peran runtime saat klaster EMR Amazon dan Studio berada di akun yang sama](studio-notebooks-emr-cluster-rbac.md#studio-notebooks-emr-cluster-iam-same) 

## Lintas akun
<a name="studio-set-up-emr-permissions-crossaccount-list-clusters"></a>

Sebelum Anda memulai, ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda.

Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)

Jika klaster EMR Amazon dan Studio atau Studio Classic digunakan di AWS akun terpisah, Anda mengonfigurasi izin di kedua akun.

**catatan**  
Pengguna konektivitas kontrol akses berbasis peran (RBAC) ke kluster EMR Amazon juga harus merujuk. [Konfigurasikan autentikasi peran runtime saat klaster dan Studio Anda berada di akun yang berbeda](studio-notebooks-emr-cluster-rbac.md#studio-notebooks-emr-cluster-iam-diff) 

**Di akun cluster Amazon EMR**

*Ikuti langkah-langkah ini untuk membuat peran dan kebijakan yang diperlukan pada akun tempat Amazon EMR digunakan, juga disebut sebagai akun kepercayaan:*

1. **Langkah 1**: Ambil ARN dari [peran layanan cluster EMR Amazon Anda](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-iam-role.html). 

   Untuk mempelajari cara menemukan ARN peran layanan klaster, lihat [Mengonfigurasi peran layanan IAM untuk izin EMR Amazon ke layanan](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-iam-roles.html#emr-iam-role-landing) dan sumber daya. AWS 

1. **Langkah 2**: Buat peran IAM kustom bernama `AssumableRole` dengan konfigurasi berikut:
   + Izin: Berikan izin yang diperlukan `AssumableRole` untuk mengizinkan mengakses sumber daya EMR Amazon. Peran ini juga dikenal sebagai *peran Access* dalam skenario yang melibatkan akses lintas akun.
   + Hubungan kepercayaan: Konfigurasikan kebijakan kepercayaan `AssumableRole` untuk mengizinkan asumsi peran eksekusi (`SageMakerExecutionRole`Dalam diagram lintas akun) dari akun Studio yang memerlukan akses.

   Dengan mengasumsikan peran tersebut, Studio atau Studio Classic dapat memperoleh akses sementara ke izin yang dibutuhkan di Amazon EMR.

   Untuk petunjuk terperinci tentang cara membuat yang baru `AssumableRole` di AWS akun EMR Amazon Anda, ikuti langkah-langkah berikut:

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Di panel navigasi kiri, pilih **Kebijakan**, lalu **Buat kebijakan**.

   1. Di tab **JSON**, tambahkan izin EMR Amazon yang memungkinkan akses dan operasi EMR Amazon. Untuk detail tentang dokumen kebijakan, lihat *Daftar kebijakan EMR Amazon* di. [Kebijakan referensi](studio-set-up-emr-permissions-reference.md) Ganti`region`, dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Di panel navigasi kiri, pilih **Peran** dan kemudian **Buat peran**.

   1. Pada halaman **Buat peran**, pilih **Kebijakan kepercayaan khusus** sebagai entitas tepercaya.

   1. Tempel dokumen JSON berikut di bagian **Kebijakan kepercayaan kustom** dan kemudian pilih **Berikutnya**.

------
#### [ For users of Studio and JupyterLab ]

      Ganti `studio-account` dengan ID akun Studio, dan `AmazonSageMaker-ExecutionRole` dengan peran eksekusi yang digunakan oleh JupyterLab spasi Anda.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "AWS": "arn:aws:iam::111122223333:role/service-role/AmazonSageMaker-ExecutionRole"
                  },
                  "Action": "sts:AssumeRole"
              }
          ]
      }
      ```

------

------
#### [ For users of Studio Classic ]

      Ganti `studio-account` dengan ID akun Studio Classic.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Effect": "Allow",
                  "Principal": {
                      "AWS": "arn:aws:iam::111122223333:root"
                  },
                  "Action": "sts:AssumeRole"
              }
          ]
      }
      ```

------

------

   1. Di halaman **Tambahkan izin**, tambahkan izin yang baru saja Anda buat lalu pilih **Berikutnya**.

   1. Pada halaman **Ulasan**, masukkan nama untuk peran seperti `AssumableRole` dan deskripsi opsional.

   1. Tinjau detail peran dan pilih **Buat peran**.

   Untuk informasi selengkapnya tentang membuat peran di AWS akun, lihat [Membuat peran IAM (konsol)](https://docs.aws.amazon.com/IAM/latest/UserGuide/id_roles_create_for-user.html).

**Di akun Studio**

Pada akun tempat Studio digunakan, juga disebut sebagai *akun tepercaya*, perbarui peran eksekusi SageMaker AI yang mengakses kluster Anda dengan izin yang diperlukan untuk mengakses sumber daya di akun kepercayaan.

1. **Langkah 1**: Ambil ARN dari peran eksekusi AI SageMaker yang digunakan oleh ruang pribadi Anda.

   Untuk informasi tentang spasi dan peran eksekusi di SageMaker AI, lihat[Memahami izin ruang domain dan peran eksekusi](execution-roles-and-spaces.md).

   Untuk informasi lebih lanjut tentang cara mengambil ARN SageMaker peran eksekusi AI, lihat. [Dapatkan peran eksekusi Anda](sagemaker-roles.md#sagemaker-roles-get-execution-role)

1. **Langkah 2**: Lampirkan izin berikut ke peran eksekusi SageMaker AI yang mengakses kluster EMR Amazon Anda.

   1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

   1. Pilih **Peran** dan kemudian cari peran eksekusi berdasarkan nama di kolom **Pencarian**. Nama peran adalah bagian terakhir dari ARN, setelah garis miring terakhir (/). 

   1. Ikuti tautan ke peran Anda.

   1. Pilih **Tambahkan izin**, lalu **Buat kebijakan sebaris**.

   1. Di tab **JSON**, tambahkan kebijakan sebaris yang memberikan izin peran untuk memperbarui domain, profil pengguna, dan spasi. Untuk detail tentang dokumen kebijakan, lihat *Kebijakan tindakan pembaruan domain, profil pengguna, dan ruang* di[Kebijakan referensi](studio-set-up-emr-permissions-reference.md). Ganti `region` dan `accountID` dengan nilai aktualnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

   1. Pilih **Berikutnya** dan kemudian berikan **nama Kebijakan**.

   1. Pilih **Buat kebijakan**.

   1. Ulangi langkah **Buat kebijakan sebaris** untuk menambahkan kebijakan lain yang memberikan peran eksekusi izin untuk mengambil alih `AssumableRole` dan kemudian melakukan tindakan yang diizinkan oleh kebijakan akses peran. Ganti `emr-account` dengan ID akun EMR Amazon, dan `AssumableRole` dengan nama peran yang dapat diasumsikan dibuat di akun EMR Amazon.

------
#### [ JSON ]

****  

      ```
      {
          "Version":"2012-10-17",		 	 	 
          "Statement": [
              {
                  "Sid": "AllowRoleAssumptionForCrossAccountDiscovery",
                  "Effect": "Allow",
                  "Action": "sts:AssumeRole",
                  "Resource": [
                      "arn:aws:iam::111122223333:role/AssumableRole"
                  ]
              }
          ]
      }
      ```

------

   1. (Opsional) Untuk mengizinkan pencantuman klaster EMR Amazon yang diterapkan di akun yang sama dengan Studio, tambahkan kebijakan sebaris tambahan ke peran eksekusi Studio Anda seperti yang ditentukan dalam Daftar kebijakan EMR *Amazon* di. [Kebijakan referensi](studio-set-up-emr-permissions-reference.md) 

1. **Langkah 3**: Kaitkan peran yang dapat diasumsikan (peran akses) Anda dengan domain atau profil pengguna Anda. JupyterLabpengguna di Studio dapat menggunakan konsol SageMaker AI atau skrip yang disediakan.

    Pilih tab yang sesuai dengan kasus penggunaan Anda.

------
#### [ Associate your assumable roles in JupyterLab using the SageMaker AI console ]

   Untuk mengaitkan peran yang dapat diasumsikan dengan profil pengguna atau domain Anda menggunakan konsol SageMaker AI:

   1. Arahkan ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

   1. Di panel navigasi kiri, pilih **domain**, lalu pilih domain menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui.

   1. 
      + Untuk menambahkan peran yang dapat diasumsikan (peran akses) ke domain Anda: Di tab **Konfigurasi Aplikasi** pada halaman **detail Domain**, navigasikan ke bagian tersebut **JupyterLab**.
      + Untuk menambahkan peran yang dapat diasumsikan (peran akses) ke profil pengguna: Pada halaman **Detail domain**, pilih tab **Profil pengguna, pilih profil** pengguna menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui. Di tab **Konfigurasi Aplikasi**, arahkan ke **JupyterLab**bagian tersebut.

   1. Pilih **Edit** dan tambahkan peran ARNs yang dapat diasumsikan (peran akses).

   1. Pilih **Kirim**.

------
#### [ Associate your assumable roles in JupyterLab using a Python script ]

    Dalam JupyterLab aplikasi yang dimulai dari ruang menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui, jalankan perintah berikut di terminal. Ganti`domainID`,, `user-profile-name``emr-accountID`, dan `AssumableRole` (`EMRServiceRole`untuk [peran runtime RBAC]()) dengan nilai yang tepat. Cuplikan kode ini memperbarui pengaturan profil pengguna untuk profil pengguna tertentu (penggunaan`client.update_userprofile`) atau pengaturan domain (penggunaan`client.update_domain`) dalam domain SageMaker AI. Secara khusus, ini memungkinkan JupyterLab aplikasi untuk mengambil peran IAM tertentu (`AssumableRole`) untuk menjalankan cluster EMR Amazon dalam akun EMR Amazon.

   ```
   import botocore.session
   import json
   sess = botocore.session.get_session()
   client = sess.create_client('sagemaker')
   
   client.update_userprofile(
   DomainId="domainID", 
   UserProfileName="user-profile-name",
   DefaultUserSettings={
       'JupyterLabAppSettings': {
           'EmrSettings': {
               'AssumableRoleArns': ["arn:aws:iam::emr-accountID:role/AssumableRole"],
               'ExecutionRoleArns': ["arn:aws:iam::emr-accountID:role/EMRServiceRole", 
                                "arn:aws:iam::emr-accountID:role/AnotherServiceRole"]
           }
           
       }
   })
   resp = client.describe_user_profile(DomainId="domainID", UserProfileName=user-profile-name")
   
   resp['CreationTime'] = str(resp['CreationTime'])
   resp['LastModifiedTime'] = str(resp['LastModifiedTime'])
   print(json.dumps(resp, indent=2))
   ```

------
#### [ For users of Studio Classic ]

   Berikan ARN `AssumableRole` untuk peran eksekusi Studio Classic Anda. ARN dimuat oleh server Jupyter saat diluncurkan. *Peran eksekusi yang digunakan oleh Studio mengasumsikan peran lintas akun untuk menemukan dan terhubung ke klaster EMR Amazon di akun kepercayaan.*

   Anda dapat menentukan informasi ini dengan menggunakan skrip Lifecycle Configuration (LCC). Anda dapat melampirkan LCC ke domain Anda atau profil pengguna tertentu. Skrip LCC yang Anda gunakan harus berupa JupyterServer konfigurasi. Untuk informasi selengkapnya tentang cara membuat skrip LCC, lihat [Menggunakan Konfigurasi Siklus Hidup](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc.html) dengan Studio Classic. 

   Berikut ini adalah contoh skrip LCC. Untuk memodifikasi skrip, ganti `AssumableRole` dan `emr-account` dengan nilainya masing-masing. Jumlah akun silang dibatasi hingga lima.

   ```
   # This script creates the file that informs Studio Classic that the role "arn:aws:iam::emr-account:role/AssumableRole" in remote account "emr-account" must be assumed to list and describe Amazon EMR clusters in the remote account.
   
   #!/bin/bash
   
   set -eux
   
   FILE_DIRECTORY="/home/sagemaker-user/.cross-account-configuration-DO_NOT_DELETE"
   FILE_NAME="emr-discovery-iam-role-arns-DO_NOT_DELETE.json"
   FILE="$FILE_DIRECTORY/$FILE_NAME"
   
   mkdir -p $FILE_DIRECTORY
   
   cat > "$FILE" <<- "EOF"
   {
     emr-cross-account1: "arn:aws:iam::emr-cross-account1:role/AssumableRole",
     emr-cross-account2: "arn:aws:iam::emr-cross-account2:role/AssumableRole"
   }
   EOF
   ```

    Setelah LCC berjalan dan file ditulis, server membaca file `/home/sagemaker-user/.cross-account-configuration-DO_NOT_DELETE/emr-discovery-iam-role-arns-DO_NOT_DELETE.json` dan menyimpan ARN lintas akun.

------

Lihat [Daftar kluster EMR Amazon dari Studio atau Studio Classic](discover-emr-clusters.md) untuk mempelajari cara menemukan dan terhubung ke kluster EMR Amazon dari notebook Studio atau Studio Classic.

# Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio
<a name="studio-notebooks-emr-cluster-rbac"></a>

Saat tersambung ke klaster EMR Amazon dari notebook Studio atau Studio Classic, Anda dapat menelusuri daftar peran IAM secara visual, yang dikenal sebagai peran runtime, dan memilihnya dengan cepat. Selanjutnya, semua pekerjaan Apache Spark, Apache Hive, atau Presto yang dibuat dari buku catatan Anda hanya mengakses data dan sumber daya yang diizinkan oleh kebijakan yang dilampirkan pada peran runtime. Selain itu, saat data diakses dari data lake yang dikelola AWS Lake Formation, Anda dapat menerapkan akses tingkat tabel dan tingkat kolom menggunakan kebijakan yang dilampirkan pada peran runtime.

Dengan kemampuan ini, Anda dan rekan tim Anda dapat terhubung ke cluster yang sama, masing-masing menggunakan peran runtime yang dicakup dengan izin yang sesuai dengan tingkat akses individual Anda ke data. Sesi Anda juga terisolasi satu sama lain di cluster bersama. 

Untuk mencoba fitur ini menggunakan Studio Classic, lihat [Menerapkan kontrol akses data berbutir halus dengan dan AWS Lake Formation Amazon EMR dari Amazon](https://aws.amazon.com/blogs/machine-learning/apply-fine-grained-data-access-controls-with-aws-lake-formation-and-amazon-emr-from-amazon-sagemaker-studio/) Studio Classic. SageMaker Posting blog ini membantu Anda mengatur lingkungan demo tempat Anda dapat mencoba menggunakan peran runtime yang telah dikonfigurasi sebelumnya untuk terhubung ke kluster EMR Amazon.

## Prasyarat
<a name="studio-notebooks-emr-cluster-rbac-prereq"></a>

Sebelum Anda memulai, pastikan Anda memenuhi prasyarat berikut:
+ Gunakan Amazon EMR versi 6.9 atau lebih tinggi.
+ **Untuk pengguna Studio Classic**: Gunakan JupyterLab versi 3 dalam konfigurasi aplikasi server Studio Classic Jupyter. Versi ini mendukung koneksi Studio Classic ke cluster EMR Amazon menggunakan peran runtime.

  **Untuk pengguna Studio**: Gunakan versi [gambar SageMaker distribusi](sagemaker-distribution.md) `1.10` atau lebih tinggi.
+ Izinkan penggunaan peran runtime dalam konfigurasi keamanan klaster Anda. Untuk informasi selengkapnya, lihat [Peran waktu proses untuk langkah-langkah EMR Amazon](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html).
+ Buat buku catatan dengan salah satu kernel yang tercantum di[Gambar dan kernel yang didukung untuk terhubung ke kluster EMR Amazon dari Studio atau Studio Classic](studio-emr-user-guide.md#studio-notebooks-emr-cluster-connect-kernels).
+ Pastikan Anda meninjau instruksi [Siapkan Studio untuk menggunakan peran IAM runtime](#studio-notebooks-emr-cluster-iam) untuk mengonfigurasi peran runtime Anda.

## Skenario koneksi lintas akun
<a name="studio-notebooks-emr-cluster-rbac-scen"></a>

Autentikasi peran runtime mendukung berbagai skenario koneksi lintas akun saat data Anda berada di luar akun Studio Anda. Gambar berikut menunjukkan tiga cara berbeda untuk menetapkan klaster EMR Amazon, data, dan bahkan peran eksekusi runtime Amazon EMR antara Studio dan akun data: 

![\[Skenario lintas akun didukung oleh otentikasi peran IAM runtime.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio-emr-rbac-scenarios.png)


Di opsi 1, klaster EMR Amazon dan peran eksekusi runtime Amazon EMR Anda berada di akun data terpisah dari akun Studio. Anda menentukan kebijakan izin peran akses EMR Amazon terpisah (juga disebut sebagai`Assumable role`) yang memberikan izin ke peran eksekusi Studio atau Studio Classic untuk mengambil peran akses Amazon EMR. Peran akses EMR Amazon kemudian memanggil API EMR Amazon `GetClusterSessionCredentials` atas nama peran eksekusi Studio atau Studio Classic Anda, sehingga Anda dapat mengakses klaster.

Di opsi 2, klaster EMR Amazon dan peran eksekusi runtime Amazon EMR Anda ada di akun Studio Anda. Peran eksekusi Studio Anda memiliki izin untuk menggunakan Amazon EMR API `GetClusterSessionCredentials` untuk mendapatkan akses ke klaster Anda. Untuk mengakses bucket Amazon S3, berikan izin akses bucket Amazon S3 peran eksekusi runtime Amazon S3 lintas akun - Anda memberikan izin ini dalam kebijakan bucket Amazon S3 Anda.

Di opsi 3, kluster EMR Amazon Anda ada di akun Studio Anda, dan peran eksekusi runtime Amazon EMR ada di akun data. Peran eksekusi Studio atau Studio Classic Anda memiliki izin untuk menggunakan Amazon EMR API `GetClusterSessionCredentials` untuk mendapatkan akses ke klaster Anda. Tambahkan peran eksekusi runtime Amazon EMR ke dalam konfigurasi peran eksekusi JSON. Kemudian Anda dapat memilih peran di UI saat memilih klaster. Untuk detail tentang cara mengatur file JSON konfigurasi peran eksekusi, lihat[Memuat peran eksekusi Anda ke Studio atau Studio Classic](#studio-notebooks-emr-cluster-iam-preload).

## Siapkan Studio untuk menggunakan peran IAM runtime
<a name="studio-notebooks-emr-cluster-iam"></a>

Untuk membuat otentikasi peran runtime untuk kluster EMR Amazon Anda, konfigurasikan kebijakan IAM, jaringan, dan peningkatan kegunaan yang diperlukan. Penyiapan Anda bergantung pada apakah Anda menangani pengaturan lintas akun jika klaster EMR Amazon, peran eksekusi runtime Amazon EMR, atau keduanya, berada di luar akun Studio Anda. Bagian berikut memandu Anda melalui kebijakan untuk menginstal, cara mengonfigurasi jaringan untuk mengizinkan lalu lintas antar akun, dan file konfigurasi lokal yang akan disiapkan untuk mengotomatiskan koneksi EMR Amazon Anda.

### Konfigurasikan autentikasi peran runtime saat klaster EMR Amazon dan Studio berada di akun yang sama
<a name="studio-notebooks-emr-cluster-iam-same"></a>

Jika klaster EMR Amazon Anda berada di akun Studio Anda, selesaikan langkah-langkah berikut untuk menambahkan izin yang diperlukan ke kebijakan eksekusi Studio Anda:

1. Tambahkan kebijakan IAM yang diperlukan untuk terhubung ke kluster EMR Amazon. Lihat perinciannya di [Konfigurasikan daftar kluster EMR Amazon](studio-notebooks-configure-discoverability-emr-cluster.md).

1. Berikan izin untuk memanggil API EMR Amazon `GetClusterSessionCredentials` saat Anda meneruskan satu atau beberapa peran eksekusi runtime Amazon EMR yang diizinkan yang ditentukan dalam kebijakan.

1. (Opsional) Berikan izin untuk meneruskan peran IAM yang mengikuti konvensi penamaan yang ditentukan pengguna.

1. (Opsional) Berikan izin untuk mengakses kluster EMR Amazon yang ditandai dengan string yang ditentukan pengguna tertentu.

1. Memuat peran IAM Anda terlebih dahulu sehingga Anda dapat memilih peran yang akan digunakan saat Anda terhubung ke klaster EMR Amazon Anda. Untuk detail tentang cara pramuat peran IAM Anda, lihat. [Memuat peran eksekusi Anda ke Studio atau Studio Classic](#studio-notebooks-emr-cluster-iam-preload)

Contoh kebijakan berikut memungkinkan peran eksekusi runtime Amazon EMR milik grup pemodelan dan pelatihan untuk dipanggil. `GetClusterSessionCredentials` Selain itu, pemegang polis dapat mengakses kluster EMR Amazon yang ditandai dengan string atau. `modeling` `training`

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "VisualEditor0",
            "Effect": "Allow",
            "Action": "elasticmapreduce:GetClusterSessionCredentials",
            "Resource": "*",
            "Condition": {
                "ArnLike": {
                    "elasticmapreduce:ExecutionRoleArn": [
                        "arn:aws:iam::111122223333:role/emr-execution-role-ml-modeling*",
                        "arn:aws:iam::111122223333:role/emr-execution-role-ml-training*"
			]},
		"StringLike":{
                    "elasticmapreduce:ResourceTag/group": [
                        "*modeling*",
                        "*training*"
                    ]
                }
            }
        }
    ]
}
```

------

### Konfigurasikan autentikasi peran runtime saat klaster dan Studio Anda berada di akun yang berbeda
<a name="studio-notebooks-emr-cluster-iam-diff"></a>

Jika klaster EMR Amazon Anda tidak ada di akun Studio Anda, izinkan peran eksekusi SageMaker AI Anda untuk mengambil peran akses Amazon EMR lintas akun sehingga Anda dapat terhubung ke cluster. Selesaikan langkah-langkah berikut untuk menyiapkan konfigurasi lintas akun Anda:

1. Buat kebijakan izin peran eksekusi SageMaker AI Anda sehingga peran eksekusi dapat mengambil peran akses EMR Amazon. Kebijakan berikut adalah contoh:

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "AllowAssumeCrossAccountEMRAccessRole",
               "Effect": "Allow",
               "Action": "sts:AssumeRole",
               "Resource": "arn:aws:iam::111122223333:role/emr-access-role-name"
           }
       ]
   }
   ```

------

1. Buat kebijakan kepercayaan untuk menentukan akun Studio mana IDs yang dipercaya untuk mengambil peran akses EMR Amazon. Kebijakan berikut adalah contoh:

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
         {
           "Sid": "AllowCrossAccountSageMakerExecutionRoleToAssumeThisRole",
           "Effect": "Allow",
           "Principal": {
             "AWS": "arn:aws:iam::111122223333:role/studio_execution_role"
           },
           "Action": "sts:AssumeRole"
         }
       ]
   }
   ```

------

1. Buat kebijakan izin peran akses EMR Amazon, yang memberikan peran eksekusi runtime Amazon EMR izin yang diperlukan untuk melaksanakan tugas yang dimaksudkan di cluster. Konfigurasikan peran akses EMR Amazon untuk memanggil API `GetClusterSessionCredentials` dengan peran eksekusi runtime Amazon EMR yang ditentukan dalam kebijakan izin peran akses. Kebijakan berikut adalah contoh:

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "AllowCallingEmrGetClusterSessionCredentialsAPI",
               "Effect": "Allow",
               "Action": "elasticmapreduce:GetClusterSessionCredentials",
               "Resource": "arn:aws:elasticmapreduce:us-east-1:111122223333:cluster/cluster-id",
               "Condition": {
                   "StringLike": {
                       "elasticmapreduce:ExecutionRoleArn": [
                           "arn:aws:iam::111122223333:role/emr-execution-role-name"
                       ]
                   }
               }
           }
       ]
   }
   ```

------

1. Siapkan jaringan lintas akun sehingga lalu lintas dapat bergerak bolak-balik antar akun Anda. Untuk instruksi terpandu, lihat *[Konfigurasikan akses jaringan untuk kluster EMR Amazon Anda](studio-notebooks-emr-networking.md)Mengatur*. Langkah-langkah di bagian ini membantu Anda menyelesaikan tugas-tugas berikut:

   1. VPC-peer akun Studio Anda dan akun EMR Amazon Anda untuk membuat koneksi.

   1. Tambahkan rute secara manual ke tabel rute subnet pribadi di kedua akun. Ini memungkinkan pembuatan dan koneksi cluster EMR Amazon dari akun Studio ke subnet pribadi akun jarak jauh.

   1. Siapkan grup keamanan yang dilampirkan ke domain Studio Anda untuk mengizinkan lalu lintas keluar dan grup keamanan node utama EMR Amazon untuk mengizinkan lalu lintas TCP masuk dari grup keamanan instans Studio.

1. Memuat peran runtime IAM agar Anda dapat memilih peran yang akan digunakan saat terhubung ke klaster EMR Amazon. Untuk detail tentang cara pramuat peran IAM Anda, lihat. [Memuat peran eksekusi Anda ke Studio atau Studio Classic](#studio-notebooks-emr-cluster-iam-preload)

### Konfigurasikan akses Lake Formation
<a name="studio-notebooks-emr-cluster-iam-lf"></a>

Saat mengakses data dari data lake yang dikelola oleh AWS Lake Formation, Anda dapat menerapkan akses tingkat tabel dan tingkat kolom menggunakan kebijakan yang dilampirkan pada peran runtime Anda. Untuk mengonfigurasi izin akses Lake Formation, lihat [Mengintegrasikan Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-lake-formation.html) dengan. AWS Lake Formation

### Memuat peran eksekusi Anda ke Studio atau Studio Classic
<a name="studio-notebooks-emr-cluster-iam-preload"></a>

Anda dapat melakukan pramuat peran runtime IAM sehingga Anda dapat memilih peran yang akan digunakan saat terhubung ke klaster EMR Amazon. Pengguna JupyterLab di Studio dapat menggunakan konsol SageMaker AI atau skrip yang disediakan.

------
#### [ Preload runtime roles in JupyterLab using the SageMaker AI console ]

Untuk mengaitkan peran runtime Anda dengan profil pengguna atau domain Anda menggunakan konsol SageMaker AI:

1. Arahkan ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Di panel navigasi kiri, pilih **domain**, lalu pilih domain menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui.

1. 
   + Untuk menambahkan runtime (dan mengakses peran untuk kasus penggunaan lintas akun) ke domain Anda: Di tab **Konfigurasi Aplikasi** pada halaman **detail Domain**, buka bagian tersebut. **JupyterLab**
   + Untuk menambahkan runtime Anda (dan mengakses peran untuk kasus penggunaan lintas akun) ke profil pengguna Anda: Pada halaman **Detail domain**, pilih tab **Profil pengguna, pilih profil** pengguna menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui. Di tab **Konfigurasi Aplikasi**, arahkan ke **JupyterLab**bagian tersebut.

1. Pilih **Edit** dan tambahkan peran akses Anda (peran yang dapat diasumsikan) dan peran eksekusi runtime EMR Tanpa Server. ARNs 

1. Pilih **Kirim**.

Saat Anda selanjutnya terhubung ke server EMR Amazon, peran runtime akan muncul di menu tarik-turun untuk dipilih.

------
#### [ Preload runtime roles in JupyterLab using a Python script ]

Dalam JupyterLab aplikasi yang dimulai dari ruang menggunakan peran eksekusi SageMaker AI yang izinnya Anda perbarui, jalankan perintah berikut di terminal. Ganti`domainID`,`user-profile-name`,`emr-accountID`, dan `EMRServiceRole` dengan nilai-nilai yang tepat. Cuplikan kode ini memperbarui pengaturan profil pengguna (`client.update_user_profile`) dalam domain SageMaker AI dalam kasus penggunaan lintas akun. Secara khusus, ini menetapkan peran layanan untuk Amazon EMR. Ini juga memungkinkan JupyterLab aplikasi untuk mengambil peran IAM tertentu (`AssumableRole`atau`AccessRole`) untuk menjalankan Amazon EMR dalam akun Amazon EMR.

Atau, gunakan `client.update_domain` untuk memperbarui pengaturan domain jika ruang Anda menggunakan peran eksekusi yang ditetapkan di tingkat domain.

```
import botocore.session
import json
sess = botocore.session.get_session()
client = sess.create_client('sagemaker')

client.update_user_profile(
DomainId="domainID", 
UserProfileName="user-profile-name",
UserSettings={
    'JupyterLabAppSettings': {
        'EmrSettings': {
            'AssumableRoleArns': ["arn:aws:iam::emr-accountID:role/AssumableRole"],
            'ExecutionRoleArns': ["arn:aws:iam::emr-accountID:role/EMRServiceRole", 
                             "arn:aws:iam::emr-accountID:role/AnotherServiceRole"]
        }
        
    }
})
resp = client.describe_user_profile(DomainId="domainID", UserProfileName=user-profile-name")

resp['CreationTime'] = str(resp['CreationTime'])
resp['LastModifiedTime'] = str(resp['LastModifiedTime'])
print(json.dumps(resp, indent=2))
```

------
#### [ Preload runtime roles in Studio Classic ]

Berikan ARN of the `AccessRole` (`AssumableRole`) ke peran eksekusi SageMaker AI Anda. ARN dimuat oleh server Jupyter saat diluncurkan. *Peran eksekusi yang digunakan oleh Studio mengasumsikan peran lintas akun untuk menemukan dan terhubung ke klaster EMR Amazon di akun kepercayaan.*

Anda dapat menentukan informasi ini dengan menggunakan skrip Lifecycle Configuration (LCC). Anda dapat melampirkan LCC ke domain Anda atau profil pengguna tertentu. Skrip LCC yang Anda gunakan harus berupa JupyterServer konfigurasi. Untuk informasi selengkapnya tentang cara membuat skrip LCC, lihat [Menggunakan Konfigurasi Siklus Hidup](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-lcc.html) dengan Studio Classic. 

Berikut ini adalah contoh skrip LCC. Untuk memodifikasi skrip, ganti `AssumableRole` dan `emr-account` dengan nilainya masing-masing. Jumlah akun silang dibatasi hingga lima.

Cuplikan berikut adalah contoh skrip bash LCC yang dapat Anda terapkan jika aplikasi dan klaster Studio Classic Anda berada di akun yang sama:

```
#!/bin/bash

set -eux

FILE_DIRECTORY="/home/sagemaker-user/.sagemaker-analytics-configuration-DO_NOT_DELETE"
FILE_NAME="emr-configurations-DO_NOT_DELETE.json"
FILE="$FILE_DIRECTORY/$FILE_NAME"

mkdir -p $FILE_DIRECTORY

cat << 'EOF' > "$FILE"
{
    "emr-execution-role-arns":
    {
      "123456789012": [
          "arn:aws:iam::123456789012:role/emr-execution-role-1",
          "arn:aws:iam::123456789012:role/emr-execution-role-2"
      ]
    }
}
EOF
```

Jika aplikasi dan klaster Studio Classic Anda berada di akun yang berbeda, tentukan peran akses EMR Amazon yang dapat menggunakan klaster. Dalam contoh kebijakan berikut, *123456789012* adalah ID akun cluster EMR Amazon, *dan 212121212121 *dan** 43434343434343 adalah untuk peran akses EMR Amazon yang diizinkan. ARNs 

```
#!/bin/bash

set -eux

FILE_DIRECTORY="/home/sagemaker-user/.sagemaker-analytics-configuration-DO_NOT_DELETE"
FILE_NAME="emr-configurations-DO_NOT_DELETE.json"
FILE="$FILE_DIRECTORY/$FILE_NAME"

mkdir -p $FILE_DIRECTORY

cat << 'EOF' > "$FILE"
{
    "emr-execution-role-arns":
    {
      "123456789012": [
          "arn:aws:iam::212121212121:role/emr-execution-role-1",
          "arn:aws:iam::434343434343:role/emr-execution-role-2"
      ]
    }
}
EOF

# add your cross-account EMR access role
FILE_DIRECTORY="/home/sagemaker-user/.cross-account-configuration-DO_NOT_DELETE"
FILE_NAME="emr-discovery-iam-role-arns-DO_NOT_DELETE.json"
FILE="$FILE_DIRECTORY/$FILE_NAME"

mkdir -p $FILE_DIRECTORY

cat << 'EOF' > "$FILE"
{
    "123456789012": "arn:aws:iam::123456789012:role/cross-account-emr-access-role"
}
EOF
```

------

# Kebijakan referensi
<a name="studio-set-up-emr-permissions-reference"></a>
+ **Daftar kebijakan EMR Amazon: Kebijakan** ini memungkinkan melakukan tindakan berikut:
  + `AllowPresignedUrl`memungkinkan pembuatan pra-ditandatangani URLs untuk mengakses UI Spark dari dalam Studio.
  + `AllowClusterDiscovery`dan `AllowClusterDetailsDiscovery` memungkinkan daftar dan mendeskripsikan kluster EMR Amazon di wilayah dan akun yang disediakan.

------
#### [ JSON ]

****  

  ```
  {
      "Version":"2012-10-17",		 	 	 
      "Statement": [
          {
              "Sid": "AllowPresignedUrl",
              "Effect": "Allow",
              "Action": [
                  "elasticmapreduce:CreatePersistentAppUI",
                  "elasticmapreduce:DescribePersistentAppUI",
                  "elasticmapreduce:GetPersistentAppUIPresignedURL",
                  "elasticmapreduce:GetOnClusterAppUIPresignedURL"
              ],
              "Resource": [
                  "arn:aws:elasticmapreduce:us-east-1:111122223333:cluster/*"
              ]
          },
          {
              "Sid": "AllowClusterDetailsDiscovery",
              "Effect": "Allow",
              "Action": [
                  "elasticmapreduce:DescribeCluster",
                  "elasticmapreduce:ListInstances",
                  "elasticmapreduce:ListInstanceGroups",
                  "elasticmapreduce:DescribeSecurityConfiguration"
              ],
              "Resource": [
                  "arn:aws:elasticmapreduce:us-east-1:111122223333:cluster/*"
              ]
          },
          {
              "Sid": "AllowClusterDiscovery",
              "Effect": "Allow",
              "Action": [
                  "elasticmapreduce:ListClusters"
              ],
              "Resource": "*"
          }
      ]
  }
  ```

------
+ **Membuat kebijakan klaster EMR Amazon: Kebijakan** ini memungkinkan melakukan tindakan berikut:
  + `AllowEMRTemplateDiscovery`memungkinkan pencarian template Amazon EMR di Service Catalog. Studio dan Studio Classic menggunakan ini untuk menampilkan template yang tersedia.
  + `AllowSagemakerProjectManagement`memungkinkan penciptaan[Apa itu Proyek SageMaker AI?](sagemaker-projects-whatis.md). Di Studio atau Studio Classic, akses ke AWS Service Catalog dikelola melalui[Apa itu Proyek SageMaker AI?](sagemaker-projects-whatis.md).

  Kebijakan IAM yang ditentukan dalam JSON yang disediakan memberikan izin tersebut. Ganti *region* dan *accountID* dengan nilai ID wilayah dan AWS akun Anda yang sebenarnya sebelum menyalin daftar pernyataan ke kebijakan inline peran Anda.

------
#### [ JSON ]

****  

  ```
  {
      "Version":"2012-10-17",		 	 	 
      "Statement": [
          {
              "Sid": "AllowEMRTemplateDiscovery",
              "Effect": "Allow",
              "Action": [
                  "servicecatalog:SearchProducts"
              ],
              "Resource": "*"
          },
          {
              "Sid": "AllowSagemakerProjectManagement",
              "Effect": "Allow",
              "Action": [
                  "sagemaker:CreateProject",
                  "sagemaker:DeleteProject"
              ],
              "Resource": "arn:aws:sagemaker:us-east-1:111122223333:project/*"
          }
      ]
  }
  ```

------
+ **Kebijakan tindakan pembaruan domain, profil pengguna, dan ruang: Kebijakan** berikut memberikan izin untuk memperbarui domain SageMaker AI, profil pengguna, dan spasi dalam wilayah dan akun yang ditentukan. AWS 

------
#### [ JSON ]

****  

  ```
  {
      "Version":"2012-10-17",		 	 	 
      "Statement": [
          {
              "Sid": "SageMakerUpdateResourcesPolicy",
              "Effect": "Allow",
              "Action": [
                  "sagemaker:UpdateDomain",
                  "sagemaker:UpdateUserprofile",
                  "sagemaker:UpdateSpace"
              ],
              "Resource": [
                  "arn:aws:sagemaker:us-east-1:111122223333:domain/*",
                  "arn:aws:sagemaker:us-east-1:111122223333:user-profile/*"
              ]
          }
      ]
  }
  ```

------

# Panduan pengguna
<a name="studio-emr-user-guide"></a>

Bagian ini mencakup cara ilmuwan data dan insinyur data dapat meluncurkan, menemukan, menghubungkan, atau menghentikan klaster EMR Amazon dari Studio atau Studio Classic.

Sebelum pengguna dapat membuat daftar atau meluncurkan cluster, administrator harus telah mengonfigurasi pengaturan yang diperlukan di lingkungan Studio. Untuk informasi tentang cara administrator dapat mengonfigurasi lingkungan Studio agar memungkinkan penyediaan mandiri dan pencantuman klaster EMR Amazon, lihat. [Panduan admin](studio-emr-admin-guide.md)

**Topics**
+ [

## Gambar dan kernel yang didukung untuk terhubung ke kluster EMR Amazon dari Studio atau Studio Classic
](#studio-notebooks-emr-cluster-connect-kernels)
+ [

## Bawa gambar Anda sendiri
](#studio-notebooks-emr-byoi)
+ [

# Luncurkan kluster EMR Amazon dari Studio atau Studio Classic
](studio-notebooks-launch-emr-cluster-from-template.md)
+ [

# Daftar kluster EMR Amazon dari Studio atau Studio Classic
](discover-emr-clusters.md)
+ [

# Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic
](connect-emr-clusters.md)
+ [

# Mengakhiri klaster EMR Amazon dari Studio atau Studio Classic
](terminate-emr-clusters.md)
+ [

# Akses Spark UI dari Studio atau Studio Classic
](studio-notebooks-access-spark-ui.md)

## Gambar dan kernel yang didukung untuk terhubung ke kluster EMR Amazon dari Studio atau Studio Classic
<a name="studio-notebooks-emr-cluster-connect-kernels"></a>

[Gambar dan kernel berikut disertakan [sagemaker-studio-analytics-extension](https://pypi.org/project/sagemaker-studio-analytics-extension/), JupyterLab ekstensi yang terhubung ke cluster Spark jarak jauh (Amazon EMR) melalui [SparkMagic](https://github.com/jupyter-incubator/sparkmagic)perpustakaan menggunakan Apache Livy.](https://livy.apache.org/)
+ **Untuk pengguna Studio:** SageMaker Distribusi adalah lingkungan Docker untuk ilmu data yang digunakan sebagai gambar default instance JupyterLab notebook. Semua versi [Distribusi SageMaker AI](https://github.com/aws/sagemaker-distribution) dilengkapi dengan `sagemaker-studio-analytics-extension` pra-instal.
+ **Untuk pengguna Studio Classic:** Gambar-gambar berikut sudah diinstal sebelumnya dengan`sagemaker-studio-analytics-extension`:
  + DataScience — Kernel Python 3
  + DataScience 2.0 — Kernel Python 3
  + DataScience 3.0 — Kernel Python 3
  + SparkAnalytics 1.0 — SparkMagic dan PySpark kernel
  + SparkAnalytics 2.0 — SparkMagic dan PySpark kernel
  + SparkMagic — SparkMagic dan PySpark kernel
  + PyTorch 1.8 - Python 3 kernel
  + TensorFlow 2.6 — Kernel Python 3
  + TensorFlow 2.11 — Kernel Python 3

Untuk terhubung ke kluster EMR Amazon menggunakan gambar bawaan lain atau gambar Anda sendiri, ikuti instruksi di. [Bawa gambar Anda sendiri](#studio-notebooks-emr-byoi)

## Bawa gambar Anda sendiri
<a name="studio-notebooks-emr-byoi"></a>

Untuk membawa gambar Anda sendiri di Studio atau Studio Classic dan memungkinkan notebook Anda terhubung ke kluster EMR Amazon, instal ekstensi [sagemaker-studio-analytics-extension](https://pypi.org/project/sagemaker-studio-analytics-extension/)berikut ke kernel Anda. Ini mendukung menghubungkan notebook SageMaker Studio atau Studio Classic ke cluster Spark (Amazon EMR) melalui perpustakaan. [SparkMagic](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-studio-magics.html)

```
pip install sparkmagic
pip install sagemaker-studio-sparkmagic-lib
pip install sagemaker-studio-analytics-extension
```

Selain itu, untuk terhubung ke Amazon EMR dengan otentikasi [Kerberos](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-kerberos.html), Anda harus menginstal klien kinit. Tergantung pada OS Anda, perintah untuk menginstal klien kinit dapat bervariasi. Untuk membawa gambar Ubuntu (berbasis Debian), gunakan `apt-get install -y -qq krb5-user` perintah.

Untuk informasi selengkapnya tentang membawa gambar Anda sendiri di SageMaker Studio atau Studio Classic, lihat [Membawa SageMaker gambar Anda sendiri](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-byoi.html).

# Luncurkan kluster EMR Amazon dari Studio atau Studio Classic
<a name="studio-notebooks-launch-emr-cluster-from-template"></a>

Ilmuwan data dan insinyur data dapat menyediakan sendiri klaster EMR Amazon dari Studio atau Studio Classic CloudFormation menggunakan templat yang disiapkan oleh administrator mereka. Sebelum pengguna dapat meluncurkan klaster, administrator harus telah mengonfigurasi pengaturan yang diperlukan di lingkungan Studio. Untuk informasi tentang cara administrator dapat mengonfigurasi lingkungan Studio agar memungkinkan kluster EMR Amazon yang menyediakan sendiri, lihat. [Konfigurasikan CloudFormation template Amazon EMR di Service Catalog](studio-notebooks-set-up-emr-templates.md)

Untuk menyediakan kluster EMR Amazon baru dari Studio atau Studio Classic:

1. Di panel sisi kiri Studio atau Studio Classic UI, pilih simpul **Data** di menu navigasi kiri. Arahkan ke **Cluster EMR Amazon**. Ini membuka halaman yang mencantumkan kluster EMR Amazon yang dapat Anda akses dari Studio atau Studio Classic.

1. Pilih tombol **Create** di pojok kanan atas. Ini membuka modal baru yang mencantumkan template cluster yang tersedia untuk Anda.

1. Pilih template cluster dengan memilih nama template dan kemudian pilih **Berikutnya**.

1. Masukkan detail klaster, seperti nama cluster dan parameter tertentu yang dapat dikonfigurasi yang ditetapkan oleh administrator Anda, lalu pilih **Buat klaster**. Pembuatan cluster mungkin memakan waktu beberapa menit.  
![\[Bentuk pembuatan cluster EMR Amazon dari Studio atau Studio Classic.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/emr/studio-notebooks-emr-cluster-creation.png)

Setelah klaster disediakan, Studio atau Studio Classic UI menampilkan pesan *Kluster telah berhasil dibuat*.

Untuk terhubung ke klaster Anda, lihat [Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic](connect-emr-clusters.md)

# Daftar kluster EMR Amazon dari Studio atau Studio Classic
<a name="discover-emr-clusters"></a>

Ilmuwan data dan insinyur data dapat menemukan, dan kemudian terhubung ke kluster EMR Amazon dari Studio. Cluster EMR Amazon mungkin berada di AWS akun yang sama dengan Studio atau di akun yang berbeda. AWS 

Sebelum pengguna dapat membuat daftar atau terhubung ke cluster, administrator harus telah mengonfigurasi pengaturan yang diperlukan di lingkungan Studio. Untuk informasi tentang cara administrator dapat mengonfigurasi lingkungan Studio agar memungkinkan menemukan klaster EMR Amazon yang sedang berjalan, lihat. [Panduan admin](studio-emr-admin-guide.md) Jika administrator [mengonfigurasi penemuan lintas akun kluster EMR Amazon](studio-notebooks-configure-discoverability-emr-cluster.md), Anda dapat melihat daftar klaster terkonsolidasi. Daftar ini mencakup cluster dari AWS akun yang digunakan oleh Studio serta cluster dari akun jarak jauh yang telah diberikan akses kepada Anda.

Untuk melihat daftar kluster EMR Amazon yang tersedia dari dalam Studio:

1. Di menu navigasi kiri UI Studio, gulir ke bawah ke Cluster **EMR**. Ini membuka halaman yang mencantumkan kluster EMR Amazon yang dapat Anda akses.

   ****Daftar ini menampilkan cluster dalam tahapan berikut: **Bootstrapping**, **Starting** Running, Waiting.**** Anda dapat mempersempit cluster yang ditampilkan berdasarkan statusnya saat ini menggunakan ikon filter. 

1. Pilih cluster **Running** tertentu yang ingin Anda sambungkan, lalu lihat[Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic](connect-emr-clusters.md).

# Connect ke kluster EMR Amazon dari SageMaker Studio atau Studio Classic
<a name="connect-emr-clusters"></a>

Ilmuwan data dan insinyur data dapat menemukan dan kemudian terhubung ke cluster EMR Amazon langsung dari antarmuka pengguna Studio. Sebelum memulai, pastikan bahwa Anda telah mengonfigurasi izin yang diperlukan seperti yang dijelaskan di [Langkah 4: Siapkan izin untuk mengaktifkan daftar dan meluncurkan kluster EMR Amazon dari Studio](studio-notebooks-set-up-emr-templates.md#studio-emr-permissions) bagian. Izin ini memberi Studio kemampuan untuk membuat, memulai, melihat, mengakses, dan menghentikan cluster.

Anda dapat menghubungkan kluster EMR Amazon ke JupyterLab notebook baru langsung dari UI Studio, atau memilih untuk memulai koneksi di buku catatan aplikasi yang sedang berjalan. JupyterLab 

**penting**  
Anda hanya dapat menemukan dan terhubung ke cluster EMR Amazon untuk JupyterLab dan aplikasi Studio Classic yang diluncurkan dari ruang pribadi. Pastikan bahwa kluster EMR Amazon berada di AWS wilayah yang sama dengan lingkungan Studio Anda. JupyterLab Ruang Anda harus menggunakan versi gambar SageMaker Distribusi `1.10` atau lebih tinggi.

## Connect ke kluster EMR Amazon menggunakan UI Studio
<a name="connect-emr-clusters-ui-options"></a>

Untuk menyambung ke klaster menggunakan UI Studio atau Studio Classic, Anda dapat memulai koneksi dari daftar kluster yang diakses[Daftar kluster EMR Amazon dari Studio atau Studio Classic](discover-emr-clusters.md), atau dari buku catatan di SageMaker Studio atau Studio Classic.

**Untuk menghubungkan kluster EMR Amazon ke JupyterLab notebook baru dari UI Studio:**

1. Di panel sisi kiri Studio UI, pilih simpul **Data** di menu navigasi kiri. Arahkan ke **aplikasi dan cluster Amazon EMR**. Ini membuka halaman yang mencantumkan kluster EMR Amazon yang dapat Anda akses dari Studio di tab kluster **EMR** Amazon.
**catatan**  
Jika Anda atau administrator telah mengonfigurasi izin untuk mengizinkan akses lintas akun ke kluster EMR Amazon, Anda dapat melihat daftar cluster gabungan di semua akun yang telah Anda berikan akses ke Studio.

1. Pilih klaster EMR Amazon yang ingin Anda sambungkan ke notebook baru, lalu pilih **Lampirkan ke** notebook. Ini membuka jendela modal yang menampilkan daftar JupyterLab spasi Anda.

1. 
   + Pilih ruang dari mana Anda ingin meluncurkan JupyterLab aplikasi, dan kemudian pilih **Buka notebook**. Ini meluncurkan JupyterLab aplikasi dari ruang yang Anda pilih dan membuka notebook baru.
**catatan**  
Pengguna Studio Classic perlu memilih gambar dan kernel. Untuk daftar gambar yang didukung, lihat [Gambar dan kernel yang didukung untuk terhubung ke kluster EMR Amazon dari Studio atau Studio Classic](studio-emr-user-guide.md#studio-notebooks-emr-cluster-connect-kernels) atau lihat[Bawa gambar Anda sendiri](studio-emr-user-guide.md#studio-notebooks-emr-byoi).
   + Atau, Anda dapat membuat ruang pribadi baru dengan memilih tombol **Buat ruang baru** di bagian atas jendela modal. Masukkan nama untuk ruang Anda dan kemudian pilih **Buat ruang dan buka buku catatan**. Ini menciptakan ruang pribadi dengan jenis instans default dan gambar SageMaker distribusi terbaru yang tersedia, meluncurkan JupyterLab aplikasi, dan membuka buku catatan baru.

1. Jika klaster yang Anda pilih tidak menggunakan otentikasi [peran Kerberos, LDAP, atau runtime](), Studio akan meminta Anda untuk memilih jenis kredensialnya. Pilih dari **otentikasi dasar Http** atau **No credentials**, lalu masukkan kredensialnya, jika berlaku.

   Jika klaster yang Anda pilih mendukung peran runtime, pilih nama peran IAM yang dapat diasumsikan oleh klaster EMR Amazon Anda untuk menjalankan pekerjaan. 
**penting**  
Agar berhasil menghubungkan JupyterLab notebook ke klaster EMR Amazon yang mendukung peran runtime, Anda harus terlebih dahulu mengaitkan daftar peran runtime dengan domain atau profil pengguna, seperti yang diuraikan dalam. [Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio](studio-notebooks-emr-cluster-rbac.md) Gagal menyelesaikan langkah ini akan mencegah Anda membuat koneksi. 

   Setelah dipilih, perintah koneksi mengisi sel pertama notebook Anda dan memulai koneksi dengan cluster EMR Amazon.

   Setelah koneksi berhasil, sebuah pesan mengkonfirmasi koneksi dan dimulainya aplikasi Spark.

**Atau, Anda dapat terhubung ke cluster dari notebook JupyterLab atau Studio Classic.**

1. Pilih tombol **Cluster** di bagian atas notebook Anda. Ini membuka jendela modal yang mencantumkan kluster EMR Amazon dalam `Running` keadaan yang dapat Anda akses. Anda dapat melihat kluster EMR `Running` Amazon di tab kluster **EMR** Amazon.
**catatan**  
Untuk pengguna Studio Classic, **Cluster** hanya terlihat ketika Anda menggunakan kernel dari [Gambar dan kernel yang didukung untuk terhubung ke kluster EMR Amazon dari Studio atau Studio Classic](studio-emr-user-guide.md#studio-notebooks-emr-cluster-connect-kernels) atau dari[Bawa gambar Anda sendiri](studio-emr-user-guide.md#studio-notebooks-emr-byoi). Jika Anda tidak dapat melihat **Cluster** di bagian atas buku catatan Anda, pastikan administrator Anda telah [mengonfigurasi kemampuan untuk dapat ditemukan klaster Anda](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-notebooks-configure-discoverability-emr-cluster.html) dan beralih ke kernel yang didukung.

1. Pilih cluster yang ingin Anda sambungkan, lalu pilih **Connect**.

1. Jika Anda mengonfigurasi kluster EMR Amazon untuk mendukung peran [IAM runtime, Anda dapat memilih peran](studio-notebooks-emr-cluster-rbac.md) Anda dari menu tarik-turun peran eksekusi **EMR** Amazon. 
**penting**  
Agar berhasil menghubungkan JupyterLab notebook ke klaster EMR Amazon yang mendukung peran runtime, Anda harus terlebih dahulu mengaitkan daftar peran runtime dengan domain atau profil pengguna, seperti yang diuraikan dalam. [Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio](studio-notebooks-emr-cluster-rbac.md) Gagal menyelesaikan langkah ini akan mencegah Anda membuat koneksi. 

   Jika tidak, jika cluster yang Anda pilih tidak menggunakan Kerberos, LDAP, atau otentikasi peran runtime, Studio atau Studio Classic meminta Anda untuk memilih jenis kredensialnya. Anda dapat memilih **otentikasi dasar HTTP** atau **No credential**.

1. Studio menambahkan dan kemudian menjalankan blok kode ke sel aktif untuk membuat koneksi. Sel ini berisi perintah ajaib koneksi untuk menghubungkan notebook Anda ke aplikasi Anda sesuai dengan jenis otentikasi Anda.

   Setelah koneksi berhasil, sebuah pesan mengkonfirmasi koneksi dan dimulainya aplikasi Spark.

## Sambungkan ke kluster EMR Amazon menggunakan perintah koneksi
<a name="connect-emr-clusters-manually"></a>

Untuk membuat koneksi ke kluster EMR Amazon, Anda dapat menjalankan perintah koneksi dalam sel notebook.

Saat membuat koneksi, Anda dapat mengautentikasi menggunakan [Kerberos](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-kerberos.html), [Protokol Akses Direktori Ringan (LDAP)](https://docs.aws.amazon.com/), atau otentikasi peran IAM [runtime](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-notebooks-emr-cluster-rbac.html). Metode otentikasi yang Anda pilih bergantung pada konfigurasi cluster Anda. 

Anda dapat merujuk ke contoh ini [Akses Apache Livy menggunakan Network Load Balancer pada kluster Amazon EMR berkemampuan KerberOS untuk menyiapkan kluster EMR Amazon](https://aws.amazon.com/blogs/big-data/access-apache-livy-using-a-network-load-balancer-on-a-kerberos-enabled-amazon-emr-cluster/) yang menggunakan otentikasi Kerberos. [Atau, Anda dapat menjelajahi CloudFormation contoh templat menggunakan otentikasi Kerberos atau LDAP di aws-samples/repositori. sagemaker-studio-emr](https://github.com/aws-samples/sagemaker-studio-emr/tree/main/cloudformation/getting_started) GitHub 

Jika administrator telah mengaktifkan akses lintas akun, Anda dapat menyambung ke klaster EMR Amazon dari notebook Studio Classic, terlepas dari apakah aplikasi dan klaster Studio Classic berada di akun AWS yang sama atau akun yang berbeda.

Untuk setiap jenis autentikasi berikut, gunakan perintah yang ditentukan untuk menyambung ke klaster Anda dari notebook Studio atau Studio Classic Anda.
+ **Kerberos**

  Tambahkan `--assumable-role-arn` argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan `--verify-certificate` argumen jika Anda terhubung ke cluster Anda dengan HTTPS.

  ```
  %load_ext sagemaker_studio_analytics_extension.magics
  %sm_analytics emr connect --cluster-id cluster_id \
  --auth-type Kerberos --language python 
  [--assumable-role-arn EMR_access_role_ARN ] 
  [--verify-certificate /home/user/certificateKey.pem]
  ```
+ **LDAP**

  Tambahkan `--assumable-role-arn` argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan `--verify-certificate` argumen jika Anda terhubung ke cluster Anda dengan HTTPS.

  ```
  %load_ext sagemaker_studio_analytics_extension.magics
  %sm_analytics emr connect --cluster-id cluster_id \
  --auth-type Basic_Access --language python 
  [--assumable-role-arn EMR_access_role_ARN ]
  [--verify-certificate /home/user/certificateKey.pem]
  ```
+ **NoAuth**

  Tambahkan `--assumable-role-arn` argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan `--verify-certificate` argumen jika Anda terhubung ke cluster Anda dengan HTTPS.

  ```
  %load_ext sagemaker_studio_analytics_extension.magics
  %sm_analytics emr connect --cluster-id cluster_id \
  --auth-type None --language python
  [--assumable-role-arn EMR_access_role_ARN ]
  [--verify-certificate /home/user/certificateKey.pem]
  ```
+ **Peran IAM runtime**

  Tambahkan `--assumable-role-arn` argumen jika Anda memerlukan akses EMR Amazon lintas akun. Tambahkan `--verify-certificate` argumen jika Anda terhubung ke cluster Anda dengan HTTPS. 

  Untuk informasi selengkapnya tentang menghubungkan ke klaster EMR Amazon menggunakan peran IAM runtime, lihat. [Konfigurasikan peran runtime IAM untuk akses kluster Amazon EMR di Studio](studio-notebooks-emr-cluster-rbac.md)

  ```
  %load_ext sagemaker_studio_analytics_extension.magics
  %sm_analytics emr connect --cluster-id cluster_id \
  --auth-type Basic_Access \
  --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name
  [--assumable-role-arn EMR_access_role_ARN]
  [--verify-certificate /home/user/certificateKey.pem]
  ```

## Connect ke kluster EMR Amazon melalui HTTPS
<a name="connect-emr-clusters-ssl"></a>

Jika Anda telah mengonfigurasi klaster EMR Amazon Anda dengan enkripsi transit diaktifkan dan server Apache Livy untuk HTTPS dan ingin Studio atau Studio Classic berkomunikasi dengan Amazon EMR menggunakan HTTPS, Anda perlu mengonfigurasi Studio atau Studio Classic untuk mengakses kunci sertifikat Anda.

Untuk sertifikat yang ditandatangani sendiri atau ditandatangani oleh Otoritas Sertifikat lokal (CA), Anda dapat melakukannya dalam dua langkah:

1. Unduh file PEM sertifikat Anda ke sistem file lokal Anda menggunakan salah satu opsi berikut:
   + Fungsi unggah file bawaan Jupyter.
   + Sebuah sel notebook.
   + (Hanya untuk pengguna Studio Classic) Skrip konfigurasi siklus hidup (LCC).

     Untuk informasi tentang cara menggunakan skrip LCC, lihat [Menyesuaikan Instans Notebook Menggunakan Skrip Konfigurasi Siklus Hidup](https://docs.aws.amazon.com/sagemaker/latest/dg/notebook-lifecycle-config.html)

1. Aktifkan validasi sertifikat dengan memberikan jalur ke sertifikat Anda dalam `--verify-certificate` argumen perintah koneksi Anda.

   ```
   %sm_analytics emr connect --cluster-id cluster_id \
   --verify-certificate /home/user/certificateKey.pem ...
   ```

Untuk sertifikat yang diterbitkan CA publik, tetapkan validasi sertifikat dengan menetapkan `--verify-certificate` parameter sebagai`true`.

Atau, Anda dapat menonaktifkan validasi sertifikat dengan menetapkan `--verify-certificate` parameter sebagai`false`.

Anda dapat menemukan daftar perintah koneksi yang tersedia ke cluster EMR Amazon di. [Sambungkan ke kluster EMR Amazon menggunakan perintah koneksi](#connect-emr-clusters-manually)

# Mengakhiri klaster EMR Amazon dari Studio atau Studio Classic
<a name="terminate-emr-clusters"></a>

Prosedur berikut menunjukkan cara menghentikan klaster EMR Amazon dari notebook Studio atau Studio Classic.

**Untuk mengakhiri klaster dalam `Running` status, navigasikan ke daftar kluster EMR Amazon yang tersedia.**

1. Di UI Studio, gulir ke bawah ke node **Data** di menu navigasi kiri.

1. Arahkan ke simpul **EMR Clusters**. Ini membuka halaman yang mencantumkan kluster EMR Amazon yang dapat Anda akses.

1. Pilih nama cluster yang ingin Anda akhiri, lalu pilih **Terminate**.

1. Ini membuka jendela konfirmasi yang memberi tahu Anda bahwa pekerjaan atau data yang tertunda di klaster Anda akan hilang secara permanen setelah penghentian. Konfirmasikan dengan memilih **Hentikan** lagi.

# Akses Spark UI dari Studio atau Studio Classic
<a name="studio-notebooks-access-spark-ui"></a>

Bagian berikut memberikan instruksi untuk mengakses Spark UI dari notebook SageMaker AI Studio atau Studio Classic. UI Spark memungkinkan Anda memantau dan men-debug Pekerjaan Spark yang dikirimkan untuk berjalan di Amazon EMR dari notebook Studio atau Studio Classic. Tunneling SSH dan presigned URLs adalah dua cara untuk mengakses UI Spark.

## Siapkan tunneling SSH untuk akses Spark UI
<a name="studio-notebooks-emr-ssh-tunneling"></a>

Untuk mengatur tunneling SSH untuk mengakses UI Spark, ikuti salah satu dari dua opsi di bagian ini.

Opsi untuk mengatur terowongan SSH:
+ [Opsi 1: Siapkan terowongan SSH ke node master menggunakan penerusan port lokal](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-ssh-tunnel-local.html)
+ [Opsi 2, bagian 1: Siapkan terowongan SSH ke master node menggunakan penerusan port dinamis](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-ssh-tunnel.html)

  [Opsi 2, bagian 2: Konfigurasikan pengaturan proxy untuk melihat situs web yang dihosting di master node](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-connect-master-node-proxy.html)

Untuk informasi tentang melihat antarmuka web yang dihosting di kluster EMR Amazon, [lihat Melihat antarmuka web yang dihosting di Cluster EMR Amazon](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-web-interfaces.html). Anda juga dapat mengunjungi konsol EMR Amazon Anda untuk mendapatkan akses ke UI Spark.

**catatan**  
Anda dapat mengatur terowongan SSH meskipun presigned tidak URLs tersedia untuk Anda. 

## Ditandatangani URLs
<a name="studio-notebooks-emr-spark-ui-presigned-urls"></a>

Untuk membuat satu klik URLs yang dapat mengakses Spark UI di Amazon EMR dari notebook SageMaker Studio atau Studio Classic, Anda harus mengaktifkan izin IAM berikut. Pilih opsi yang berlaku untuk Anda: 
+ **Untuk klaster EMR Amazon yang berada di akun yang sama dengan notebook SageMaker Studio atau Studio Classic: Tambahkan izin berikut ke peran eksekusi IAM SageMaker Studio atau Studio Classic.**
+ **Untuk klaster EMR Amazon yang berada di akun berbeda (bukan notebook SageMaker Studio atau Studio Classic): Tambahkan izin berikut ke peran lintas akun yang Anda buat. [Daftar kluster EMR Amazon dari Studio atau Studio Classic](discover-emr-clusters.md)**

**catatan**  
Anda dapat mengakses presigned URLs dari konsol di wilayah berikut:  
Wilayah AS Timur (Virginia Utara)
Wilayah AS Barat (California Utara)
Wilayah Kanada (Pusat)
Wilayah Eropa (Frankfurt)
Wilayah Eropa (Stockholm)
Wilayah Eropa (Irlandia)
Wilayah Eropa (London)
Wilayah Eropa (Paris)
Wilayah Asia Pacific (Tokyo) 
Wilayah Asia Pasifik (Seoul)
Wilayah Asia Pasifik (Sydney)
Wilayah Asia Pasifik (Mumbai)
Wilayah Asia Pasifik (Singapura)
Amerika Selatan (Sao Paulo)

 Kebijakan berikut memberikan akses ke presigned URLs untuk peran eksekusi Anda. 

```
{
        "Sid": "AllowPresignedUrl",
        "Effect": "Allow",
        "Action": [
            "elasticmapreduce:DescribeCluster",
            "elasticmapreduce:ListInstanceGroups",
            "elasticmapreduce:CreatePersistentAppUI",
            "elasticmapreduce:DescribePersistentAppUI",
            "elasticmapreduce:GetPersistentAppUIPresignedURL",
            "elasticmapreduce:GetOnClusterAppUIPresignedURL"
        ],
        "Resource": [
            "arn:aws:elasticmapreduce:region:account-id:cluster/*"
        ]
}
```

# Blog dan whitepaper
<a name="studio-notebooks-emr-resources"></a>

Blog berikut menggunakan studi kasus prediksi sentimen untuk tinjauan film untuk menggambarkan proses pelaksanaan alur kerja pembelajaran mesin yang lengkap. Ini termasuk persiapan data, pemantauan pekerjaan Spark, dan pelatihan serta penerapan model ML untuk mendapatkan prediksi langsung dari notebook Studio atau Studio Classic Anda.
+ [Buat dan kelola kluster EMR Amazon dari SageMaker Studio atau Studio Classic untuk menjalankan beban kerja Spark dan ML interaktif](https://aws.amazon.com/blogs/machine-learning/part-1-create-and-manage-amazon-emr-clusters-from-sagemaker-studio-to-run-interactive-spark-and-ml-workloads/).
+ Untuk memperluas kasus penggunaan ke konfigurasi lintas akun di mana SageMaker Studio atau Studio Classic dan klaster EMR Amazon Anda digunakan di akun AWS terpisah, [lihat Membuat dan mengelola klaster EMR Amazon SageMaker dari Studio atau Studio Classic untuk menjalankan beban kerja Spark dan ML interaktif](https://aws.amazon.com/blogs/machine-learning/part-2-create-and-manage-amazon-emr-clusters-from-sagemaker-studio-to-run-interactive-spark-and-ml-workloads/) - Bagian 2.

Lihat juga: 
+ Panduan konfigurasi [Access Apache Livy menggunakan Network Load Balancer pada kluster Amazon EMR berkemampuan KerberOS](https://aws.amazon.com/blogs/big-data/access-apache-livy-using-a-network-load-balancer-on-a-kerberos-enabled-amazon-emr-cluster/).
+ AWS whitepaper untuk praktik [terbaik SageMaker Studio atau Studio Classic](https://docs.aws.amazon.com/whitepapers/latest/sagemaker-studio-admin-best-practices/sagemaker-studio-admin-best-practices.html).

# Pemecahan masalah
<a name="studio-notebooks-emr-troubleshooting"></a>

Saat bekerja dengan kluster EMR Amazon dari notebook Studio atau Studio Classic, Anda mungkin mengalami berbagai masalah atau tantangan potensial selama proses koneksi atau penggunaan. Untuk membantu Anda memecahkan masalah dan mengatasi kesalahan ini, bagian ini memberikan panduan tentang masalah umum yang dapat muncul. 

Berikut ini adalah kesalahan umum yang mungkin terjadi saat menghubungkan atau menggunakan kluster EMR Amazon dari notebook Studio atau Studio Classic.

## Memecahkan masalah koneksi Livy yang macet atau gagal
<a name="studio-notebooks-emr-troubleshooting.memoryerror"></a>

Berikut ini adalah masalah konektivitas Livy yang mungkin terjadi saat menggunakan kluster EMR Amazon dari notebook Studio atau Studio Classic.
+ **Kluster EMR Amazon Anda mengalami kesalahan out-of-memory.**

  Alasan yang mungkin untuk koneksi Livy melalui `sparkmagic` hang atau kegagalan adalah jika kluster EMR Amazon Anda mengalami kesalahan. out-of-memory 

  Secara default, parameter konfigurasi Java dari driver Apache Spark,`spark.driver.defaultJavaOptions`, diatur ke. `-XX:OnOutOfMemoryError='kill -9 %p'` Ini berarti bahwa tindakan default yang diambil ketika program driver bertemu `OutOfMemoryError` adalah untuk menghentikan program driver dengan mengirimkan sinyal SIGKILL. Ketika driver Apache Spark dihentikan, koneksi Livy apa pun melalui `sparkmagic` itu tergantung pada driver tersebut hang atau gagal. Ini karena driver Spark bertanggung jawab untuk mengelola sumber daya aplikasi Spark, termasuk penjadwalan tugas dan eksekusi. Tanpa driver, aplikasi Spark tidak dapat berfungsi, dan setiap upaya untuk berinteraksi dengannya gagal.

  Jika Anda mencurigai klaster Spark Anda mengalami masalah memori, Anda dapat memeriksa log [EMR Amazon](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-manage-view-web-log-files.html). Kontainer mati karena out-of-memory kesalahan biasanya keluar dengan kode`137`. Dalam kasus seperti itu, Anda perlu me-restart aplikasi Spark dan membuat koneksi Livy baru untuk melanjutkan interaksi dengan cluster Spark.

  Anda dapat merujuk ke artikel basis pengetahuan [Bagaimana cara mengatasi kesalahan “Wadah yang dibunuh oleh YARN karena melebihi batas memori” di Spark on Amazon EMR](https://repost.aws/knowledge-center/emr-spark-yarn-memory-limit)? AWS re:Post untuk mempelajari berbagai strategi dan parameter yang dapat digunakan untuk mengatasi suatu out-of-memory masalah.

  Sebaiknya tinjau Panduan Praktik Terbaik [EMR Amazon untuk praktik terbaik](https://aws.github.io/aws-emr-best-practices/) dan panduan penyetelan dalam menjalankan beban kerja Apache Spark di kluster EMR Amazon Anda.
+ **Waktu sesi Livy Anda habis saat menghubungkan ke cluster EMR Amazon untuk pertama kalinya.**

  Saat Anda awalnya terhubung ke kluster EMR Amazon menggunakan [sagemaker-studio-analytics-extension](https://pypi.org/project/sagemaker-studio-analytics-extension/), yang memungkinkan koneksi ke cluster Spark (Amazon EMR) jarak jauh melalui [SparkMagic](https://github.com/jupyter-incubator/sparkmagic)pustaka menggunakan [Apache Livy](https://livy.apache.org/), Anda mungkin mengalami kesalahan batas waktu koneksi:

  `An error was encountered: Session 0 did not start up in 60 seconds.`

  Jika klaster EMR Amazon Anda memerlukan inisialisasi aplikasi Spark saat membuat koneksi, ada kemungkinan lebih besar untuk melihat kesalahan batas waktu koneksi.

  Untuk mengurangi kemungkinan mendapatkan batas waktu saat menghubungkan ke kluster EMR Amazon menggunakan Livy melalui ekstensi analitik`sagemaker-studio-analytics-extension`, `0.0.19` versi dan yang lebih baru mengganti batas waktu sesi server default `120` ke detik, bukan `sparkmagic` default detik. `60`

  Kami merekomendasikan untuk memutakhirkan ekstensi Anda `0.0.18` dan lebih cepat dengan menjalankan perintah pemutakhiran berikut.

  ```
  pip install --upgrade sagemaker-studio-analytics-extension
  ```

  Perhatikan bahwa saat menyediakan konfigurasi batas waktu khusus di`sparkmagic`, `sagemaker-studio-analytics-extension` menghormati penggantian ini. Namun, menyetel batas waktu sesi ke `60` detik secara otomatis memicu batas waktu sesi server default dalam hitungan detik. `120` `sagemaker-studio-analytics-extension`

# Persiapan data menggunakan sesi AWS Glue interaktif
<a name="studio-notebooks-glue"></a>

[AWS Glue sesi interaktif](https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions-overview.html) adalah layanan tanpa server yang dapat Anda daftarkan untuk mengumpulkan, mengubah, membersihkan, dan menyiapkan data untuk penyimpanan di danau data dan jalur data Anda. AWS Glue sesi interaktif menyediakan lingkungan runtime Apache Spark tanpa server sesuai permintaan yang dapat Anda inisialisasi dalam hitungan detik pada Unit Pemrosesan Data (DPU) khusus tanpa harus menyediakan dan mengelola infrastruktur cluster komputasi yang kompleks. Setelah inisialisasi, Anda dapat menelusuri katalog AWS Glue data, menjalankan kueri besar, mengakses data yang diatur oleh AWS Lake Formation, dan menganalisis dan menyiapkan data secara interaktif menggunakan Spark, langsung di notebook Studio atau Studio Classic Anda. Anda kemudian dapat menggunakan data yang disiapkan untuk melatih, menyetel, dan menerapkan model menggunakan alat ML yang dibuat khusus dalam SageMaker Studio atau Studio Classic. Anda harus mempertimbangkan Sesi AWS Glue Interaktif untuk beban kerja persiapan data Anda ketika Anda menginginkan layanan Spark tanpa server dengan kontrol konfigurasi dan fleksibilitas yang moderat.

Anda dapat memulai sesi AWS Glue interaktif dengan memulai JupyterLab buku catatan di Studio atau Studio Classic. Saat memulai notebook Anda, pilih built-in `Glue PySpark and Ray` atau `Glue Spark` kernel. Ini secara otomatis memulai sesi Spark interaktif tanpa server. Anda tidak perlu menyediakan atau mengelola klaster atau infrastruktur komputasi apa pun. Setelah inisialisasi, Anda dapat menjelajahi dan berinteraksi dengan data Anda dari dalam notebook Studio atau Studio Classic Anda.

Sebelum memulai sesi AWS Glue interaktif Anda di Studio atau Studio Classic, Anda perlu menetapkan peran dan kebijakan yang sesuai. Selain itu, Anda mungkin perlu menyediakan akses ke sumber daya tambahan, seperti bucket Amazon S3 penyimpanan. Untuk informasi selengkapnya tentang kebijakan IAM yang diperlukan, lihat[Izin untuk sesi AWS Glue interaktif di Studio atau Studio Classic](getting-started-glue-sm.md#glue-sm-iam).

Studio dan Studio Classic menyediakan konfigurasi default untuk sesi AWS Glue interaktif Anda, namun, Anda dapat menggunakan AWS Glue katalog lengkap perintah ajaib Jupyter untuk lebih menyesuaikan lingkungan Anda. Untuk informasi tentang sihir Jupyter default dan tambahan yang dapat Anda gunakan dalam sesi AWS Glue interaktif Anda, lihat. [Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic](getting-started-glue-sm.md#glue-sm-magics)
+ Untuk pengguna Studio Classic yang memulai sesi AWS Glue interaktif, mereka dapat memilih dari gambar dan kernel berikut:
  + Gambar:`SparkAnalytics 1.0`, `SparkAnalytics 2.0`
  + Kernel: `Glue Python [PySpark and Ray]` dan `Glue Spark`
+ Untuk pengguna Studio, gunakan [gambar SageMaker Distribusi](https://github.com/aws/sagemaker-distribution) default dan pilih `Glue Spark` kernel `Glue Python [PySpark and Ray]` atau.

# Memulai Sesi AWS Glue Interaktif
<a name="getting-started-glue-sm"></a>

Dalam panduan ini, Anda mempelajari cara memulai sesi AWS Glue interaktif di SageMaker AI Studio Classic, dan mengelola lingkungan Anda dengan sihir Jupyter.

## Izin untuk sesi AWS Glue interaktif di Studio atau Studio Classic
<a name="glue-sm-iam"></a>

Bagian ini mencantumkan kebijakan yang diperlukan untuk menjalankan sesi AWS Glue interaktif di Studio atau Studio Classic dan menjelaskan cara mengaturnya. Secara khusus, ini merinci cara:
+ Lampirkan kebijakan `AwsGlueSessionUserRestrictedServiceRole` terkelola ke peran eksekusi SageMaker AI Anda.
+ Buat kebijakan kustom inline pada peran eksekusi SageMaker AI Anda.
+ Ubah hubungan kepercayaan peran eksekusi SageMaker AI Anda.

**Untuk melampirkan kebijakan `AwsGlueSessionUserRestrictedServiceRole` terkelola ke peran eksekusi Anda**

1. Buka [konsol IAM](https://console.aws.amazon.com/iam/).

1. Pilih **Peran** di panel sisi kiri.

1. Temukan peran eksekusi Studio Classic yang digunakan oleh profil pengguna Anda. Untuk informasi tentang cara melihat profil pengguna, lihat[Melihat profil pengguna di domain](domain-user-profile-view.md).

1. Pilih nama peran Anda untuk mengakses halaman ringkasan peran.

1. Di bawah tab **Izin**, pilih **Lampirkan kebijakan** dari menu tarik-turun **Tambahkan Izin**.

1. Pilih kotak centang di samping kebijakan `AwsGlueSessionUserRestrictedServiceRole` terkelola.

1. Pilih **Lampirkan kebijakan**. 

   Halaman ringkasan menampilkan kebijakan terkelola yang baru ditambahkan.

   

**Untuk membuat kebijakan kustom inline pada peran eksekusi Anda**

1. Pilih **Buat kebijakan sebaris** di menu tarik-turun **Tambahkan Izin**.

1. Pilih tab **JSON**.

1. Salin dan tempel dalam kebijakan berikut.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "uniqueStatementId",
   
               "Effect": "Allow",
               "Action": [
   	     "iam:GetRole",
                   "iam:PassRole",
                   "sts:GetCallerIdentity"
               ],
               "Resource": "arn:aws:iam::*:role/GlueServiceRole*"
           }
       ]
   }
   ```

------

1. Pilih **Tinjau kebijakan**.

1. Masukkan **Nama** dan pilih **Buat kebijakan**. 

   Halaman ringkasan menunjukkan kebijakan kustom Anda yang baru ditambahkan.

   

**Untuk mengubah hubungan kepercayaan dari peran eksekusi Anda**

1. Pilih tab **Trust relationship**.

1. Pilih **Edit kebijakan kepercayaan**.

1. Salin dan tempel dalam kebijakan berikut.

------
#### [ JSON ]

****  

   ```
   {
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
           "Effect": "Allow",
           "Principal": {
               "Service": [
                   "glue.amazonaws.com",
                   "sagemaker.amazonaws.com"
               ]
           },
           "Action": "sts:AssumeRole"
       }
   ]
   }
   ```

------

1. Pilih **Perbarui kebijakan**.

Anda dapat menambahkan peran dan kebijakan tambahan jika Anda perlu mengakses AWS sumber daya lain. Untuk deskripsi peran dan kebijakan tambahan yang dapat Anda sertakan, lihat [sesi interaktif dengan IAM](https://docs.aws.amazon.com/glue/latest/dg/glue-is-security.html) dalam AWS Glue dokumentasi.

## Perbanyakan tag
<a name="glue-sm-tag-propagation"></a>

Tag biasanya digunakan untuk melacak dan mengalokasikan biaya, mengontrol akses ke sesi Anda, mengisolasi sumber daya Anda, dan banyak lagi. Untuk mempelajari tentang menambahkan metadata ke AWS sumber daya Anda menggunakan penandaan, atau untuk detail tentang kasus penggunaan umum, lihat. [Informasi tambahan](#more-information)

Anda dapat mengaktifkan propagasi otomatis AWS tag ke sesi AWS Glue interaktif baru yang dibuat dari dalam UI Studio atau Studio Classic. Ketika sesi AWS Glue interaktif dibuat dari Studio atau Studio Classic, setiap [tag yang ditentukan pengguna](https://docs.aws.amazon.com/awsaccountbilling/latest/aboutv2/custom-tags.html) yang dilampirkan ke profil pengguna atau ruang bersama dibawa ke sesi AWS Glue interaktif baru. Selain itu, Studio dan Studio Classic secara otomatis menambahkan dua tag internal yang AWS dihasilkan ((`sagemaker:user-profile-arn`dan`sagemaker:domain-arn`) atau (`sagemaker:shared-space-arn`dan`sagemaker:domain-arn`)) ke sesi AWS Glue interaktif baru yang dibuat dari UI mereka. Anda dapat menggunakan tag ini untuk mengumpulkan biaya di seluruh domain individu, profil pengguna, atau spasi.

### Aktifkan propagasi tag
<a name="enable-propagation"></a>

Untuk mengaktifkan propagasi otomatis tag ke sesi AWS Glue interaktif baru, atur izin berikut untuk peran eksekusi SageMaker AI Anda dan peran IAM yang terkait dengan sesi Anda: AWS Glue 

**catatan**  
Secara default, peran yang terkait dengan sesi AWS Glue interaktif sama dengan peran eksekusi SageMaker AI. Anda dapat menentukan peran eksekusi yang berbeda untuk sesi AWS Glue interaktif dengan menggunakan perintah `%iam_role` ajaib. Untuk informasi tentang perintah ajaib Jupyter yang tersedia untuk mengonfigurasi sesi AWS Glue interaktif, lihat. [Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic](#glue-sm-magics)
+ *Pada peran eksekusi SageMaker AI Anda*: Buat kebijakan inline baru, dan tempel file JSON berikut. Kebijakan memberikan izin peran eksekusi untuk mendeskripsikan (`DescribeUserProfile`,`DescribeSpace`,`DescribeDomain`) dan mencantumkan tag (`ListTag`) yang ditetapkan pada profil pengguna, spasi bersama, dan domain SageMaker AI.

  ```
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:ListTags"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:user-profile/*",
          "arn:aws:sagemaker:*:*:space/*"
      ]
  },
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeUserProfile"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:user-profile/*"
      ]
  },
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeSpace"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:space/*"
      ]
  }
  {
      "Effect": "Allow",
      "Action": [
          "sagemaker:DescribeDomain"
      ],
      "Resource": [
          "arn:aws:sagemaker:*:*:domain/*"
      ]
  }
  ```
+ *Pada peran IAM AWS Glue sesi Anda*: Buat kebijakan inline baru, dan tempel file JSON berikut. Kebijakan memberikan izin peran Anda untuk melampirkan tag (`TagResource`) ke sesi Anda, atau mengambil daftar tag ()`GetTags`.

  ```
  {
      "Effect": "Allow",
      "Action": [
          "glue:TagResource",
          "glue:GetTags"
      ],
      "Resource": [
          "arn:aws:glue:*:*:session/*"
      ]
  }
  ```

**catatan**  
Kegagalan yang terjadi saat menerapkan izin tersebut tidak mencegah pembuatan sesi AWS Glue interaktif. Anda dapat menemukan detail tentang alasan kegagalan di [CloudWatch](https://docs.aws.amazon.com//sagemaker/latest/dg/monitoring-cloudwatch.html)log Studio atau Studio Classic.
Anda harus memulai ulang kernel sesi AWS Glue interaktif Anda untuk menyebarkan pembaruan nilai tag.

Penting untuk mencatat poin-poin berikut:
+ Setelah tag dilampirkan ke sesi, tag tidak dapat dihapus dengan propagasi.

  Anda dapat menghapus tag dari sesi AWS Glue interaktif langsung melalui AWS CLI, AWS Glue API, atau [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/). Misalnya, dengan menggunakan AWS CLI, Anda dapat menghapus tag dengan memberikan ARN sesi dan kunci tag yang ingin Anda hapus sebagai berikut:

  ```
  aws glue untag-resource \
  --resource-arn arn:aws:glue:region:account-id:session:session-name \
  --tags-to-remove tag-key1,tag-key2
  ```
+ Studio dan Studio Classic menambahkan dua tag internal AWS yang dihasilkan ((`sagemaker:user-profile-arn`dan`sagemaker:domain-arn`) atau (`sagemaker:shared-space-arn`dan`sagemaker:domain-arn`)) ke sesi AWS Glue interaktif baru yang dibuat dari UI mereka. Tag tersebut dihitung terhadap batas 50 tag yang ditetapkan pada semua AWS sumber daya. Keduanya `sagemaker:user-profile-arn` dan `sagemaker:shared-space-arn` berisi ID domain tempat mereka berada.
+ Tombol tag dimulai dengan `aws:``AWS:`,, atau kombinasi huruf besar dan kecil sebagai awalan untuk kunci tidak disebarkan dan dicadangkan untuk digunakan. AWS 

### Informasi tambahan
<a name="more-information"></a>

Untuk informasi lebih lanjut tentang penandaan, lihat sumber daya berikut.
+ [Untuk mempelajari cara menambahkan metadata ke AWS sumber daya Anda dengan penandaan, lihat Menandai sumber daya. AWS](https://docs.aws.amazon.com/tag-editor/latest/userguide/tagging.html)
+ Untuk informasi tentang melacak biaya menggunakan tag, lihat [Analisis biaya](https://docs.aws.amazon.com/whitepapers/latest/sagemaker-studio-admin-best-practices/cost-attribution.html) dalam praktik terbaik administrasi Studio.
+ Untuk informasi tentang mengontrol akses AWS Glue berdasarkan kunci tag, lihat [ABAC dengan AWS Glue](glue/latest/dg/security_iam_service-with-iam.html#security_iam_service-with-iam-tags).

## Luncurkan sesi AWS Glue interaktif Anda di Studio atau Studio Classic
<a name="glue-sm-launch"></a>

Setelah membuat peran, kebijakan, dan domain SageMaker AI, Anda dapat meluncurkan sesi AWS Glue interaktif di Studio atau Studio Classic.

1. Masuk ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Dari panel navigasi kiri, pilih **Studio**.

1. Dari halaman landing Studio, pilih domain dan profil pengguna untuk meluncurkan Studio.

1. Pilih **Open Studio** dan mulai aplikasi JupyterLab atau Studio Classic.

1. **Di tampilan Jupyter, pilih **File**, lalu **New, lalu Notebook**.**

1. **Untuk pengguna Studio Classic: Di menu tarik-turun **Gambar**, pilih **SparkAnalytics 1.0 atau SparkAnalytics 2.0**.** Di menu dropdown **kernel**, pilih Glue **Spark atau Glue** **Python [**dan Ray]. PySpark Pilih **Pilih**.

   Untuk pengguna Studio, pilih kernel **Glue Spark** atau **Glue Python PySpark [dan** Ray]

1. (opsional) Gunakan sihir Jupyter untuk menyesuaikan lingkungan Anda. Untuk informasi lebih lanjut tentang sihir Jupyter, lihat. [Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic](#glue-sm-magics)

1. Mulai menulis skrip pemrosesan data Spark Anda. [Notebook](https://github.com/aws/amazon-sagemaker-examples/blob/main/use-cases/pyspark_etl_and_training/pyspark-etl-training.ipynb) berikut menampilkan end-to-end alur kerja untuk ETL pada kumpulan data besar menggunakan sesi AWS Glue interaktif, analisis data eksplorasi, pra-pemrosesan data, dan akhirnya melatih model pada data yang diproses dengan AI. SageMaker 

## Konfigurasikan sesi AWS Glue interaktif Anda di Studio atau Studio Classic
<a name="glue-sm-magics"></a>

**catatan**  
Semua konfigurasi ajaib dibawa ke sesi berikutnya selama masa pakai AWS Glue kernel.

Anda dapat menggunakan sihir Jupyter dalam sesi AWS Glue interaktif Anda untuk memodifikasi parameter sesi dan konfigurasi Anda. Sihir adalah perintah pendek yang diawali dengan `%` di awal sel Jupyter yang menyediakan cara cepat dan mudah untuk membantu Anda mengontrol lingkungan Anda. Dalam sesi AWS Glue interaktif Anda, sihir berikut diatur untuk Anda secara default:


| Sihir | Nilai default | 
| --- | --- | 
| %glue\$1version |  3.0  | 
| %iam\$1role |  *execution role attached to your SageMaker AI domain*  | 
| %region |  wilayah Anda  | 

Anda dapat menggunakan sihir untuk lebih menyesuaikan lingkungan Anda. Misalnya, jika Anda ingin mengubah jumlah pekerja yang dialokasikan ke pekerjaan Anda dari default lima menjadi 10, Anda dapat menentukan`%number_of_workers 10`. Jika Anda ingin mengonfigurasi sesi Anda untuk berhenti setelah 10 menit waktu idle, bukan 2880 default, Anda dapat menentukan. `%idle_timeout 10`

Semua sihir Jupyter yang saat ini tersedia juga AWS Glue tersedia di Studio atau Studio Classic. Untuk daftar lengkap AWS Glue sihir yang tersedia, lihat [Mengonfigurasi sesi AWS Glue interaktif untuk notebook Jupyter](https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions-magics.html) dan Studio. AWS Glue 

# AWS Glue harga sesi interaktif
<a name="glue-sm-pricing"></a>

Saat Anda menggunakan sesi AWS Glue interaktif di notebook Studio atau Studio Classic, Anda akan dikenakan biaya secara terpisah untuk penggunaan sumber daya AWS Glue dan notebook Studio.

AWS biaya untuk sesi AWS Glue interaktif berdasarkan berapa lama sesi aktif dan jumlah Unit Pengolahan Data (DPU) yang digunakan. Anda dikenakan tarif per jam untuk jumlah yang DPUs digunakan untuk menjalankan beban kerja Anda, ditagih dengan penambahan satu detik. AWS Glue sesi interaktif menetapkan default lima DPUs dan membutuhkan minimal dua DPUs. Ada juga durasi penagihan minimum satu menit untuk setiap sesi interaktif. Untuk melihat contoh AWS Glue harga dan harga, atau untuk memperkirakan biaya Anda menggunakan Kalkulator AWS Harga, lihat [AWS Glue harga](https://aws.amazon.com/glue/pricing).

Notebook Studio atau Studio Classic berjalan pada instans Amazon EC2 dan Anda dikenakan biaya untuk jenis instans yang Anda pilih, berdasarkan durasi penggunaan. Studio Classic memberi Anda jenis instans EC2 default `ml-t3-medium` saat Anda memilih `SparkAnalytics` gambar dan kernel terkait. Anda dapat mengubah jenis instans untuk notebook Studio Classic agar sesuai dengan beban kerja Anda. Untuk informasi tentang harga Studio dan Studio Classic, lihat [ SageMaker Harga Amazon](https://aws.amazon.com/sagemaker/pricing).

# Siapkan Data ML dengan Amazon SageMaker Data Wrangler
<a name="data-wrangler"></a>

**penting**  
Amazon SageMaker Data Wrangler telah diintegrasikan ke dalam Amazon SageMaker Canvas. Dalam pengalaman Data Wrangler baru di SageMaker Canvas, Anda dapat menggunakan antarmuka bahasa alami untuk menjelajahi dan mengubah data Anda selain antarmuka visual. Untuk informasi selengkapnya tentang Data Wrangler di SageMaker Canvas, lihat. [Persiapan data](canvas-data-prep.md)

Amazon SageMaker Data Wrangler (Data Wrangler) adalah fitur Amazon SageMaker Studio Classic yang menyediakan end-to-end solusi untuk mengimpor, menyiapkan, mengubah, menyesuaikan, dan menganalisis data. Anda dapat mengintegrasikan alur persiapan data Wrangler Data ke dalam alur kerja machine learning (ML) Anda untuk menyederhanakan dan merampingkan pra-pemrosesan data dan rekayasa fitur menggunakan sedikit atau tanpa pengkodean. Anda juga dapat menambahkan skrip dan transformasi Python Anda sendiri untuk menyesuaikan alur kerja.

Data Wrangler menyediakan fungsionalitas inti berikut untuk membantu Anda menganalisis dan menyiapkan data untuk aplikasi pembelajaran mesin. 
+ **Impor** - Sambungkan ke dan impor data dari Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake, dan Databricks.
+ **Aliran Data** - Buat aliran data untuk menentukan serangkaian langkah persiapan data ML. Anda dapat menggunakan alur untuk menggabungkan kumpulan data dari sumber data yang berbeda, mengidentifikasi jumlah dan jenis transformasi yang ingin Anda terapkan pada kumpulan data, dan menentukan alur kerja persiapan data yang dapat diintegrasikan ke dalam pipeline ML. 
+ **Transform** - Bersihkan dan ubah dataset Anda menggunakan *transformasi* standar seperti string, vektor, dan alat pemformatan data numerik. Featurize data Anda menggunakan transformasi seperti teks dan date/time embedding dan pengkodean kategoris.
+ **Hasilkan Wawasan Data** — Secara otomatis memverifikasi kualitas data dan mendeteksi kelainan pada data Anda dengan Data Wrangler Data Insights and Quality Report. 
+ **Analisis** — Analisis fitur dalam kumpulan data Anda di setiap titik dalam alur Anda. Data Wrangler mencakup alat visualisasi data bawaan seperti plot pencar dan histogram, serta alat analisis data seperti analisis kebocoran target dan pemodelan cepat untuk memahami korelasi fitur. 
+ **Ekspor** - Ekspor alur kerja persiapan data Anda ke lokasi yang berbeda. Berikut ini adalah contoh lokasi: 
  + bucket Amazon Simple Storage Service (Amazon S3)
  + Amazon SageMaker Pipelines — Gunakan Pipelines untuk mengotomatiskan penerapan model. Anda dapat mengekspor data yang telah Anda ubah langsung ke saluran pipa.
  + Amazon SageMaker Feature Store — Simpan fitur dan datanya di toko terpusat.
  + Skrip Python — Simpan data dan transformasinya dalam skrip Python untuk alur kerja kustom Anda.

Untuk mulai menggunakan Data Wrangler, lihat. [Memulai dengan Data Wrangler](data-wrangler-getting-started.md)

**penting**  
Data Wrangler tidak lagi mendukung Jupyter Lab Versi 1 (). JL1 Untuk mengakses fitur dan pembaruan terbaru, perbarui ke Jupyter Lab Versi 3. Untuk informasi selengkapnya tentang peningkatan, lihat[Lihat dan perbarui JupyterLab versi aplikasi dari konsol](studio-jl.md#studio-jl-view).

**penting**  
Informasi dan prosedur dalam panduan ini menggunakan versi terbaru Amazon SageMaker Studio Classic. Untuk informasi tentang memperbarui Studio Classic ke versi terbaru, lihat[Ikhtisar UI Amazon SageMaker Studio Classic](studio-ui.md).

Anda harus menggunakan Studio Classic versi 1.3.0 atau yang lebih baru. Gunakan prosedur berikut untuk membuka Amazon SageMaker Studio Classic dan melihat versi mana yang Anda jalankan.

Untuk membuka Studio Classic dan memeriksa versinya, lihat prosedur berikut.

1. Gunakan langkah-langkah [Prasyarat](data-wrangler-getting-started.md#data-wrangler-getting-started-prerequisite) untuk mengakses Data Wrangler melalui Amazon SageMaker Studio Classic.

1. Di samping pengguna yang ingin Anda gunakan untuk meluncurkan Studio Classic, pilih **Luncurkan aplikasi**.

1. Pilih **Studio**.

1. Setelah Studio Classic dimuat, pilih **File**, lalu **Baru**, dan kemudian **Terminal**.  
![\[Opsi menu konteks Studio Classic dijelaskan pada langkah 4.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/terminal.png)

1. Setelah Anda meluncurkan Studio Classic, pilih **File**, lalu **New**, dan kemudian **Terminal**.

1. Masukkan `cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"` untuk mencetak versi instans Studio Classic Anda. Anda harus memiliki Studio Classic versi 1.3.0 untuk menggunakan Snowflake.   
![\[Jendela terminal dibuka di Studio Classic dengan perintah dari langkah 6 disalin dan ditempelkan.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/cat-command.png)

Anda dapat memperbarui Amazon SageMaker Studio Classic dari dalam Konsol Manajemen AWS. Untuk informasi selengkapnya tentang memperbarui Studio Classic, lihat[Ikhtisar UI Amazon SageMaker Studio Classic](studio-ui.md).

**Topics**
+ [

# Memulai dengan Data Wrangler
](data-wrangler-getting-started.md)
+ [

# Impor
](data-wrangler-import.md)
+ [

# Membuat dan Menggunakan Data Wrangler Flow
](data-wrangler-data-flow.md)
+ [

# Dapatkan Wawasan Tentang Kualitas Data dan Data
](data-wrangler-data-insights.md)
+ [

# Secara Otomatis Melatih Model pada Alur Data Anda
](data-wrangler-autopilot.md)
+ [

# Transformasi Data
](data-wrangler-transform.md)
+ [

# Analisis dan Visualisasikan
](data-wrangler-analyses.md)
+ [

# Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda
](data-wrangler-parameterize.md)
+ [

# Ekspor
](data-wrangler-data-export.md)
+ [

# Menggunakan Widget Persiapan Data Interaktif di Notebook Amazon SageMaker Studio Classic untuk Mendapatkan Wawasan Data
](data-wrangler-interactively-prepare-data-notebook.md)
+ [

# Keamanan dan Izin
](data-wrangler-security.md)
+ [

# Catatan Rilis
](data-wrangler-release-notes.md)
+ [

# Pemecahan Masalah
](data-wrangler-trouble-shooting.md)
+ [

# Tingkatkan Batas Instans Amazon EC2
](data-wrangler-increase-instance-limit.md)
+ [

# Perbarui Data Wrangler
](data-wrangler-update.md)
+ [

# Matikan Data Wrangler
](data-wrangler-shut-down.md)

# Memulai dengan Data Wrangler
<a name="data-wrangler-getting-started"></a>

Amazon SageMaker Data Wrangler adalah fitur di Amazon SageMaker Studio Classic. Gunakan bagian ini untuk mempelajari cara mengakses dan mulai menggunakan Data Wrangler. Lakukan hal-hal berikut:

1. Selesaikan setiap langkah[Prasyarat](#data-wrangler-getting-started-prerequisite).

1. Ikuti prosedur [Akses Data Wrangler](#data-wrangler-getting-started-access) untuk mulai menggunakan Data Wrangler.

## Prasyarat
<a name="data-wrangler-getting-started-prerequisite"></a>

Untuk menggunakan Data Wrangler, Anda harus menyelesaikan prasyarat berikut. 

1. Untuk menggunakan Data Wrangler, Anda memerlukan akses ke instans Amazon Elastic Compute Cloud (Amazon EC2). Untuk informasi selengkapnya tentang instans Amazon EC2 yang dapat Anda gunakan, lihat. [Contoh](data-wrangler-data-flow.md#data-wrangler-data-flow-instances) Untuk mempelajari cara melihat kuota Anda dan, jika perlu, minta peningkatan kuota, lihat kuota [AWS layanan](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html).

1. Konfigurasikan izin yang diperlukan yang dijelaskan dalam[Keamanan dan Izin](data-wrangler-security.md). 

1. Jika organisasi Anda menggunakan firewall yang memblokir lalu lintas internet, Anda harus memiliki akses ke yang berikut URLs:
   + `https://ui.prod-1.data-wrangler.sagemaker.aws/`
   + `https://ui.prod-2.data-wrangler.sagemaker.aws/`
   + `https://ui.prod-3.data-wrangler.sagemaker.aws/`
   + `https://ui.prod-4.data-wrangler.sagemaker.aws/`

Untuk menggunakan Data Wrangler, Anda memerlukan instance Studio Classic yang aktif. Untuk mempelajari cara meluncurkan instance baru, lihat[Ikhtisar domain Amazon SageMaker AI](gs-studio-onboard.md). Saat instans Studio Classic Anda **Siap**, gunakan instruksi di[Akses Data Wrangler](#data-wrangler-getting-started-access).

## Akses Data Wrangler
<a name="data-wrangler-getting-started-access"></a>

Prosedur berikut mengasumsikan Anda telah menyelesaikan. [Prasyarat](#data-wrangler-getting-started-prerequisite)

Untuk mengakses Data Wrangler di Studio Classic, lakukan hal berikut.

1. Masuk ke Studio Classic. Untuk informasi selengkapnya, lihat [Ikhtisar domain Amazon SageMaker AI](gs-studio-onboard.md).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Anda juga dapat membuat aliran Data Wrangler dengan melakukan hal berikut.

   1. Di bilah navigasi atas, pilih **File**.

   1. Pilih **Baru**.

   1. Pilih **Data Wrangler** Flow.  
![\[Tab beranda konsol Studio Classic.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/new-flow-file-menu.png)

1. (Opsional) Ganti nama direktori baru dan file.flow.

1. Saat Anda membuat file.flow baru di Studio Classic, Anda mungkin melihat carousel yang memperkenalkan Anda ke Data Wrangler.

   **Ini mungkin memakan waktu beberapa menit.**

   Pesan ini tetap ada selama **KernelGateway**aplikasi di halaman **Detail Pengguna** Anda **Tertunda**. Untuk melihat status aplikasi ini, di konsol SageMaker AI di halaman **Amazon SageMaker Studio Classic**, pilih nama pengguna yang Anda gunakan untuk mengakses Studio Classic. Pada halaman **Detail Pengguna**, Anda melihat **KernelGateway**aplikasi di bawah **Aplikasi**. Tunggu hingga status aplikasi ini **Siap** untuk mulai menggunakan Data Wrangler. Ini bisa memakan waktu sekitar 5 menit saat pertama kali Anda meluncurkan Data Wrangler.  
![\[Contoh yang menunjukkan status KernelGatewayaplikasi Siap di halaman Detail Pengguna.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/gatewayKernel-ready.png)

1. Untuk memulai, pilih sumber data dan gunakan untuk mengimpor dataset. Lihat [Impor](data-wrangler-import.md) untuk mempelajari selengkapnya. 

   Saat Anda mengimpor kumpulan data, itu muncul di aliran data Anda. Untuk mempelajari selengkapnya, lihat [Membuat dan Menggunakan Data Wrangler Flow](data-wrangler-data-flow.md).

1. Setelah Anda mengimpor dataset, Data Wrangler secara otomatis menyimpulkan jenis data di setiap kolom. Pilih **\$1** di samping langkah **Jenis data** dan pilih **Edit tipe data**. 
**penting**  
**Setelah menambahkan transformasi ke langkah **Tipe data, Anda tidak dapat memperbarui jenis** kolom secara massal menggunakan jenis Perbarui.** 

1. Gunakan aliran data untuk menambahkan transformasi dan analisis. Untuk mempelajari lebih lanjut lihat [Transformasi Data](data-wrangler-transform.md) dan[Analisis dan Visualisasikan](data-wrangler-analyses.md).

1. Untuk mengekspor aliran data lengkap, pilih **Ekspor** dan pilih opsi ekspor. Untuk mempelajari selengkapnya, lihat [Ekspor](data-wrangler-data-export.md). 

1. Terakhir, pilih ikon **Components and registries**, dan pilih **Data Wrangler** dari daftar dropdown untuk melihat semua file.flow yang telah Anda buat. Anda dapat menggunakan menu ini untuk menemukan dan berpindah antar aliran data.

Setelah Anda meluncurkan Data Wrangler, Anda dapat menggunakan bagian berikut untuk menelusuri bagaimana Anda dapat menggunakan Data Wrangler untuk membuat aliran persiapan data ML. 

## Perbarui Data Wrangler
<a name="data-wrangler-update-studio-app"></a>

Kami menyarankan Anda memperbarui aplikasi Data Wrangler Studio Classic secara berkala untuk mengakses fitur dan pembaruan terbaru. Nama aplikasi Data Wrangler dimulai dengan. **sagemaker-data-wrang** Untuk mempelajari cara memperbarui aplikasi Studio Classic, lihat[Matikan dan Perbarui Aplikasi Amazon SageMaker Studio Classic](studio-tasks-update-apps.md).

## Demo: Panduan Set Data Wrangler Titanic
<a name="data-wrangler-getting-started-demo"></a>

Bagian berikut memberikan panduan untuk membantu Anda mulai menggunakan Data Wrangler. Panduan ini mengasumsikan bahwa Anda telah mengikuti langkah-langkah [Akses Data Wrangler](#data-wrangler-getting-started-access) dan membuka file aliran data baru yang ingin Anda gunakan untuk demo. Anda mungkin ingin mengganti nama file.flow ini menjadi sesuatu yang mirip dengan. `titanic-demo.flow`

Panduan ini menggunakan dataset [Titanic](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/walkthrough_titanic.csv). Ini adalah versi modifikasi dari [dataset Titanic](https://www.openml.org/d/40945) yang dapat Anda impor ke aliran Data Wrangler Anda dengan lebih mudah. Kumpulan data ini berisi status kelangsungan hidup, usia, jenis kelamin, dan kelas (yang berfungsi sebagai proxy untuk status ekonomi) penumpang di atas pelayaran perdana *RMS* Titanic pada tahun 1912.

Dalam tutorial ini, Anda melakukan langkah-langkah berikut.

1. Lakukan salah satu tindakan berikut:
   + Buka alur Data Wrangler Anda dan pilih **Use Sample** Dataset.
   + Unggah [kumpulan data Titanic](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/walkthrough_titanic.csv) ke Amazon Simple Storage Service (Amazon S3) Simple Storage Service (Amazon S3), lalu impor kumpulan data ini ke Data Wrangler.

1. Analisis dataset ini menggunakan analisis Data Wrangler. 

1. Tentukan aliran data menggunakan transformasi data Wrangler Data.

1. Ekspor alur Anda ke Notebook Jupyter yang dapat Anda gunakan untuk membuat pekerjaan Data Wrangler. 

1. Memproses data Anda, dan memulai pekerjaan SageMaker pelatihan untuk melatih XGBoost Binary Classifier. 

### Unggah Dataset ke S3 dan Impor
<a name="data-wrangler-getting-started-demo-import"></a>

Untuk memulai, Anda dapat menggunakan salah satu metode berikut untuk mengimpor dataset Titanic ke Data Wrangler:
+ Mengimpor dataset langsung dari aliran Data Wrangler
+ Mengunggah kumpulan data ke Amazon S3 dan kemudian mengimpornya ke Data Wrangler

Untuk mengimpor dataset langsung ke Data Wrangler, buka alur dan pilih **Use** Sample Dataset.

Mengunggah kumpulan data ke Amazon S3 dan mengimpornya ke Data Wrangler lebih dekat dengan pengalaman Anda mengimpor data Anda sendiri. Informasi berikut memberi tahu Anda cara mengunggah kumpulan data Anda dan mengimpornya.

Sebelum Anda mulai mengimpor data ke Data Wrangler, unduh [dataset Titanic](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/walkthrough_titanic.csv) dan unggah ke bucket Amazon S3 (Amazon S3) di AWS Wilayah tempat Anda ingin menyelesaikan demo ini.

Jika Anda adalah pengguna baru Amazon S3, Anda dapat melakukan ini menggunakan drag and drop di konsol Amazon S3. Untuk mempelajari caranya, lihat [Mengunggah File dan Folder dengan Menggunakan Seret dan Jatuhkan](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/upload-objects.html#upload-objects-by-drag-and-drop) di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon.

**penting**  
Unggah kumpulan data Anda ke bucket S3 di AWS Wilayah yang sama yang ingin Anda gunakan untuk menyelesaikan demo ini. 

Ketika dataset Anda telah berhasil diunggah ke Amazon S3, Anda dapat mengimpornya ke Data Wrangler.

**Impor dataset Titanic ke Data Wrangler**

1. Pilih tombol **Impor data** di tab **Aliran data** Anda atau pilih tab **Impor**.

1. Pilih **Amazon S3**.

1. Gunakan tabel **Impor kumpulan data dari S3** untuk menemukan bucket tempat Anda menambahkan kumpulan data Titanic. **Pilih file CSV kumpulan data Titanic untuk membuka panel Detail.**

1. Di bawah **Detail**, **jenis File** harus CSV. Periksa **Baris pertama adalah header** untuk menentukan bahwa baris pertama dari dataset adalah header. Anda juga dapat memberi nama kumpulan data dengan sesuatu yang lebih ramah, seperti**Titanic-train**.

1. Pilih tombol **Impor**.

Ketika dataset Anda diimpor ke Data Wrangler, itu muncul di tab Aliran **Data** Anda. Anda dapat mengklik dua kali pada node untuk memasukkan tampilan detail node, yang memungkinkan Anda menambahkan transformasi atau analisis. Anda dapat menggunakan ikon plus untuk akses cepat ke navigasi. Di bagian selanjutnya, Anda menggunakan aliran data ini untuk menambahkan analisis dan mengubah langkah-langkah.

### Aliran Data
<a name="data-wrangler-getting-started-demo-data-flow"></a>

Di bagian aliran data, satu-satunya langkah dalam aliran data adalah dataset Anda yang baru saja diimpor dan langkah **tipe Data**. Setelah menerapkan transformasi, Anda dapat kembali ke tab ini dan melihat seperti apa aliran datanya. Sekarang, tambahkan beberapa transformasi dasar di bawah tab **Siapkan** dan **Analisis**. 

#### Mempersiapkan dan memvisualisasikan
<a name="data-wrangler-getting-started-demo-prep-visualize"></a>

Data Wrangler memiliki transformasi dan visualisasi bawaan yang dapat Anda gunakan untuk menganalisis, membersihkan, dan mengubah data Anda. 

Tab **Data** dari tampilan detail node mencantumkan semua transformasi bawaan di panel kanan, yang juga berisi area di mana Anda dapat menambahkan transformasi khusus. Kasus penggunaan berikut menampilkan cara menggunakan transformasi ini.

Untuk mendapatkan informasi yang dapat membantu Anda dalam eksplorasi data dan rekayasa fitur, buat laporan kualitas data dan wawasan. Informasi dari laporan dapat membantu Anda membersihkan dan memproses data Anda. Ini memberi Anda informasi seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran target atau ketidakseimbangan, laporan wawasan dapat membawa masalah tersebut ke perhatian Anda. Untuk informasi selengkapnya tentang membuat laporan, lihat[Dapatkan Wawasan Tentang Kualitas Data dan Data](data-wrangler-data-insights.md).

##### Eksplorasi Data
<a name="data-wrangler-getting-started-demo-explore"></a>

Pertama, buat ringkasan tabel data menggunakan analisis. Lakukan hal-hal berikut:

1. Pilih **\$1** di sebelah langkah **Jenis data** dalam aliran data Anda dan pilih **Tambahkan analisis**.

1. Di area **Analisis**, pilih **Ringkasan tabel** dari daftar dropdown.

1. Berikan ringkasan tabel sebuah **Nama**.

1. Pilih **Pratinjau** untuk melihat tabel yang akan dibuat.

1. Pilih **Simpan** untuk menyimpannya ke aliran data Anda. Itu muncul di bawah **Semua Analisis.**

Dengan menggunakan statistik yang Anda lihat, Anda dapat melakukan pengamatan yang serupa dengan yang berikut tentang kumpulan data ini: 
+ Rata-rata tarif (rata-rata) adalah sekitar \$133, sedangkan maks lebih dari \$1500. Kolom ini kemungkinan memiliki outlier. 
+ *Dataset ini menggunakan?* untuk menunjukkan nilai yang hilang. *Sejumlah kolom memiliki nilai yang hilang: *cabin*, *embarked*, dan home.dest*
+ Kategori usia tidak memiliki lebih dari 250 nilai.

Selanjutnya, bersihkan data Anda menggunakan wawasan yang diperoleh dari statistik ini. 

##### Jatuhkan Kolom yang Tidak Digunakan
<a name="data-wrangler-getting-started-demo-drop-unused"></a>

Dengan menggunakan analisis dari bagian sebelumnya, bersihkan kumpulan data untuk mempersiapkannya untuk pelatihan. Untuk menambahkan transformasi baru ke aliran data Anda, pilih **\$1** di sebelah langkah **Jenis data** dalam aliran data Anda dan pilih **Tambahkan transformasi**.

Pertama, jatuhkan kolom yang tidak ingin Anda gunakan untuk pelatihan. Anda dapat menggunakan pustaka analisis data [panda](https://pandas.pydata.org/) untuk melakukan ini, atau Anda dapat menggunakan salah satu transformasi bawaan.

Gunakan prosedur berikut untuk menjatuhkan kolom yang tidak digunakan.

Untuk menjatuhkan kolom yang tidak digunakan.

1. Buka alur Data Wrangler.

1. Ada dua node dalam aliran Data Wrangler Anda. Pilih **\$1** di sebelah kanan node **tipe Data**.

1. Pilih **Tambahkan transformasi**.

1. Di kolom **Semua langkah**, pilih **Tambahkan langkah**.

1. Dalam daftar Transformasi **standar**, pilih **Kelola Kolom**. Transformasi standar sudah jadi, transformasi bawaan. Pastikan **kolom Drop** dipilih.

1. Di bawah **Kolom untuk dijatuhkan**, periksa nama kolom berikut:
   + kabin
   + karcis
   + name
   + sibsp
   + parch
   + rumah.dest
   + perahu
   + body

1. Pilih **Pratinjau**.

1. Verifikasi bahwa kolom telah dijatuhkan, lalu pilih **Tambah**.

Untuk melakukan ini menggunakan panda, ikuti langkah-langkah ini.

1. Di kolom **Semua langkah**, pilih **Tambahkan langkah**.

1. Dalam daftar **Custom** transform, pilih **Custom transform**.

1. Berikan nama untuk transformasi Anda, dan pilih **Python (Pandas)** dari daftar dropdown.

1. Masukkan skrip Python berikut di kotak kode.

   ```
   cols = ['name', 'ticket', 'cabin', 'sibsp', 'parch', 'home.dest','boat', 'body']
   df = df.drop(cols, axis=1)
   ```

1. Pilih **Pratinjau** untuk melihat pratinjau perubahan, lalu pilih **Tambah** untuk menambahkan transformasi. 

##### Bersihkan Nilai yang Hilang
<a name="data-wrangler-getting-started-demo-missing-vals"></a>

Sekarang, bersihkan nilai yang hilang. Anda dapat melakukan ini dengan **Menangani grup transformasi nilai yang hilang**.

Sejumlah kolom memiliki nilai yang hilang. Dari kolom yang tersisa, *usia* dan *tarif* mengandung nilai yang hilang. Periksa ini menggunakan **Custom Transform**.

Menggunakan opsi **Python (Pandas)**, gunakan yang berikut ini untuk meninjau dengan cepat jumlah entri di setiap kolom:

```
df.info()
```

![\[Contoh meninjau jumlah entri di setiap kolom.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/inspect-missing-pandas.png)


Untuk menjatuhkan baris dengan nilai yang hilang dalam kategori *usia*, lakukan hal berikut: 

1. Pilih **Handle hilang**. 

1. Pilih **Drop missing** untuk **Transformer**.

1. Pilih *usia* untuk **kolom Input**.

1. Pilih **Pratinjau** untuk melihat bingkai data baru, lalu pilih **Tambah** untuk menambahkan transformasi ke alur Anda.

1. Ulangi proses yang sama untuk *ongkos*. 

Anda dapat menggunakan `df.info()` di bagian **Custom transform** untuk mengonfirmasi bahwa semua baris sekarang memiliki 1.045 nilai.

##### Panda Kustom: Encode
<a name="data-wrangler-getting-started-demo-encode"></a>

Coba pengkodean datar menggunakan Pandas. Pengkodean data kategoris adalah proses menciptakan representasi numerik untuk kategori. Misalnya, jika kategori Anda `Dog` dan`Cat`, Anda dapat menyandikan informasi ini menjadi dua vektor: `[1,0]` untuk mewakili`Dog`, dan `[0,1]` untuk mewakili. `Cat`

1. Di bagian **Custom Transform**, pilih **Python (Pandas)** dari daftar dropdown.

1. Masukkan yang berikut ini di kotak kode.

   ```
   import pandas as pd
   
   dummies = []
   cols = ['pclass','sex','embarked']
   for col in cols:
       dummies.append(pd.get_dummies(df[col]))
       
   encoded = pd.concat(dummies, axis=1)
   
   df = pd.concat((df, encoded),axis=1)
   ```

1. Pilih **Pratinjau** untuk melihat pratinjau perubahan. Versi yang dikodekan dari setiap kolom ditambahkan ke kumpulan data. 

1. Pilih **Tambah** untuk menambahkan transformasi. 

#### Kustom SQL: PILIH Kolom
<a name="data-wrangler-getting-started-demo-sql"></a>

Sekarang, pilih kolom yang ingin Anda gunakan SQL. Untuk demo ini, pilih kolom yang tercantum dalam `SELECT` pernyataan berikut. Karena *bertahan* adalah kolom target Anda untuk pelatihan, letakkan kolom itu terlebih dahulu.

1. Di bagian **Custom Transform**, pilih **SQL (PySpark SQL) dari daftar** dropdown.

1. Masukkan yang berikut ini di kotak kode.

   ```
   SELECT survived, age, fare, 1, 2, 3, female, male, C, Q, S FROM df;
   ```

1. Pilih **Pratinjau** untuk melihat pratinjau perubahan. Kolom yang tercantum dalam `SELECT` pernyataan Anda adalah satu-satunya kolom yang tersisa.

1. Pilih **Tambah** untuk menambahkan transformasi. 

### Ekspor ke Notebook Data Wrangler
<a name="data-wrangler-getting-started-export"></a>

Setelah selesai membuat aliran data, Anda memiliki sejumlah opsi ekspor. Bagian berikut menjelaskan cara mengekspor ke buku catatan pekerjaan Data Wrangler. Pekerjaan Data Wrangler digunakan untuk memproses data Anda menggunakan langkah-langkah yang ditentukan dalam aliran data Anda. Untuk mempelajari lebih lanjut tentang semua opsi ekspor, lihat[Ekspor](data-wrangler-data-export.md).

#### Ekspor ke Data Wrangler Job Notebook
<a name="data-wrangler-getting-started-export-notebook"></a>

Saat Anda mengekspor aliran data menggunakan **pekerjaan Data Wrangler**, proses akan secara otomatis membuat Notebook Jupyter. Buku catatan ini secara otomatis terbuka di instans Studio Classic Anda dan dikonfigurasi untuk menjalankan pekerjaan SageMaker Pemrosesan untuk menjalankan aliran data Wrangler Data Anda, yang disebut sebagai pekerjaan Data Wrangler. 

1. Simpan aliran data Anda. Pilih **File** dan kemudian pilih **Save Data Wrangler** Flow.

1. Kembali ke tab **Aliran Data**, pilih langkah terakhir dalam aliran data Anda (SQL), lalu pilih **\$1** untuk membuka navigasi.

1. Pilih **Ekspor**, dan **Amazon S3 (melalui Jupyter Notebook).** Ini membuka Notebook Jupyter.  
![\[Contoh yang menunjukkan cara membuka navigasi di tab aliran data di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/export-select-step.png)

1. **Pilih kernel **Python 3 (Data Science)** untuk Kernel.** 

1. Saat kernel dimulai, jalankan sel di buku catatan hingga **Kick off SageMaker Training Job (Opsional)**. 

1. Secara opsional, Anda dapat menjalankan sel di **Kick off SageMaker Training Job (Opsional)** jika Anda ingin membuat pekerjaan pelatihan SageMaker AI untuk melatih XGBoost pengklasifikasi. Anda dapat menemukan biaya untuk menjalankan pekerjaan SageMaker pelatihan di [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/). 

   Atau, Anda dapat menambahkan blok kode yang ditemukan di [XGBoost Pengklasifikasi Pelatihan](#data-wrangler-getting-started-train-xgboost) buku catatan dan menjalankannya untuk menggunakan pustaka sumber [XGBoost](https://xgboost.readthedocs.io/en/latest/)terbuka untuk melatih XGBoost pengklasifikasi. 

1. Hapus komentar dan jalankan sel di bawah **Pembersihan** dan jalankan untuk mengembalikan SageMaker Python SDK ke versi aslinya.

Anda dapat memantau status pekerjaan Data Wrangler Anda di konsol SageMaker AI di tab **Processing**. Selain itu, Anda dapat memantau pekerjaan Data Wrangler Anda menggunakan Amazon. CloudWatch Untuk informasi tambahan, lihat [Memantau Pekerjaan SageMaker Pemrosesan Amazon dengan CloudWatch Log dan Metrik](https://docs.aws.amazon.com/sagemaker/latest/dg/processing-job.html#processing-job-cloudwatch). 

Jika Anda memulai pekerjaan pelatihan, Anda dapat memantau statusnya menggunakan konsol SageMaker AI di bawah **Pekerjaan Pelatihan** di **bagian Pelatihan**.

#### XGBoost Pengklasifikasi Pelatihan
<a name="data-wrangler-getting-started-train-xgboost"></a>

Anda dapat melatih XGBoost Binary Classifier menggunakan notebook Jupyter atau Amazon Autopilot. SageMaker Anda dapat menggunakan Autopilot untuk secara otomatis melatih dan menyetel model pada data yang telah Anda ubah langsung dari alur Data Wrangler Anda. Untuk informasi tentang Autopilot, lihat. [Secara Otomatis Melatih Model pada Alur Data Anda](data-wrangler-autopilot.md)

Di buku catatan yang sama yang memulai pekerjaan Data Wrangler, Anda dapat menarik data dan melatih XGBoost Binary Classifier menggunakan data yang disiapkan dengan persiapan data minimal. 

1. Pertama, tingkatkan modul yang diperlukan menggunakan `pip` dan hapus file \$1SUCCESS (file terakhir ini bermasalah saat menggunakan`awswrangler`).

   ```
   ! pip install --upgrade awscli awswrangler boto sklearn
   ! aws s3 rm {output_path} --recursive  --exclude "*" --include "*_SUCCESS*"
   ```

1. Baca data dari Amazon S3. Anda dapat menggunakan `awswrangler` untuk membaca semua file CSV secara rekursif di awalan S3. Data kemudian dibagi menjadi fitur dan label. Label adalah kolom pertama dari kerangka data.

   ```
   import awswrangler as wr
   
   df = wr.s3.read_csv(path=output_path, dataset=True)
   X, y = df.iloc[:,:-1],df.iloc[:,-1]
   ```
   + Terakhir, buat DMatrices (struktur XGBoost primitif untuk data) dan lakukan validasi silang menggunakan klasifikasi biner. XGBoost 

     ```
     import xgboost as xgb
     
     dmatrix = xgb.DMatrix(data=X, label=y)
     
     params = {"objective":"binary:logistic",'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10}
     
     xgb.cv(
         dtrain=dmatrix, 
         params=params, 
         nfold=3,
         num_boost_round=50,
         early_stopping_rounds=10,
         metrics="rmse", 
         as_pandas=True, 
         seed=123)
     ```

#### Matikan Data Wrangler
<a name="data-wrangler-getting-started-shut-down"></a>

Setelah selesai menggunakan Data Wrangler, kami sarankan Anda mematikan instans yang dijalankan untuk menghindari biaya tambahan. Untuk mempelajari cara mematikan aplikasi Data Wrangler dan instance terkait, lihat. [Matikan Data Wrangler](data-wrangler-shut-down.md) 

# Impor
<a name="data-wrangler-import"></a>

Anda dapat menggunakan Amazon SageMaker Data Wrangler untuk mengimpor data dari *sumber data* berikut: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, dan Snowflake. Dataset yang Anda impor dapat menyertakan hingga 1000 kolom.

**Topics**
+ [

## Impor data dari Amazon S3
](#data-wrangler-import-s3)
+ [

## Impor data dari Athena
](#data-wrangler-import-athena)
+ [

## Impor data dari Amazon Redshift
](#data-wrangler-import-redshift)
+ [

## Impor data dari Amazon EMR
](#data-wrangler-emr)
+ [

## Impor data dari Databricks (JDBC)
](#data-wrangler-databricks)
+ [

## Impor data dari Salesforce Data Cloud
](#data-wrangler-import-salesforce-data-cloud)
+ [

## Impor data dari Snowflake
](#data-wrangler-snowflake)
+ [

## Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)
](#data-wrangler-import-saas)
+ [

## Penyimpanan Data yang Diimpor
](#data-wrangler-import-storage)

Beberapa sumber data memungkinkan Anda menambahkan beberapa *koneksi data*:
+ Anda dapat terhubung ke beberapa cluster Amazon Redshift. Setiap cluster menjadi sumber data. 
+ Anda dapat menanyakan database Athena apa pun di akun Anda untuk mengimpor data dari database tersebut.



Ketika Anda mengimpor dataset dari sumber data, itu akan muncul dalam aliran data Anda. Data Wrangler secara otomatis menyimpulkan tipe data setiap kolom dalam kumpulan data Anda. Untuk mengubah jenis ini, pilih langkah **Jenis data** dan pilih **Edit tipe data**.

Saat Anda mengimpor data dari Athena atau Amazon Redshift, data yang diimpor secara otomatis disimpan di bucket AI S3 SageMaker default untuk Wilayah tempat Anda AWS menggunakan Studio Classic. Selain itu, Athena menyimpan data yang Anda pratinjau di Data Wrangler di bucket ini. Untuk mempelajari selengkapnya, lihat [Penyimpanan Data yang Diimpor](#data-wrangler-import-storage).

**penting**  
Bucket Amazon S3 default mungkin tidak memiliki setelan keamanan yang paling tidak permisif, seperti kebijakan bucket dan enkripsi sisi server (SSE). Kami sangat menyarankan Anda [Menambahkan Kebijakan Bucket Untuk Membatasi Akses ke Kumpulan Data yang Diimpor ke Data](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-security.html#data-wrangler-security-bucket-policy) Wrangler. 

**penting**  
Selain itu, jika Anda menggunakan kebijakan terkelola untuk SageMaker AI, kami sangat menyarankan agar Anda memasukkannya ke kebijakan paling ketat yang memungkinkan Anda melakukan kasus penggunaan. Untuk informasi selengkapnya, lihat [Berikan Izin Peran IAM untuk Menggunakan Data Wrangler](data-wrangler-security.md#data-wrangler-security-iam-policy).

Semua sumber data kecuali Amazon Simple Storage Service (Amazon S3) Simple Storage Service mengharuskan Anda menentukan kueri SQL untuk mengimpor data Anda. Untuk setiap kueri, Anda harus menentukan yang berikut:
+ **Katalog data**
+ **Basis Data**
+ **Tabel**

Anda dapat menentukan nama database atau katalog data di menu drop-down atau dalam kueri. Berikut ini adalah contoh query:
+ `select * from example-data-catalog-name.example-database-name.example-table-name`— Kueri tidak menggunakan apa pun yang ditentukan dalam menu tarik-turun antarmuka pengguna (UI) untuk dijalankan. Ini pertanyaan di `example-table-name` `example-database-name` dalam`example-data-catalog-name`.
+ `select * from example-database-name.example-table-name`— Kueri menggunakan katalog data yang telah Anda tentukan di menu tarik-turun **katalog Data** untuk dijalankan. Ini query `example-table-name` dalam `example-database-name` dalam katalog data yang telah Anda tentukan.
+ `select * from example-table-name`— Kueri mengharuskan Anda untuk memilih bidang untuk **katalog Data** dan menu tarik-turun **nama Database**. Ini query `example-table-name` dalam katalog data dalam database dan katalog data yang telah Anda tentukan.

*Hubungan antara Data Wrangler dan sumber data adalah koneksi.* Anda menggunakan koneksi untuk mengimpor data dari sumber data Anda.

Ada beberapa jenis koneksi berikut:
+ Langsung
+ Dikatalogkan

Data Wrangler selalu memiliki akses ke data terbaru dalam koneksi langsung. Jika data dalam sumber data telah diperbarui, Anda dapat menggunakan koneksi untuk mengimpor data. Misalnya, jika seseorang menambahkan file ke salah satu bucket Amazon S3 Anda, Anda dapat mengimpor file tersebut.

Koneksi yang dikatalogkan adalah hasil dari transfer data. Data dalam koneksi yang dikatalogkan tidak selalu memiliki data terbaru. Misalnya, Anda dapat mengatur transfer data antara Salesforce dan Amazon S3. Jika ada pembaruan pada data Salesforce, Anda harus mentransfer data lagi. Anda dapat mengotomatiskan proses transfer data. Untuk informasi selengkapnya tentang transfer data, lihat[Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)](#data-wrangler-import-saas).

## Impor data dari Amazon S3
<a name="data-wrangler-import-s3"></a>

Anda dapat menggunakan Amazon Simple Storage Service (Amazon S3) untuk menyimpan dan mengambil sejumlah data, kapan saja, dari mana saja di web. Anda dapat menyelesaikan tugas-tugas ini menggunakan Konsol Manajemen AWS, yang merupakan antarmuka web yang sederhana dan intuitif, dan Amazon S3 API. Jika Anda telah menyimpan kumpulan data secara lokal, kami sarankan Anda menambahkannya ke bucket S3 untuk diimpor ke Data Wrangler. Untuk mempelajari caranya, lihat [Mengunggah objek ke bucket](https://docs.aws.amazon.com/AmazonS3/latest/gsg/PuttingAnObjectInABucket.html) di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon. 

Data Wrangler menggunakan [S3 Select](https://aws.amazon.com/s3/features/#s3-select) untuk memungkinkan Anda melihat pratinjau file Amazon S3 Anda di Data Wrangler. Anda dikenakan biaya standar untuk setiap pratinjau file. Untuk mempelajari lebih lanjut tentang harga, lihat tab **Permintaan & pengambilan data** pada harga [Amazon S3](https://aws.amazon.com/s3/pricing/). 

**penting**  
Jika Anda berencana untuk mengekspor aliran data dan meluncurkan pekerjaan Data Wrangler, memasukkan data ke feature SageMaker store AI, atau membuat pipeline SageMaker AI, ketahuilah bahwa integrasi ini memerlukan data input Amazon S3 untuk ditempatkan di wilayah yang sama. AWS 

**penting**  
Jika Anda mengimpor file CSV, pastikan file tersebut memenuhi persyaratan berikut:  
Catatan dalam kumpulan data Anda tidak boleh lebih dari satu baris.
Sebuah backslash,`\`, adalah satu-satunya karakter melarikan diri yang valid.
Dataset Anda harus menggunakan salah satu pembatas berikut:  
Koma — `,`
Usus besar — `:`
Titik koma — `;`
Pipa — `|`
Tab — `[TAB]`
Untuk menghemat ruang, Anda dapat mengimpor file CSV terkompresi.

Data Wrangler memberi Anda kemampuan untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Amazon S3, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Setelah mengimpor data, Anda juga dapat menggunakan transformator sampling untuk mengambil satu atau lebih sampel dari seluruh kumpulan data Anda. Untuk informasi lebih lanjut tentang transformator sampling, lihat[Pengambilan sampel](data-wrangler-transform.md#data-wrangler-transform-sampling).

Anda dapat menggunakan salah satu pengidentifikasi sumber daya berikut untuk mengimpor data Anda:
+ URI Amazon S3 yang menggunakan bucket Amazon S3 atau jalur akses Amazon S3
+ Alias jalur akses Amazon S3
+ Nama Sumber Daya Amazon (ARN) yang menggunakan jalur akses Amazon S3 atau bucket Amazon S3

Titik akses Amazon S3 diberi nama titik akhir jaringan yang dilampirkan ke bucket. Setiap titik akses memiliki izin dan kontrol jaringan yang berbeda yang dapat Anda konfigurasi. Untuk informasi selengkapnya tentang titik akses, lihat [Mengelola akses data dengan jalur akses Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html).

**penting**  
Jika Anda menggunakan Nama Sumber Daya Amazon (ARN) untuk mengimpor data Anda, itu harus untuk sumber daya yang terletak sama dengan Wilayah AWS yang Anda gunakan untuk mengakses Amazon SageMaker Studio Classic.

Anda dapat mengimpor satu file atau beberapa file sebagai kumpulan data. Anda dapat menggunakan operasi impor multifile ketika Anda memiliki kumpulan data yang dipartisi menjadi file terpisah. Dibutuhkan semua file dari direktori Amazon S3 dan mengimpornya sebagai kumpulan data tunggal. Untuk informasi tentang jenis file yang dapat Anda impor dan cara mengimpornya, lihat bagian berikut.

------
#### [ Single File Import ]

Anda dapat mengimpor file tunggal dalam format berikut:
+ Nilai Terpisah Koma (CSV)
+ Parquet
+ Notasi Objek Javascript (JSON)
+ Kolom Baris yang Dioptimalkan (ORC)
+ Gambar - Data Wrangler menggunakan OpenCV untuk mengimpor gambar. Untuk informasi selengkapnya tentang format gambar yang didukung, lihat [Membaca dan menulis file gambar](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Untuk file yang diformat dalam JSON, Data Wrangler mendukung kedua baris JSON (.jsonl) dan dokumen JSON (.json). Saat Anda melihat pratinjau data Anda, secara otomatis menampilkan JSON dalam format tabel. Untuk dokumen JSON bersarang yang lebih besar dari 5 MB, Data Wrangler menunjukkan skema untuk struktur dan array sebagai nilai dalam kumpulan data. Gunakan operator **array **Flatten structured** dan Explode** untuk menampilkan nilai bersarang dalam format tabel. Untuk informasi selengkapnya, lihat [Data JSON Unnest](data-wrangler-transform.md#data-wrangler-transform-flatten-column) dan [Meledak Array](data-wrangler-transform.md#data-wrangler-transform-explode-array).

Saat memilih kumpulan data, Anda dapat mengganti namanya, menentukan jenis file, dan mengidentifikasi baris pertama sebagai header.

Anda dapat mengimpor kumpulan data yang telah dipartisi menjadi beberapa file di bucket Amazon S3 dalam satu langkah impor.

**Untuk mengimpor dataset ke Data Wrangler dari satu file yang telah Anda simpan di Amazon S3:**

1. Jika saat ini Anda tidak berada di tab **Impor**, pilih **Impor**.

1. Di bawah **Tersedia**, pilih **Amazon S3**.

1. Dari **Impor tabular, gambar, atau data deret waktu dari S3**, lakukan salah satu hal berikut:
   + Pilih bucket Amazon S3 dari tampilan tabular dan arahkan ke file yang Anda impor.
   + **Untuk **sumber S3**, tentukan bucket Amazon S3 atau URI Amazon S3 dan pilih Go.** Amazon S3 URIs dapat dalam salah satu format berikut:
     + `s3://amzn-s3-demo-bucket/example-prefix/example-file`
     + *example-access-point*- *aqfqprnstn7aefdfbarligizwgyfouse1a* -s3alias/dataset/*example-file*
     + `s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file`

1. Pilih kumpulan data untuk membuka panel **Pengaturan impor**.

1. Jika file CSV Anda memiliki header, pilih kotak centang di sebelah **Tambahkan header ke tabel**.

1. Gunakan tabel **Pratinjau** untuk melihat pratinjau kumpulan data Anda. Tabel ini menunjukkan hingga 100 baris. 

1. Di panel **Detail**, verifikasi atau ubah **Nama** dan **Jenis File** untuk kumpulan data Anda. Jika Anda menambahkan **Nama** yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor. 

1. Tentukan konfigurasi sampling yang ingin Anda gunakan. 

1. Pilih **Impor**.

------
#### [ Multifile Import ]

Berikut ini adalah persyaratan untuk mengimpor beberapa file:
+ File harus berada di folder yang sama dengan bucket Amazon S3 Anda.
+ File harus berbagi header yang sama atau tidak memiliki header.

Setiap file harus dalam salah satu format berikut:
+ CSV
+ Parquet
+ Kolom Baris yang Dioptimalkan (ORC)
+ Gambar - Data Wrangler menggunakan OpenCV untuk mengimpor gambar. Untuk informasi selengkapnya tentang format gambar yang didukung, lihat [Membaca dan menulis file gambar](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Gunakan prosedur berikut untuk mengimpor beberapa file.

**Untuk mengimpor dataset ke Data Wrangler dari beberapa file yang telah disimpan di direktori Amazon S3**

1. Jika saat ini Anda tidak berada di tab **Impor**, pilih **Impor**.

1. Di bawah **Tersedia**, pilih **Amazon S3**.

1. Dari **Impor tabular, gambar, atau data deret waktu dari S3**, lakukan salah satu hal berikut:
   + Pilih bucket Amazon S3 dari tampilan tabular dan navigasikan ke folder yang berisi file yang Anda impor.
   + **Untuk **sumber S3**, tentukan bucket Amazon S3 atau URI Amazon S3 dengan file Anda, lalu pilih Go.** Berikut ini valid URIs:
     + `s3://amzn-s3-demo-bucket/example-prefix/example-prefix`
     + `example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/`
     + `s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix`

1. Pilih folder yang berisi file yang ingin Anda impor. Setiap file harus dalam salah satu format yang didukung. File Anda harus memiliki tipe data yang sama.

1. Jika folder Anda berisi file CSV dengan header, pilih kotak centang di sebelah **Baris pertama** adalah header.

1. Jika file Anda bersarang di dalam folder lain, pilih kotak centang di samping **Sertakan direktori bersarang**.

1. (Opsional) Pilih **Tambahkan kolom nama file** tambahkan kolom ke kumpulan data yang menunjukkan nama file untuk setiap pengamatan.

1. (Opsional) Secara default, Data Wrangler tidak menampilkan pratinjau folder. Anda dapat mengaktifkan pratinjau dengan memilih tombol **mati Pratinjau** biru. Pratinjau menunjukkan 10 baris pertama dari 10 file pertama di folder.

1. Di panel **Detail**, verifikasi atau ubah **Nama** dan **Jenis File** untuk kumpulan data Anda. Jika Anda menambahkan **Nama** yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor. 

1. Tentukan konfigurasi sampling yang ingin Anda gunakan. 

1. Pilih **Impor dataset**.

------

Anda juga dapat menggunakan parameter untuk mengimpor subset file yang cocok dengan pola. Parameter membantu Anda memilih file yang Anda impor secara lebih selektif. Untuk mulai menggunakan parameter, edit sumber data dan terapkan ke jalur yang Anda gunakan untuk mengimpor data. Untuk informasi selengkapnya, lihat [Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda](data-wrangler-parameterize.md).

## Impor data dari Athena
<a name="data-wrangler-import-athena"></a>

Gunakan Amazon Athena untuk mengimpor data Anda dari Amazon Simple Storage Service (Amazon S3) ke Data Wrangler. Di Athena, Anda menulis kueri SQL standar untuk memilih data yang Anda impor dari Amazon S3. Untuk informasi lebih lanjut, lihat [Apa itu Amazon Athena?](https://docs.aws.amazon.com/athena/latest/ug/what-is.html)

Anda dapat menggunakan Konsol Manajemen AWS untuk mengatur Amazon Athena. Anda harus membuat setidaknya satu database di Athena sebelum Anda mulai menjalankan kueri. Untuk informasi lebih lanjut tentang memulai dengan Athena, lihat [Memulai](https://docs.aws.amazon.com/athena/latest/ug/getting-started.html).

Athena terintegrasi langsung dengan Data Wrangler. Anda dapat menulis kueri Athena tanpa harus meninggalkan UI Data Wrangler.

Selain menulis kueri Athena sederhana di Data Wrangler, Anda juga dapat menggunakan:
+ Kelompok kerja Athena untuk manajemen hasil kueri. Untuk informasi selengkapnya tentang kelompok kerja, lihat[Mengelola hasil kueri](#data-wrangler-import-manage-results).
+ Konfigurasi siklus hidup untuk menyetel periode retensi data. Untuk informasi selengkapnya tentang retensi data, lihat[Mengatur periode retensi data](#data-wrangler-import-athena-retention).

### Pertanyaan Athena dalam Data Wrangler
<a name="data-wrangler-import-athena-query"></a>

**catatan**  
Data Wrangler tidak mendukung kueri federasi.

Jika Anda menggunakan AWS Lake Formation Athena, pastikan izin IAM Lake Formation Anda tidak mengganti izin IAM untuk database. `sagemaker_data_wrangler`

Data Wrangler memberi Anda kemampuan untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Athena, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Prosedur berikut menunjukkan cara mengimpor dataset dari Athena ke Data Wrangler.

**Untuk mengimpor dataset ke Data Wrangler dari Athena**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Amazon Athena**.

1. Untuk **Katalog Data**, pilih katalog data.

1. Gunakan daftar dropdown **Database** untuk memilih database yang ingin Anda kueri. Ketika Anda memilih database, Anda dapat melihat pratinjau semua tabel dalam database Anda menggunakan **Tabel** yang tercantum di bawah **Detail**.

1. (Opsional) Pilih **Konfigurasi lanjutan**.

   1. Pilih **Workgroup**.

   1. Jika grup kerja Anda belum menerapkan lokasi keluaran Amazon S3 atau jika Anda tidak menggunakan grup kerja, tentukan nilai untuk lokasi hasil kueri Amazon **S3**.

   1. (Opsional) Untuk **periode penyimpanan data**, pilih kotak centang untuk mengatur periode penyimpanan data dan tentukan jumlah hari untuk menyimpan data sebelum dihapus.

   1. (Opsional) Secara default, Data Wrangler menyimpan koneksi. Anda dapat memilih untuk membatalkan pilihan kotak centang dan tidak menyimpan koneksi.

1. Untuk **Sampling**, pilih metode pengambilan sampel. Pilih **Tidak Ada** untuk mematikan pengambilan sampel.

1. Masukkan kueri Anda di editor kueri dan gunakan tombol **Jalankan** untuk menjalankan kueri. Setelah kueri berhasil, Anda dapat melihat pratinjau hasil Anda di bawah editor.
**catatan**  
Data Salesforce menggunakan tipe. `timestamptz` Jika Anda menanyakan kolom stempel waktu yang telah Anda impor ke Athena dari Salesforce, transmisikan data di kolom ke jenisnya. `timestamp` Kueri berikut melemparkan kolom stempel waktu ke jenis yang benar.  

   ```
   # cast column timestamptz_col as timestamp type, and name it as timestamp_col
   select cast(timestamptz_col as timestamp) as timestamp_col from table
   ```

1. Untuk mengimpor hasil kueri Anda, pilih **Impor**.

Setelah Anda menyelesaikan prosedur sebelumnya, kumpulan data yang Anda kueri dan impor akan muncul di alur Data Wrangler.

Secara default, Data Wrangler menyimpan pengaturan koneksi sebagai koneksi baru. Saat Anda mengimpor data, kueri yang telah Anda tentukan muncul sebagai koneksi baru. Koneksi tersimpan menyimpan informasi tentang workgroup Athena dan bucket Amazon S3 yang Anda gunakan. Saat Anda menghubungkan ke sumber data lagi, Anda dapat memilih koneksi yang disimpan.

### Mengelola hasil kueri
<a name="data-wrangler-import-manage-results"></a>

Data Wrangler mendukung penggunaan workgroup Athena untuk mengelola hasil kueri dalam akun. AWS Anda dapat menentukan lokasi keluaran Amazon S3 untuk setiap workgroup. Anda juga dapat menentukan apakah output kueri dapat masuk ke lokasi Amazon S3 yang berbeda. Untuk informasi selengkapnya, lihat [Menggunakan Grup Kerja untuk Mengontrol Akses dan Biaya Kueri](https://docs.aws.amazon.com/athena/latest/ug/manage-queries-control-costs-with-workgroups.html).

Workgroup Anda mungkin dikonfigurasi untuk menerapkan lokasi keluaran kueri Amazon S3. Anda tidak dapat mengubah lokasi keluaran hasil kueri untuk kelompok kerja tersebut.

Jika Anda tidak menggunakan grup kerja atau menentukan lokasi keluaran untuk kueri, Data Wrangler menggunakan bucket Amazon S3 default di AWS Wilayah yang sama tempat instance Studio Classic Anda berada untuk menyimpan hasil kueri Athena. Ini membuat tabel sementara dalam database ini untuk memindahkan output kueri ke bucket Amazon S3 ini. Ini menghapus tabel-tabel ini setelah data telah diimpor; Namun database,`sagemaker_data_wrangler`, tetap ada. Untuk mempelajari selengkapnya, lihat [Penyimpanan Data yang Diimpor](#data-wrangler-import-storage).

Untuk menggunakan workgroup Athena, siapkan kebijakan IAM yang memberikan akses ke workgroup. Jika Anda menggunakan a`SageMaker AI-Execution-Role`, sebaiknya tambahkan kebijakan ke peran tersebut. Untuk informasi selengkapnya tentang kebijakan IAM untuk grup kerja, lihat [kebijakan IAM untuk](https://docs.aws.amazon.com/athena/latest/ug/workgroups-iam-policy.html) mengakses grup kerja. Misalnya kebijakan grup kerja, lihat Kebijakan [contoh Workgroup](https://docs.aws.amazon.com/athena/latest/ug/example-policies-workgroup.html).

### Mengatur periode retensi data
<a name="data-wrangler-import-athena-retention"></a>

Data Wrangler secara otomatis menetapkan periode retensi data untuk hasil kueri. Hasilnya dihapus setelah lamanya periode retensi. Misalnya, periode retensi default adalah lima hari. Hasil kueri dihapus setelah lima hari. Konfigurasi ini dirancang untuk membantu Anda membersihkan data yang tidak lagi Anda gunakan. Membersihkan data Anda mencegah pengguna yang tidak sah mendapatkan akses. Ini juga membantu mengontrol biaya penyimpanan data Anda di Amazon S3.

Jika Anda tidak menetapkan periode retensi, konfigurasi siklus hidup Amazon S3 menentukan durasi penyimpanan objek. Kebijakan penyimpanan data yang telah Anda tentukan untuk konfigurasi siklus hidup menghapus hasil kueri yang lebih lama dari konfigurasi siklus hidup yang telah Anda tentukan. Untuk informasi selengkapnya, lihat [Menyetel konfigurasi siklus hidup pada bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/how-to-set-lifecycle-configuration-intro.html).

Data Wrangler menggunakan konfigurasi siklus hidup Amazon S3 untuk mengelola retensi dan kedaluwarsa data. Anda harus memberikan izin peran eksekusi Amazon SageMaker Studio Classic IAM untuk mengelola konfigurasi siklus hidup bucket. Gunakan prosedur berikut untuk memberikan izin.

Untuk memberikan izin untuk mengelola konfigurasi siklus hidup lakukan hal berikut.

1. Masuk ke Konsol Manajemen AWS dan buka konsol IAM di [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/).

1. Pilih **Peran**.

1. Di bilah pencarian, tentukan peran eksekusi Amazon SageMaker AI yang digunakan Amazon SageMaker Studio Classic.

1. Pilih peran.

1. Pilih **Tambahkan izin**.

1. Pilih **Buat kebijakan sebaris**.

1. Untuk **Layanan**, tentukan **S3** dan pilih.

1. Di bawah bagian **Baca**, pilih **GetLifecycleConfiguration**.

1. Di bawah bagian **Tulis**, pilih **PutLifecycleConfiguration**.

1. Untuk **Sumber daya**, pilih **Spesifik**.

1. Untuk **Tindakan**, pilih ikon panah di sebelah **Manajemen izin**.

1. Pilih **PutResourcePolicy**.

1. Untuk **Sumber daya**, pilih **Spesifik**.

1. Pilih kotak centang di sebelah **Apa saja di akun ini**.

1. Pilih **Tinjau kebijakan**.

1. Untuk **Nama**, tentukan nama.

1. Pilih **Buat kebijakan**.

## Impor data dari Amazon Redshift
<a name="data-wrangler-import-redshift"></a>

Amazon Redshift adalah layanan gudang data dengan skala petabyte yang terkelola penuh di cloud. Langkah pertama untuk membuat gudang data adalah meluncurkan satu set node, yang disebut cluster Amazon Redshift. Setelah menyediakan klaster, Anda dapat mengunggah kumpulan data dan kemudian melakukan kueri analisis data. 

Anda dapat terhubung ke dan menanyakan satu atau beberapa klaster Amazon Redshift di Data Wrangler. Untuk menggunakan opsi impor ini, Anda harus membuat setidaknya satu cluster di Amazon Redshift. Untuk mempelajari caranya, lihat [Memulai Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/gsg/getting-started.html).

Anda dapat menampilkan hasil kueri Amazon Redshift Anda di salah satu lokasi berikut:
+ Bucket Amazon S3 default
+ Lokasi keluaran Amazon S3 yang Anda tentukan

Anda dapat mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Amazon Redshift, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Bucket Amazon S3 default berada di AWS Wilayah yang sama tempat instans Studio Classic Anda berada untuk menyimpan hasil kueri Amazon Redshift. Untuk informasi selengkapnya, lihat [Penyimpanan Data yang Diimpor](#data-wrangler-import-storage).

Untuk bucket Amazon S3 default atau bucket yang Anda tentukan, Anda memiliki opsi enkripsi berikut:
+ Enkripsi AWS sisi layanan default dengan kunci terkelola Amazon S3 (SSE-S3)
+  Kunci AWS Key Management Service (AWS KMS) yang Anda tentukan

 AWS KMS Kunci adalah kunci enkripsi yang Anda buat dan kelola. Untuk informasi selengkapnya tentang kunci KMS, lihat [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

Anda dapat menentukan AWS KMS kunci menggunakan kunci ARN atau ARN akun Anda. AWS 

Jika Anda menggunakan kebijakan terkelola IAM`AmazonSageMakerFullAccess`, untuk memberikan izin peran untuk menggunakan Data Wrangler di Studio Classic, nama **Pengguna Database** Anda harus memiliki awalan. `sagemaker_access`

Gunakan prosedur berikut untuk mempelajari cara menambahkan cluster baru. 

**catatan**  
Data Wrangler menggunakan Amazon Redshift Data API dengan kredensi sementara. Untuk mempelajari lebih lanjut tentang API ini, lihat [Menggunakan API Data Amazon Redshift](https://docs.aws.amazon.com//redshift/latest/mgmt/data-api.html) di Panduan Manajemen Pergeseran Merah Amazon. 

**Untuk terhubung ke cluster Amazon Redshift**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Amazon Athena**.

1. Pilih **Amazon Redshift**.

1. **Pilih **Temporary credentials (IAM)** untuk Type.**

1. Masukkan **Nama Koneksi**. Ini adalah nama yang digunakan oleh Data Wrangler untuk mengidentifikasi koneksi ini. 

1. Masukkan **Cluster Identifier** untuk menentukan cluster mana yang ingin Anda sambungkan. Catatan: Masukkan hanya pengidentifikasi klaster dan bukan titik akhir penuh klaster Amazon Redshift.

1. Masukkan **Nama Database** dari database yang ingin Anda sambungkan.

1. Masukkan **Pengguna Database** untuk mengidentifikasi pengguna yang ingin Anda gunakan untuk terhubung ke database. 

1. Untuk **UNLOAD IAM Role**, masukkan ARN peran IAM dari peran yang harus diasumsikan oleh cluster Amazon Redshift untuk memindahkan dan menulis data ke Amazon S3. Untuk informasi selengkapnya tentang peran ini, lihat [Mengotorisasi Amazon Redshift untuk mengakses layanan AWS lain atas nama Anda di](https://docs.aws.amazon.com/redshift/latest/mgmt/authorizing-redshift-service.html) Panduan Manajemen Amazon Redshift. 

1. Pilih **Hubungkan**.

1. (Opsional) Untuk **lokasi keluaran Amazon S3**, tentukan URI S3 untuk menyimpan hasil kueri.

1. (Opsional) Untuk **ID kunci KMS**, tentukan ARN kunci atau AWS KMS alias. Gambar berikut menunjukkan di mana Anda dapat menemukan salah satu kunci di Konsol Manajemen AWS.  
![\[Lokasi alias ARN, nama AWS KMS alias, dan kunci ARN di konsol. AWS KMS\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/kms-alias-redacted.png)

Gambar berikut menunjukkan semua bidang dari prosedur sebelumnya.

![\[Panel koneksi Add Amazon Redshift.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/redshift-connection.png)


Setelah koneksi Anda berhasil dibuat, itu muncul sebagai sumber data di bawah **Impor Data**. Pilih sumber data ini untuk menanyakan database Anda dan mengimpor data.

**Untuk kueri dan impor data dari Amazon Redshift**

1. Pilih koneksi yang ingin Anda kueri dari **Sumber Data**.

1. Pilih **Skema**. Untuk mempelajari selengkapnya tentang Skema Amazon Redshift, lihat Skema di Panduan Pengembang [Database](https://docs.aws.amazon.com/redshift/latest/dg/r_Schemas_and_tables.html) Amazon Redshift.

1. (Opsional) Di bawah **Konfigurasi lanjutan**, tentukan metode **Sampling** yang ingin Anda gunakan.

1. Masukkan kueri Anda di editor kueri dan pilih **Jalankan** untuk menjalankan kueri. Setelah kueri berhasil, Anda dapat melihat pratinjau hasil Anda di bawah editor.

1. Pilih **Impor dataset** untuk mengimpor dataset yang telah ditanyakan. 

1. Masukkan **nama Dataset**. Jika Anda menambahkan **nama Dataset** yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor. 

1. Pilih **Tambahkan**.

Untuk mengedit kumpulan data, lakukan hal berikut.

1. Arahkan ke alur Data Wrangler Anda.

1. Pilih \$1 di sebelah **Sumber - Sampel**.

1. Ubah data yang Anda impor.

1. Pilih **Terapkan**

## Impor data dari Amazon EMR
<a name="data-wrangler-emr"></a>

Anda dapat menggunakan Amazon EMR sebagai sumber data untuk aliran Amazon SageMaker Data Wrangler Anda. Amazon EMR adalah platform cluster terkelola yang dapat Anda gunakan untuk memproses dan menganalisis data dalam jumlah besar. Untuk informasi selengkapnya tentang Amazon EMR, lihat [Apa itu Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html)? . Untuk mengimpor dataset dari EMR, Anda menghubungkannya dan menanyakannya. 

**penting**  
Anda harus memenuhi prasyarat berikut untuk terhubung ke cluster EMR Amazon:  
Anda memiliki VPC Amazon di Wilayah yang Anda gunakan untuk meluncurkan Amazon SageMaker Studio Classic dan Amazon EMR.
Baik Amazon EMR dan Amazon SageMaker Studio Classic harus diluncurkan dalam subnet pribadi. Mereka bisa berada di subnet yang sama atau di subnet yang berbeda.
Amazon SageMaker Studio Classic harus dalam mode VPC saja.  
Untuk informasi selengkapnya tentang membuat VPC, lihat [Membuat VPC](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-vpcs.html#Create-VPC).  
Untuk informasi selengkapnya tentang membuat VPC, lihat [Connect SageMaker Studio Classic Notebook di VPC ke Sumber](https://docs.aws.amazon.com/vpc/latest/userguide/studio-notebooks-and-internet-access.html) Daya Eksternal.
Cluster EMR Amazon yang Anda jalankan harus berada di VPC Amazon yang sama.
Cluster EMR Amazon dan VPC Amazon harus berada di akun yang sama. AWS 
Cluster EMR Amazon Anda menjalankan Hive atau Presto.  
Kluster sarang harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 10000.
Cluster Presto harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 8889.  
Nomor port berbeda untuk cluster EMR Amazon yang menggunakan peran IAM. Arahkan ke akhir bagian prasyarat untuk informasi lebih lanjut.
Amazon SageMaker Studio Classic harus menjalankan Jupyter Lab Versi 3. Untuk informasi tentang memperbarui Versi Lab Jupyter, lihat. [Lihat dan perbarui JupyterLab versi aplikasi dari konsol](studio-jl.md#studio-jl-view)
Amazon SageMaker Studio Classic memiliki peran IAM yang mengontrol akses pengguna. Peran IAM default yang Anda gunakan untuk menjalankan Amazon SageMaker Studio Classic tidak memiliki kebijakan yang dapat memberi Anda akses ke kluster EMR Amazon. Anda harus melampirkan izin pemberian kebijakan ke peran IAM. Untuk informasi selengkapnya, lihat [Konfigurasikan daftar kluster EMR Amazon](studio-notebooks-configure-discoverability-emr-cluster.md).
Peran IAM juga harus memiliki kebijakan berikut terlampir`secretsmanager:PutResourcePolicy`.
Jika Anda menggunakan domain Studio Classic yang telah Anda buat, pastikan domain tersebut dalam `AppNetworkAccessType` mode khusus VPC. Untuk informasi tentang memperbarui domain agar menggunakan mode khusus VPC, lihat. [Matikan dan Perbarui Amazon SageMaker Studio Classic](studio-tasks-update-studio.md)
Anda harus menginstal Hive atau Presto di cluster Anda.
Rilis Amazon EMR harus versi 5.5.0 atau yang lebih baru.  
Amazon EMR mendukung penghentian otomatis. Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya. Berikut ini adalah rilis yang mendukung penghentian otomatis:  
Untuk rilis 6.x, versi 6.1.0 atau yang lebih baru.
Untuk rilis 5.x, versi 5.30.0 atau yang lebih baru.
Gunakan halaman berikut untuk menyiapkan peran runtime IAM untuk klaster EMR Amazon. Anda harus mengaktifkan enkripsi dalam transit saat menggunakan peran runtime:  
[Prasyarat untuk meluncurkan cluster EMR Amazon dengan peran runtime](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-configure)
[Luncurkan kluster EMR Amazon dengan kontrol akses berbasis peran](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-launch)
Anda harus Lake Formation sebagai alat tata kelola untuk data dalam database Anda. Anda juga harus menggunakan pemfilteran data eksternal untuk kontrol akses.  
Untuk informasi lebih lanjut tentang Lake Formation, lihat [Apa itu AWS Lake Formation?](https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html)
Untuk informasi selengkapnya tentang mengintegrasikan Lake Formation ke Amazon EMR, [lihat Mengintegrasikan layanan pihak ketiga dengan Lake](https://docs.aws.amazon.com/lake-formation/latest/dg/Integrating-with-LakeFormation.html) Formation.
Versi cluster Anda harus 6.9.0 atau yang lebih baru.
Akses ke AWS Secrets Manager. Untuk informasi selengkapnya tentang Secrets Manager lihat [Apa itu AWS Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html)
Kluster sarang harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 10000.

VPC Amazon adalah jaringan virtual yang secara logis terisolasi dari jaringan lain di cloud. AWS Amazon SageMaker Studio Classic dan kluster EMR Amazon Anda hanya ada di dalam VPC Amazon.

Gunakan prosedur berikut untuk meluncurkan Amazon SageMaker Studio Classic di Amazon VPC.

Untuk meluncurkan Studio Classic dalam VPC, lakukan hal berikut.

1. Arahkan ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Pilih **Launch SageMaker Studio Classic**.

1. Pilih **Pengaturan standar**.

1. Untuk **peran eksekusi default**, pilih peran IAM untuk menyiapkan Studio Classic.

1. Pilih VPC tempat Anda meluncurkan kluster EMR Amazon.

1. Untuk **Subnet**, pilih subnet pribadi.

1. Untuk **grup Keamanan**, tentukan grup keamanan yang Anda gunakan untuk mengontrol antara VPC Anda.

1. Pilih **VPC Saja**.

1. (Opsional) AWS menggunakan kunci enkripsi default. Anda dapat menentukan AWS Key Management Service kunci untuk mengenkripsi data Anda.

1. Pilih **Berikutnya**.

1. Di bawah **Pengaturan Studio**, pilih konfigurasi yang paling cocok untuk Anda.

1. Pilih **Berikutnya** untuk melewati pengaturan SageMaker Canvas.

1. Pilih **Berikutnya** untuk melewati RStudio pengaturan.

Jika Anda tidak memiliki kluster EMR Amazon yang siap, Anda dapat menggunakan prosedur berikut untuk membuatnya. Untuk informasi selengkapnya tentang Amazon EMR, lihat [Apa itu Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html)?

Untuk membuat cluster, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan**Amazon EMR**.

1. Pilih **Buat klaster**.

1. Untuk **nama Cluster**, tentukan nama cluster Anda.

1. Untuk **Rilis**, pilih versi rilis cluster.
**catatan**  
Amazon EMR mendukung penghentian otomatis untuk rilis berikut:  
Untuk rilis 6.x, rilis 6.1.0 atau yang lebih baru
Untuk rilis 5.x, rilis 5.30.0 atau yang lebih baru
Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya.

1. (Opsional) Untuk **Aplikasi**, pilih **Presto**.

1. Pilih aplikasi yang Anda jalankan di cluster.

1. Di bawah **Jaringan**, untuk **konfigurasi Perangkat Keras**, tentukan pengaturan konfigurasi perangkat keras.
**penting**  
Untuk **Networking**, pilih VPC yang menjalankan Amazon SageMaker Studio Classic dan pilih subnet pribadi.

1. Di bawah **Keamanan dan akses**, tentukan pengaturan keamanan.

1. Pilih **Buat**.

Untuk tutorial tentang membuat kluster EMR Amazon, lihat [Memulai Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html). Untuk informasi tentang praktik terbaik untuk mengonfigurasi klaster, lihat [Pertimbangan dan praktik terbaik](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha-considerations.html).

**catatan**  
Untuk praktik terbaik keamanan, Data Wrangler hanya dapat terhubung ke subnet VPCs pribadi. Anda tidak dapat terhubung ke node master kecuali Anda menggunakan AWS Systems Manager untuk instans EMR Amazon Anda. Untuk informasi selengkapnya, lihat [Mengamankan akses ke kluster EMR menggunakan](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/). AWS Systems Manager

Saat ini Anda dapat menggunakan metode berikut untuk mengakses kluster EMR Amazon:
+ Tidak ada otentikasi
+ Protokol Akses Direktori Ringan (LDAP)
+ IAM (Peran runtime)

Tidak menggunakan autentikasi atau menggunakan LDAP dapat mengharuskan Anda membuat beberapa cluster dan profil instans Amazon EC2. Jika Anda seorang administrator, Anda mungkin perlu menyediakan grup pengguna dengan tingkat akses yang berbeda ke data. Metode ini dapat menghasilkan overhead administratif yang membuatnya lebih sulit untuk mengelola pengguna Anda.

Sebaiknya gunakan peran runtime IAM yang memberi banyak pengguna kemampuan untuk terhubung ke kluster EMR Amazon yang sama. Peran runtime adalah peran IAM yang dapat Anda tetapkan ke pengguna yang terhubung ke kluster EMR Amazon. Anda dapat mengonfigurasi peran IAM runtime agar memiliki izin yang khusus untuk setiap grup pengguna.

Gunakan bagian berikut untuk membuat cluster EMR Presto atau Hive Amazon dengan LDAP diaktifkan.

------
#### [ Presto ]

**penting**  
Untuk digunakan AWS Glue sebagai metastore untuk tabel Presto, pilih **Gunakan** **metadata tabel Presto** untuk menyimpan hasil kueri EMR Amazon Anda dalam AWS Glue katalog data saat meluncurkan klaster EMR. Menyimpan hasil kueri dalam katalog AWS Glue data dapat menyelamatkan Anda dari biaya yang dikenakan.  
Untuk menanyakan kumpulan data besar di kluster EMR Amazon, Anda harus menambahkan properti berikut ke file konfigurasi Presto di kluster EMR Amazon Anda:  

```
[{"classification":"presto-config","properties":{
"http-server.max-request-header-size":"5MB",
"http-server.max-response-header-size":"5MB"}}]
```
Anda juga dapat mengubah pengaturan konfigurasi saat meluncurkan kluster EMR Amazon.  
File konfigurasi untuk kluster EMR Amazon Anda terletak di bawah jalur berikut:. `/etc/presto/conf/config.properties`

Gunakan prosedur berikut untuk membuat cluster Presto dengan LDAP diaktifkan.

Untuk membuat cluster, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan**Amazon EMR**.

1. Pilih **Buat klaster**.

1. Untuk **nama Cluster**, tentukan nama cluster Anda.

1. Untuk **Rilis**, pilih versi rilis cluster.
**catatan**  
Amazon EMR mendukung penghentian otomatis untuk rilis berikut:  
Untuk rilis 6.x, rilis 6.1.0 atau yang lebih baru
Untuk rilis 5.x, rilis 5.30.0 atau yang lebih baru
Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya.

1. Pilih aplikasi yang Anda jalankan di cluster.

1. Di bawah **Jaringan**, untuk **konfigurasi Perangkat Keras**, tentukan pengaturan konfigurasi perangkat keras.
**penting**  
Untuk **Networking**, pilih VPC yang menjalankan Amazon SageMaker Studio Classic dan pilih subnet pribadi.

1. Di bawah **Keamanan dan akses**, tentukan pengaturan keamanan.

1. Pilih **Buat**.

------
#### [ Hive ]

**penting**  
Untuk digunakan AWS Glue sebagai metastore untuk tabel Hive, pilih **Gunakan** **metadata tabel Hive** untuk menyimpan hasil kueri EMR Amazon Anda dalam AWS Glue katalog data saat meluncurkan klaster EMR. Menyimpan hasil kueri dalam katalog AWS Glue data dapat menyelamatkan Anda dari biaya yang dikenakan.  
Untuk dapat menanyakan kumpulan data besar di kluster EMR Amazon, tambahkan properti berikut ke file konfigurasi Hive di kluster EMR Amazon Anda:  

```
[{"classification":"hive-site", "properties"
:{"hive.resultset.use.unique.column.names":"false"}}]
```
Anda juga dapat mengubah pengaturan konfigurasi saat meluncurkan kluster EMR Amazon.  
File konfigurasi untuk kluster EMR Amazon Anda terletak di bawah jalur berikut:. `/etc/hive/conf/hive-site.xml` Anda dapat menentukan properti berikut dan memulai ulang cluster:  

```
<property>
    <name>hive.resultset.use.unique.column.names</name>
    <value>false</value>
</property>
```

Gunakan prosedur berikut untuk membuat cluster Hive dengan LDAP diaktifkan.

Untuk membuat cluster Hive dengan LDAP diaktifkan, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan**Amazon EMR**.

1. Pilih **Buat klaster**.

1. Pilih **Pergi ke opsi lanjutan**.

1. Untuk **Rilis**, pilih versi rilis Amazon EMR.

1. Opsi konfigurasi **Hive** dipilih secara default. Pastikan opsi **Hive** memiliki kotak centang di sebelahnya.

1. (Opsional) Anda juga dapat memilih **Presto** sebagai opsi konfigurasi untuk mengaktifkan Hive dan Presto di cluster Anda.

1. (Opsional) Pilih **Gunakan untuk metadata tabel Hive** untuk menyimpan hasil kueri EMR Amazon Anda dalam katalog data. AWS Glue Menyimpan hasil kueri dalam AWS Glue katalog dapat menyelamatkan Anda dari biaya yang dikenakan. Untuk informasi selengkapnya, lihat [Menggunakan Katalog AWS Glue Data sebagai metastore untuk](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html) Hive.
**catatan**  
Menyimpan hasil kueri dalam katalog data memerlukan Amazon EMR versi 5.8.0 atau yang lebih baru.

1. Di bawah **Enter konfigurasi**, tentukan JSON berikut:

   ```
   [
     {
       "classification": "hive-site",
       "properties": {
         "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org",
         "hive.server2.authentication": "LDAP",
         "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389"
       }
     }
   ]
   ```
**catatan**  
Sebagai praktik keamanan terbaik, sebaiknya aktifkan SSL HiveServer dengan menambahkan beberapa properti di JSON situs sarang sebelumnya. Untuk informasi selengkapnya, lihat [Mengaktifkan SSL di HiveServer 2](https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.0.1/configuring-wire-encryption/content/enable_ssl_on_hiveserver2.html).

1. Tentukan pengaturan cluster yang tersisa dan buat cluster.

------

Gunakan bagian berikut untuk menggunakan otentikasi LDAP untuk klaster EMR Amazon yang telah Anda buat.

------
#### [ LDAP for Presto ]

Menggunakan LDAP pada cluster yang menjalankan Presto memerlukan akses ke koordinator Presto melalui HTTPS. Lakukan hal berikut untuk menyediakan akses:
+ Aktifkan akses pada port 636
+ Aktifkan SSL untuk koordinator Presto

Gunakan template berikut untuk mengkonfigurasi Presto:

```
- Classification: presto-config
     ConfigurationProperties:
        http-server.authentication.type: 'PASSWORD'
        http-server.https.enabled: 'true'
        http-server.https.port: '8889'
        http-server.http.port: '8899'
        node-scheduler.include-coordinator: 'true'
        http-server.https.keystore.path: '/path/to/keystore/path/for/presto'
        http-server.https.keystore.key: 'keystore-key-password'
        discovery.uri: 'http://master-node-dns-name:8899'
- Classification: presto-password-authenticator
     ConfigurationProperties:
        password-authenticator.name: 'ldap'
        ldap.url: !Sub 'ldaps://ldap-server-dns-name:636'
        ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org"
        internal-communication.authentication.ldap.user: "ldap-user-name"
        internal-communication.authentication.ldap.password: "ldap-password"
```

Untuk informasi tentang pengaturan LDAP di Presto, lihat sumber daya berikut:
+ [Otentikasi LDAP](https://prestodb.io/docs/current/security/ldap.html)
+ [Menggunakan Otentikasi LDAP untuk Presto di Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-ldap.html)

**catatan**  
Sebagai praktik keamanan terbaik, kami sarankan mengaktifkan SSL untuk Presto. Untuk informasi selengkapnya, lihat [Komunikasi Internal yang Aman](https://prestodb.io/docs/current/security/internal-communication.html).

------
#### [ LDAP for Hive ]

Untuk menggunakan LDAP for Hive untuk klaster yang telah Anda buat, gunakan prosedur berikut [Mengkonfigurasi ulang grup instans di konsol](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps-running-cluster.html#emr-configure-apps-running-cluster-considerations).

Anda menentukan nama cluster yang Anda hubungkan.

```
[
  {
    "classification": "hive-site",
    "properties": {
      "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org",
      "hive.server2.authentication": "LDAP",
      "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389"
    }
  }
]
```

------

Gunakan prosedur berikut untuk mengimpor data dari cluster.

Untuk mengimpor data dari cluster, lakukan hal berikut.

1. Buka alur Data Wrangler.

1. Pilih **Buat Koneksi**.

1. Pilih **Amazon EMR**.

1. Lakukan salah satu dari berikut ini.
   + (Opsional) Untuk **Rahasia ARN**, tentukan Amazon Resource Number (ARN) database dalam cluster. Rahasia memberikan keamanan tambahan. Untuk informasi lebih lanjut tentang rahasia, lihat [Apa itu AWS Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) Untuk informasi tentang membuat rahasia untuk klaster Anda, lihat[Membuat AWS Secrets Manager rahasia untuk cluster Anda](#data-wrangler-emr-secrets-manager).
**penting**  
Anda harus menentukan rahasia jika Anda menggunakan peran runtime IAM untuk otentikasi.
   + Dari tabel dropdown, pilih cluster.

1. Pilih **Berikutnya**.

1. Untuk **Pilih titik akhir untuk *example-cluster-name* cluster**, pilih mesin kueri.

1. (Opsional) Pilih **Simpan koneksi**.

1. Pilih **Berikutnya, pilih login** dan pilih salah satu dari berikut ini:
   + Tidak ada otentikasi
   + LDAP
   + IAM

1. Untuk **Login ke *example-cluster-name* cluster**, tentukan **Username** dan **Password** untuk cluster.

1. Pilih **Hubungkan**.

1. Di editor kueri tentukan kueri SQL.

1. Pilih **Jalankan**.

1. Pilih **Impor**.

### Membuat AWS Secrets Manager rahasia untuk cluster Anda
<a name="data-wrangler-emr-secrets-manager"></a>

Jika Anda menggunakan peran runtime IAM untuk mengakses klaster EMR Amazon Anda, Anda harus menyimpan kredensyal yang Anda gunakan untuk mengakses Amazon EMR sebagai rahasia Secrets Manager. Anda menyimpan semua kredensil yang Anda gunakan untuk mengakses cluster dalam rahasia.

Anda harus menyimpan informasi berikut secara rahasia:
+ Titik akhir JDBC — `jdbc:hive2://`
+ Nama DNS — Nama DNS cluster EMR Amazon Anda. Ini adalah titik akhir untuk node utama atau nama host.
+ Pelabuhan — `8446`

Anda juga dapat menyimpan informasi tambahan berikut dalam rahasia:
+ Peran IAM — Peran IAM yang Anda gunakan untuk mengakses klaster. Data Wrangler menggunakan peran eksekusi SageMaker AI Anda secara default.
+ Jalur Truststore - Secara default, Data Wrangler membuat jalur truststore untuk Anda. Anda juga dapat menggunakan jalur truststore Anda sendiri. Untuk informasi selengkapnya tentang jalur truststore, lihat [Enkripsi dalam transit di 2](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html). HiveServer
+ Kata sandi Truststore - Secara default, Data Wrangler membuat kata sandi truststore untuk Anda. Anda juga dapat menggunakan jalur truststore Anda sendiri. Untuk informasi selengkapnya tentang jalur truststore, lihat [Enkripsi dalam transit di 2](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html). HiveServer

Gunakan prosedur berikut untuk menyimpan kredensil dalam rahasia Secrets Manager.

Untuk menyimpan kredensil Anda sebagai rahasia, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan Secrets Manager.

1. Pilih **AWS Secrets Manager**.

1. Pilih **Simpan rahasia baru**.

1. Untuk **Tipe rahasia**, pilih **Tipe rahasia lainnya**.

1. **Di bawah pasangan **kunci/nilai**, pilih Plaintext.**

1. Untuk cluster yang menjalankan Hive, Anda dapat menggunakan template berikut untuk otentikasi IAM.

   ```
   {"jdbcURL": ""
    "iam_auth": {"endpoint": "jdbc:hive2://", #required
                   "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required 
                   "port": "10000", #required
                 "cluster_id": "j-xxxxxxxxx", #required
                 "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional
                 "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional
                 "truststore_password": "changeit" #optional
                 
                 }}
   ```
**catatan**  
Setelah mengimpor data, Anda menerapkan transformasi ke data tersebut. Anda kemudian mengekspor data yang telah Anda ubah ke lokasi tertentu. Jika Anda menggunakan notebook Jupyter untuk mengekspor data yang diubah ke Amazon S3, Anda harus menggunakan jalur truststore yang ditentukan dalam contoh sebelumnya.

Rahasia Secrets Manager menyimpan URL JDBC dari cluster Amazon EMR sebagai rahasia. Menggunakan rahasia lebih aman daripada langsung memasukkan kredensil Anda.

Gunakan prosedur berikut untuk menyimpan URL JDBC sebagai rahasia.

Untuk menyimpan URL JDBC sebagai rahasia, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan Secrets Manager.

1. Pilih **AWS Secrets Manager**.

1. Pilih **Simpan rahasia baru**.

1. Untuk **Tipe rahasia**, pilih **Tipe rahasia lainnya**.

1. Untuk **pasangan kunci/nilai**, tentukan `jdbcURL` sebagai kunci dan URL JDBC yang valid sebagai nilainya.

   Format URL JDBC yang valid tergantung pada apakah Anda menggunakan otentikasi dan apakah Anda menggunakan Hive atau Presto sebagai mesin kueri. Daftar berikut menunjukkan format URL JBDC yang valid untuk berbagai kemungkinan konfigurasi.
   + Sarang, tidak ada otentikasi - `jdbc:hive2://emr-cluster-master-public-dns:10000/;`
   + Hive, otentikasi LDAP - `jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;`
   + Untuk Hive dengan SSL diaktifkan, format URL JDBC tergantung pada apakah Anda menggunakan File Keystore Java untuk konfigurasi TLS. File Keystore Java membantu memverifikasi identitas simpul master cluster EMR Amazon. Untuk menggunakan File Keystore Java, buat di cluster EMR dan unggah ke Data Wrangler. Untuk menghasilkan file, gunakan perintah berikut di cluster EMR Amazon,. `keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks` Untuk informasi tentang menjalankan perintah di klaster EMR Amazon, lihat [Mengamankan akses ke kluster EMR](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/) menggunakan. AWS Systems Manager Untuk mengunggah file, pilih panah ke atas pada navigasi sebelah kiri UI Data Wrangler.

     Berikut ini adalah format URL JDBC yang valid untuk Hive dengan SSL diaktifkan:
     + Tanpa File Keystore Java - `jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;`
     + Dengan File Keystore Java - `jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;`
   + Presto, tidak ada otentikasi — jdbc:presto: //:8889/; *emr-cluster-master-public-dns*
   + Untuk Presto dengan otentikasi LDAP dan SSL diaktifkan, format URL JDBC tergantung pada apakah Anda menggunakan File Keystore Java untuk konfigurasi TLS. File Keystore Java membantu memverifikasi identitas simpul master cluster EMR Amazon. Untuk menggunakan File Keystore Java, buat di cluster EMR dan unggah ke Data Wrangler. Untuk mengunggah file, pilih panah ke atas pada navigasi sebelah kiri UI Data Wrangler. Untuk informasi tentang membuat File Keystore Java untuk Presto, lihat File [Keystore Java](https://prestodb.io/docs/current/security/tls.html#server-java-keystore) untuk TLS. Untuk informasi tentang menjalankan perintah di klaster EMR Amazon, lihat [Mengamankan akses ke kluster EMR](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/) menggunakan. AWS Systems Manager
     + Tanpa File Keystore Java - `jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;`
     + Dengan File Keystore Java - `jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;`

Selama proses mengimpor data dari kluster EMR Amazon, Anda mungkin mengalami masalah. Untuk informasi tentang pemecahan masalah, lihat. [Memecahkan masalah dengan Amazon EMR](data-wrangler-trouble-shooting.md#data-wrangler-trouble-shooting-emr)

## Impor data dari Databricks (JDBC)
<a name="data-wrangler-databricks"></a>

Anda dapat menggunakan Databricks sebagai sumber data untuk aliran Amazon SageMaker Data Wrangler Anda. Untuk mengimpor dataset dari Databricks, gunakan fungsi impor JDBC (Java Database Connectivity) untuk mengakses database Databricks Anda. Setelah Anda mengakses database, tentukan kueri SQL untuk mendapatkan data dan mengimpornya.

Kami berasumsi bahwa Anda memiliki cluster Databricks yang sedang berjalan dan Anda telah mengonfigurasi driver JDBC Anda untuk itu. Untuk informasi selengkapnya, lihat halaman dokumentasi Databricks berikut:
+ [Pengemudi JDBC](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-driver)
+ [Konfigurasi JDBC dan parameter koneksi](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters)
+ [Parameter otentikasi](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#authentication-parameters)

Data Wrangler menyimpan URL JDBC Anda di. AWS Secrets Manager Anda harus memberikan izin peran eksekusi Amazon SageMaker Studio Classic IAM untuk menggunakan Secrets Manager. Gunakan prosedur berikut untuk memberikan izin.

Untuk memberikan izin kepada Secrets Manager, lakukan hal berikut.

1. Masuk ke Konsol Manajemen AWS dan buka konsol IAM di [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/).

1. Pilih **Peran**.

1. Di bilah pencarian, tentukan peran eksekusi Amazon SageMaker AI yang digunakan Amazon SageMaker Studio Classic.

1. Pilih peran.

1. Pilih **Tambahkan izin**.

1. Pilih **Buat kebijakan sebaris**.

1. Untuk **Layanan**, tentukan **Secrets Manager** dan pilih.

1. Untuk **Tindakan**, pilih ikon panah di sebelah **Manajemen izin**.

1. Pilih **PutResourcePolicy**.

1. Untuk **Sumber daya**, pilih **Spesifik**.

1. Pilih kotak centang di sebelah **Apa saja di akun ini**.

1. Pilih **Tinjau kebijakan**.

1. Untuk **Nama**, tentukan nama.

1. Pilih **Buat kebijakan**.

Anda dapat menggunakan partisi untuk mengimpor data Anda lebih cepat. Partisi memberikan Data Wrangler kemampuan untuk memproses data secara paralel. Secara default, Data Wrangler menggunakan 2 partisi. Untuk sebagian besar kasus penggunaan, 2 partisi memberi Anda kecepatan pemrosesan data yang hampir optimal.

Jika Anda memilih untuk menentukan lebih dari 2 partisi, Anda juga dapat menentukan kolom untuk mempartisi data. Jenis nilai di kolom harus numerik atau tanggal.

Sebaiknya gunakan partisi hanya jika Anda memahami struktur data dan cara pengolahannya.

Anda dapat mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk database Databricks, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Gunakan prosedur berikut untuk mengimpor data Anda dari database Databricks.

Untuk mengimpor data dari Databricks, lakukan hal berikut.

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. **Dari tab **Impor data** alur Data Wrangler Anda, pilih Databricks.**

1. Tentukan bidang berikut:
   + **Nama Dataset** — Nama yang ingin Anda gunakan untuk kumpulan data dalam alur Data Wrangler Anda.
   + **Pengemudi** — **com.simba.spark.jdbc.driver**.
   + URL **JDBC — URL** dari database Databricks. Pemformatan URL dapat bervariasi antara instance Databricks. Untuk informasi tentang menemukan URL dan menentukan parameter di dalamnya, lihat [konfigurasi JDBC dan](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters) parameter koneksi. Berikut ini adalah contoh bagaimana URL dapat diformat: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; transportMode = http; ssl=1; httpPATH= /3122619508517275/0909-200301-cut318; =3; UID =; PWD =. sql/protocolv1/o AuthMech *token* *personal-access-token*
**catatan**  
Anda dapat menentukan ARN rahasia yang berisi URL JDBC alih-alih menentukan URL JDBC itu sendiri. Rahasianya harus berisi pasangan kunci-nilai dengan format berikut:. `jdbcURL:JDBC-URL` Untuk informasi selengkapnya, lihat [Apa itu Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) .

1. Tentukan pernyataan SQL SELECT.
**catatan**  
Data Wrangler tidak mendukung Common Table Expressions (CTE) atau tabel sementara dalam kueri.

1. Untuk **Sampling**, pilih metode pengambilan sampel.

1. Pilih **Jalankan**. 

1. (Opsional) Untuk **PREVIEW**, pilih roda gigi untuk membuka **pengaturan Partisi**. 

   1. Tentukan jumlah partisi. Anda dapat mempartisi berdasarkan kolom jika Anda menentukan jumlah partisi:
     + **Masukkan jumlah partisi** - Tentukan nilai yang lebih besar dari 2.
     + (Opsional) **Partisi demi kolom** - Tentukan bidang berikut. Anda hanya dapat partisi dengan kolom jika Anda telah menentukan nilai untuk **Masukkan jumlah partisi.**
       + **Pilih kolom** - Pilih kolom yang Anda gunakan untuk partisi data. Tipe data kolom harus numerik atau tanggal.
       + **Batas atas** - Dari nilai di kolom yang telah Anda tentukan, batas atas adalah nilai yang Anda gunakan di partisi. Nilai yang Anda tentukan tidak mengubah data yang Anda impor. Itu hanya mempengaruhi kecepatan impor. Untuk kinerja terbaik, tentukan batas atas yang mendekati maksimum kolom.
       + Batas **bawah** - Dari nilai di kolom yang telah Anda tentukan, batas bawah adalah nilai yang Anda gunakan di partisi. Nilai yang Anda tentukan tidak mengubah data yang Anda impor. Itu hanya mempengaruhi kecepatan impor. Untuk kinerja terbaik, tentukan batas bawah yang mendekati minimum kolom.

1. Pilih **Impor**.

## Impor data dari Salesforce Data Cloud
<a name="data-wrangler-import-salesforce-data-cloud"></a>

Anda dapat menggunakan Salesforce Data Cloud sebagai sumber data di Amazon Data Wrangler untuk menyiapkan SageMaker data di Salesforce Data Cloud Anda untuk pembelajaran mesin.

Dengan Salesforce Data Cloud sebagai sumber data di Data Wrangler, Anda dapat dengan cepat terhubung ke data Salesforce Anda tanpa menulis satu baris kode pun. Anda dapat menggabungkan data Salesforce Anda dengan data dari sumber data lain di Data Wrangler.

Setelah Anda terhubung ke cloud data, Anda dapat melakukan hal berikut:
+ Visualisasikan data Anda dengan visualisasi bawaan
+ Memahami data dan mengidentifikasi potensi kesalahan dan nilai ekstrim
+ Transformasi data dengan lebih dari 300 transformasi bawaan
+ Ekspor data yang telah Anda ubah

**Topics**
+ [

### Pengaturan administrator
](#data-wrangler-import-salesforce-data-cloud-administrator)
+ [

### Panduan Ilmuwan Data
](#data-wrangler-salesforce-data-cloud-ds)

### Pengaturan administrator
<a name="data-wrangler-import-salesforce-data-cloud-administrator"></a>

**penting**  
Sebelum memulai, pastikan pengguna Anda menjalankan Amazon SageMaker Studio Classic versi 1.3.0 atau yang lebih baru. Untuk informasi tentang memeriksa versi Studio Classic dan memperbaruinya, lihat[Siapkan Data ML dengan Amazon SageMaker Data Wrangler](data-wrangler.md).

Saat menyiapkan akses ke Salesforce Data Cloud, Anda harus menyelesaikan tugas-tugas berikut:
+ Mendapatkan URL Domain Salesforce Anda. Salesforce juga mengacu pada URL Domain sebagai URL organisasi Anda.
+ Mendapatkan OAuth kredensi dari Salesforce. 
+ Mendapatkan URL otorisasi dan URL token untuk Domain Salesforce Anda.
+ Membuat AWS Secrets Manager rahasia dengan OAuth konfigurasi.
+ Membuat konfigurasi siklus hidup yang digunakan Data Wrangler untuk membaca kredensil dari rahasia.
+ Memberikan izin Data Wrangler untuk membaca rahasianya.

Setelah Anda melakukan tugas sebelumnya, pengguna Anda dapat masuk ke Salesforce Data Cloud menggunakan. OAuth

**catatan**  
Pengguna Anda mungkin mengalami masalah setelah Anda mengatur semuanya. Untuk informasi tentang pemecahan masalah, lihat. [Pemecahan masalah dengan Salesforce](data-wrangler-trouble-shooting.md#data-wrangler-troubleshooting-salesforce-data-cloud)

Gunakan prosedur berikut untuk mendapatkan URL Domain.

1. Arahkan ke halaman login [Salesforce](login.salesforce.com).

1. Untuk **Pencarian cepat, tentukan** **Domain Saya**.

1. Salin nilai **URL Domain Saya Saat Ini** ke file teks.

1. Tambahkan `https://` ke awal URL. 

Setelah Anda mendapatkan URL Domain Salesforce, Anda dapat menggunakan prosedur berikut untuk mendapatkan kredensil login dari Salesforce dan memungkinkan Data Wrangler untuk mengakses data Salesforce Anda.

Untuk mendapatkan kredensi log in dari Salesforce dan memberikan akses ke Data Wrangler, lakukan hal berikut.

1. Arahkan ke URL Domain Salesforce Anda dan masuk ke akun Anda.

1. Pilih ikon roda gigi.

1. Di bilah pencarian yang muncul, tentukan **Manajer Aplikasi**.

1. Pilih **Aplikasi Terhubung Baru**.

1. Tentukan bidang berikut:
   + Nama Aplikasi Terhubung — Anda dapat menentukan nama apa pun, tetapi sebaiknya pilih nama yang menyertakan Data Wrangler. Misalnya, Anda dapat menentukan Integrasi **Wrangler Data Cloud Data Salesforce**.
   + Nama API - Gunakan nilai default.
   + Email Kontak - Tentukan alamat email Anda.
   + Di bawah **judul API (Aktifkan OAuth Pengaturan)**, pilih kotak centang untuk mengaktifkan OAuth pengaturan.
   + Untuk URL **Callback, tentukan URL** Amazon SageMaker Studio Classic. Untuk mendapatkan URL Studio Classic, akses dari Konsol Manajemen AWS dan salin URL.

1. Di bawah ** OAuth Lingkup Terpilih**, pindahkan yang berikut ini dari Cakupan yang **Tersedia ke OAuth Lingkup** **Terpilih OAuth**:
   + Mengelola data pengguna melalui APIs (`api`)
   + Lakukan permintaan kapan saja (`refresh_token`,`offline_access`)
   + Lakukan kueri ANSI SQL pada data Salesforce Data Cloud () `cdp_query_api`
   + Mengelola data profil Platform Data Pelanggan Salesforce () `cdp_profile_api`

1. Pilih **Simpan**. Setelah Anda menyimpan perubahan, Salesforce membuka halaman baru.

1. Pilih **Continue** (Lanjutkan)

1. Arahkan ke **Kunci Konsumen dan Rahasia**.

1. Pilih **Kelola Detail Konsumen**. Salesforce mengarahkan Anda ke halaman baru di mana Anda mungkin harus melewati otentikasi dua faktor.

1. 
**penting**  
Salin Kunci Konsumen dan Rahasia Konsumen ke editor teks. Anda memerlukan informasi ini untuk menghubungkan cloud data ke Data Wrangler.

1. Arahkan kembali ke **Kelola Aplikasi Terhubung**.

1. Arahkan ke **Nama Aplikasi Terhubung** dan nama aplikasi Anda.

1. Pilih **Kelola**.

   1. Pilih **Edit Kebijakan**.

   1. Ubah **Relaksasi IP ke Relaksasi** **pembatasan IP**.

   1. Pilih **Simpan**.

Setelah Anda memberikan akses ke Salesforce Data Cloud Anda, Anda perlu memberikan izin untuk pengguna Anda. Gunakan prosedur berikut untuk memberi mereka izin.

Untuk memberikan izin kepada pengguna Anda, lakukan hal berikut.

1. Arahkan ke halaman beranda pengaturan.

1. Di navigasi sebelah kiri, cari **Pengguna** dan pilih item menu **Pengguna**.

1. Pilih hyperlink dengan nama pengguna Anda.

1. Arahkan ke **Izin Set Tugas.**

1. Pilih **Edit Tugas.**

1. Tambahkan izin berikut:
   + **Admin Platform Data Pelanggan**
   + **Spesialis Sadar Data Platform Data Pelanggan**

1. Pilih **Simpan**.

Setelah Anda mendapatkan informasi untuk Domain Salesforce Anda, Anda harus mendapatkan URL otorisasi dan URL token untuk AWS Secrets Manager rahasia yang Anda buat.

Gunakan prosedur berikut untuk mendapatkan URL otorisasi dan URL token.

**Untuk mendapatkan URL otorisasi dan URL token**

1. Arahkan ke URL Domain Salesforce Anda.

1. Gunakan salah satu metode berikut untuk mendapatkan URLs. Jika Anda menggunakan distribusi Linux dengan `curl` dan `jq` diinstal, kami sarankan menggunakan metode yang hanya berfungsi di Linux.
   + (Hanya Linux) Tentukan perintah berikut di terminal Anda.

     ```
     curl salesforce-domain-URL/.well-known/openid-configuration | \
     jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \
     jq '.  += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
     ```
   + 

     1. Arahkan ke **example-org-URL*/.well-known/openid-configuration* di browser Anda.

     1. Salin `authorization_endpoint` dan `token_endpoint` ke editor teks.

     1. Buat objek JSON berikut:

        ```
        {
          "identity_provider": "SALESFORCE",
          "authorization_url": "example-authorization-endpoint", 
          "token_url": "example-token-endpoint",
          "client_id": "example-consumer-key",
          "client_secret": "example-consumer-secret"
        }
        ```

Setelah Anda membuat objek OAuth konfigurasi, Anda dapat membuat AWS Secrets Manager rahasia yang menyimpannya. Gunakan prosedur berikut untuk membuat rahasia.

Untuk membuat rahasia, lakukan hal berikut.

1. Navigasikan ke [konsol AWS Secrets Manager](https://console.aws.amazon.com/secretsmanager/) tersebut.

1. Pilih **Simpan rahasia**.

1. Pilih **Jenis rahasia lainnya**.

1. **Di bawah pasangan **kunci/nilai** pilih Plaintext.**

1. Ganti JSON kosong dengan pengaturan konfigurasi berikut.

   ```
   {
     "identity_provider": "SALESFORCE",
     "authorization_url": "example-authorization-endpoint", 
     "token_url": "example-token-endpoint",
     "client_id": "example-consumer-key",
     "client_secret": "example-consumer-secret"
   }
   ```

1. Pilih **Berikutnya**.

1. Untuk **Nama Rahasia**, tentukan nama rahasianya.

1. Di bawah **Tag**, pilih **Tambah**.

   1. Untuk **Kunci**, tentukan **sagemaker:partner**. Untuk **Nilai**, sebaiknya tentukan nilai yang mungkin berguna untuk kasus penggunaan Anda. Namun, Anda dapat menentukan apa saja.
**penting**  
Anda harus membuat kuncinya. Anda tidak dapat mengimpor data dari Salesforce jika Anda tidak membuatnya.

1. Pilih **Berikutnya**.

1. Pilih **Toko**.

1. Pilih rahasia yang telah Anda buat.

1. Catat bidang-bidang berikut:
   + Nomor Sumber Daya Amazon (ARN) rahasia
   + Nama rahasianya

Setelah Anda membuat rahasia, Anda harus menambahkan izin untuk Data Wrangler untuk membaca rahasianya. Gunakan prosedur berikut untuk menambahkan izin.

Untuk menambahkan izin baca untuk Data Wrangler, lakukan hal berikut.

1. Arahkan ke [konsol Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

1. Pilih **domain**.

1. Pilih domain yang Anda gunakan untuk mengakses Data Wrangler.

1. Pilih **Profil Pengguna** Anda.

1. Di bawah **Detail**, temukan **peran Eksekusi**. ARN-nya dalam format berikut:. `arn:aws:iam::111122223333:role/example-role` Catat peran eksekusi SageMaker AI. Di dalam ARN, semuanya setelahnya. `role/`

1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

1. Di bilah **pencarian IAM** Search, tentukan nama peran eksekusi SageMaker AI.

1. Pilih peran.

1. Pilih **Tambahkan izin**.

1. Pilih **Buat kebijakan sebaris**.

1. Pilih tab JSON.

1. Tentukan kebijakan berikut di dalam editor.

------
#### [ JSON ]

****  

   ```
   {
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue",
                "secretsmanager:PutSecretValue"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:*",
            "Condition": {
                "ForAnyValue:StringLike": {
                    "aws:ResourceTag/sagemaker:partner": "*"
                }
            }
        },
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:UpdateSecret"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*"
        }
    ]
   }
   ```

------

1. Pilih **Tinjau Kebijakan**.

1. Untuk **Nama**, tentukan nama.

1. Pilih **Buat kebijakan**.

Setelah Anda memberikan izin Data Wrangler untuk membaca rahasia, Anda harus menambahkan Konfigurasi Siklus Hidup yang menggunakan rahasia Secrets Manager ke profil pengguna Amazon SageMaker Studio Classic Anda.

Gunakan prosedur berikut untuk membuat konfigurasi siklus hidup dan menambahkannya ke profil Studio Classic.

Untuk membuat konfigurasi siklus hidup dan menambahkannya ke profil Studio Classic, lakukan hal berikut.

1. Arahkan ke [konsol Amazon SageMaker AI](console.aws.amazon.com/sagemaker).

1. Pilih **domain**.

1. Pilih domain yang Anda gunakan untuk mengakses Data Wrangler.

1. Pilih **Profil Pengguna** Anda.

1. Jika Anda melihat aplikasi berikut, hapus:
   + KernelGateway
   + JupyterKernel
**catatan**  
Menghapus pembaruan aplikasi Studio Classic. Butuh beberapa saat agar pembaruan terjadi.

1. Saat Anda menunggu pembaruan terjadi, pilih Konfigurasi **Siklus Hidup**.

1. Pastikan halaman yang Anda kunjungi mengatakan konfigurasi **Siklus Hidup Studio Classic**.

1. Pilih **Buat konfigurasi**.

1. Pastikan **aplikasi server Jupyter** telah dipilih.

1. Pilih **Berikutnya**.

1. Untuk **Nama**, tentukan nama untuk konfigurasi.

1. Untuk **Skrip**, tentukan skrip berikut:

   ```
   #!/bin/bash
   set -eux
   
   cat > ~/.sfgenie_identity_provider_oauth_config <<EOL
   {
       "secret_arn": "secrets-arn-containing-salesforce-credentials"
   }
   EOL
   ```

1. Pilih **Kirim**.

1. Di navigasi sebelah kiri, pilih **domain**.

1. Pilih domain Anda.

1. Pilih **Lingkungan**.

1. **Di bawah **Konfigurasi Siklus Hidup untuk aplikasi Studio Classic pribadi**, pilih Lampirkan.** 

1. Pilih **Konfigurasi yang ada**.

1. Di bawah konfigurasi **Siklus Hidup Studio Classic pilih konfigurasi** siklus hidup yang telah Anda buat.

1. Pilih **Lampirkan ke domain**.

1. Pilih kotak centang di samping konfigurasi siklus hidup yang telah Anda lampirkan.

1. Pilih **Tetapkan sebagai default**.

Anda mungkin mengalami masalah saat menyiapkan konfigurasi siklus hidup Anda. Untuk informasi tentang debugging mereka, lihat[Debug Konfigurasi Siklus Hidup di Amazon Studio Classic SageMaker](studio-lcc-debug.md).

### Panduan Ilmuwan Data
<a name="data-wrangler-salesforce-data-cloud-ds"></a>

Gunakan yang berikut ini untuk menghubungkan Salesforce Data Cloud dan mengakses data Anda di Data Wrangler.

**penting**  
Administrator Anda perlu menggunakan informasi di bagian sebelumnya untuk menyiapkan Salesforce Data Cloud. Jika Anda mengalami masalah, hubungi mereka untuk bantuan pemecahan masalah.

Untuk membuka Studio Classic dan memeriksa versinya, lihat prosedur berikut.

1. Gunakan langkah-langkah [Prasyarat](data-wrangler-getting-started.md#data-wrangler-getting-started-prerequisite) untuk mengakses Data Wrangler melalui Amazon SageMaker Studio Classic.

1. Di samping pengguna yang ingin Anda gunakan untuk meluncurkan Studio Classic, pilih **Luncurkan aplikasi**.

1. Pilih **Studio**.

**Untuk membuat dataset di Data Wrangler dengan data dari Salesforce Data Cloud**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Salesforce Data Cloud**.

1. Untuk **nama Connection**, tentukan nama untuk koneksi Anda ke Salesforce Data Cloud.

1. Untuk **URL Org**, tentukan URL organisasi di akun Salesforce Anda. Anda bisa mendapatkan URL dari administrator Anda

1. Pilih **Hubungkan**.

1. Tentukan kredensyal Anda untuk masuk ke Salesforce.

Anda dapat mulai membuat kumpulan data menggunakan data dari Salesforce Data Cloud setelah Anda terhubung dengannya.

Setelah Anda memilih tabel, Anda dapat menulis kueri dan menjalankannya. Output kueri Anda ditampilkan di bawah **Hasil kueri**.

Setelah Anda menyelesaikan output kueri Anda, Anda kemudian dapat mengimpor output kueri Anda ke dalam aliran Data Wrangler untuk melakukan transformasi data. 

Setelah membuat kumpulan data, arahkan ke layar **Aliran data** untuk mulai mengubah data Anda.

## Impor data dari Snowflake
<a name="data-wrangler-snowflake"></a>

Anda dapat menggunakan Snowflake sebagai sumber data di Data Wrangler untuk menyiapkan SageMaker data di Snowflake untuk pembelajaran mesin.

Dengan Snowflake sebagai sumber data di Data Wrangler, Anda dapat dengan cepat terhubung ke Snowflake tanpa menulis satu baris kode pun. Anda dapat menggabungkan data Anda di Snowflake dengan data dari sumber data lain di Data Wrangler.

Setelah terhubung, Anda dapat secara interaktif menanyakan data yang disimpan di Snowflake, mengubah data dengan lebih dari 300 transformasi data yang telah dikonfigurasi sebelumnya, memahami data, dan mengidentifikasi potensi kesalahan dan nilai ekstrem dengan serangkaian templat visualisasi yang telah dikonfigurasi sebelumnya, dengan cepat mengidentifikasi inkonsistensi dalam alur kerja persiapan data Anda, dan mendiagnosis masalah sebelum model digunakan ke dalam produksi. Terakhir, Anda dapat mengekspor alur kerja persiapan data ke Amazon S3 untuk digunakan dengan fitur AI SageMaker lainnya seperti Amazon Autopilot, SageMaker Amazon Feature Store, dan SageMaker Amazon Pipelines. SageMaker 

Anda dapat mengenkripsi output kueri Anda menggunakan AWS Key Management Service kunci yang telah Anda buat. Untuk informasi lebih lanjut tentang AWS KMS, lihat [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

**Topics**
+ [

### Panduan Administrator
](#data-wrangler-snowflake-admin)
+ [

### Panduan Ilmuwan Data
](#data-wrangler-snowflake-ds)

### Panduan Administrator
<a name="data-wrangler-snowflake-admin"></a>

**penting**  
Untuk mempelajari lebih lanjut tentang kontrol akses terperinci dan praktik terbaik, lihat [Kontrol Akses Keamanan](https://docs.snowflake.com/en/user-guide/security-access-control.html). 

Bagian ini untuk administrator Snowflake yang menyiapkan akses ke Snowflake dari dalam Data Wrangler. SageMaker 

**penting**  
Anda bertanggung jawab untuk mengelola dan memantau kontrol akses dalam Snowflake. Data Wrangler tidak menambahkan lapisan kontrol akses sehubungan dengan Snowflake.   
Kontrol akses meliputi:  
Data yang diakses pengguna
(Opsional) Integrasi penyimpanan yang menyediakan Snowflake kemampuan untuk menulis hasil kueri ke bucket Amazon S3
Kueri yang dapat dijalankan pengguna

#### (Opsional) Konfigurasikan Izin Impor Data Kepingan Salju
<a name="data-wrangler-snowflake-admin-config"></a>

Secara default, Data Wrangler menanyakan data di Snowflake tanpa membuat salinannya di lokasi Amazon S3. Gunakan informasi berikut jika Anda mengonfigurasi integrasi penyimpanan dengan Snowflake. Pengguna Anda dapat menggunakan integrasi penyimpanan untuk menyimpan hasil kueri mereka di lokasi Amazon S3.

Pengguna Anda mungkin memiliki tingkat akses data sensitif yang berbeda. Untuk keamanan data yang optimal, sediakan integrasi penyimpanan masing-masing pengguna. Setiap integrasi penyimpanan harus memiliki kebijakan tata kelola datanya sendiri.

Fitur ini saat ini tidak tersedia di Wilayah keikutsertaan.

Snowflake memerlukan izin berikut pada bucket dan direktori S3 untuk dapat mengakses file di direktori:
+ `s3:GetObject`
+ `s3:GetObjectVersion`
+ `s3:ListBucket`
+ `s3:ListObjects`
+ `s3:GetBucketLocation`

**Buat kebijakan IAM**

Anda harus membuat kebijakan IAM untuk mengonfigurasi izin akses bagi Snowflake untuk memuat dan membongkar data dari bucket Amazon S3.

Berikut ini adalah dokumen kebijakan JSON yang Anda gunakan untuk membuat kebijakan:

```
# Example policy for S3 write access
# This needs to be updated
{
"Version": "2012-10-17",		 	 	 
"Statement": [
  {
    "Effect": "Allow",
    "Action": [
        "s3:PutObject",
        "s3:GetObject",
        "s3:GetObjectVersion",
        "s3:DeleteObject",
        "s3:DeleteObjectVersion"
    ],
    "Resource": "arn:aws:s3:::bucket/prefix/*"
  },
  {
    "Effect": "Allow",
    "Action": [
        "s3:ListBucket"
    ],
    "Resource": "arn:aws:s3:::bucket/",
    "Condition": {
        "StringLike": {
            "s3:prefix": ["prefix/*"]
        }
    }
  }
 ]
}
```

Untuk informasi dan prosedur tentang membuat kebijakan dengan dokumen kebijakan, lihat [Membuat kebijakan IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html).

Untuk dokumentasi yang memberikan ikhtisar penggunaan izin IAM dengan Snowflake, lihat sumber daya berikut:
+ [Apa itu IAM?](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html)
+ [Buat Peran IAM di AWS](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-2-create-the-iam-role-in-aws)
+ [Buat Integrasi Penyimpanan Cloud di Snowflake](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake)
+ [Ambil Pengguna AWS IAM untuk Akun Snowflake Anda](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-4-retrieve-the-aws-iam-user-for-your-snowflake-account)
+ [Berikan Izin Pengguna IAM untuk Mengakses Bucket](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-5-grant-the-iam-user-permissions-to-access-bucket-objects).

Untuk memberikan izin penggunaan peran Snowflake ilmuwan data ke integrasi penyimpanan, Anda harus menjalankannya. `GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;`
+ `integration_name`adalah nama integrasi penyimpanan Anda.
+ `snowflake_role`adalah nama [peran Snowflake](https://docs.snowflake.com/en/user-guide/security-access-control-overview.html#roles) default yang diberikan kepada pengguna ilmuwan data.

#### Menyiapkan Akses Kepingan Salju OAuth
<a name="data-wrangler-snowflake-oauth-setup"></a>

Alih-alih meminta pengguna Anda langsung memasukkan kredensialnya ke Data Wrangler, Anda dapat meminta mereka menggunakan penyedia identitas untuk mengakses Snowflake. Berikut ini adalah tautan ke dokumentasi Snowflake untuk penyedia identitas yang didukung Data Wrangler.
+ [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
+ [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
+ [Federasi Ping](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Gunakan dokumentasi dari tautan sebelumnya untuk mengatur akses ke penyedia identitas Anda. Informasi dan prosedur di bagian ini membantu Anda memahami cara menggunakan dokumentasi dengan benar untuk mengakses Snowflake dalam Data Wrangler.

Penyedia identitas Anda perlu mengenali Data Wrangler sebagai aplikasi. Gunakan prosedur berikut untuk mendaftarkan Data Wrangler sebagai aplikasi dalam penyedia identitas:

1. Pilih konfigurasi yang memulai proses pendaftaran Data Wrangler sebagai aplikasi.

1. Berikan pengguna dalam penyedia identitas akses ke Data Wrangler.

1. Aktifkan otentikasi OAuth klien dengan menyimpan kredensi klien sebagai rahasia. AWS Secrets Manager 

1. Tentukan URL pengalihan menggunakan format berikut: https://*domain-ID*.studio. *Wilayah AWS*.pembuat sagemaker. aws/jupyter/default/lab
**penting**  
Anda menentukan ID domain Amazon SageMaker AI dan Wilayah AWS yang Anda gunakan untuk menjalankan Data Wrangler.
**penting**  
Anda harus mendaftarkan URL untuk setiap domain Amazon SageMaker AI dan Wilayah AWS tempat Anda menjalankan Data Wrangler. Pengguna dari domain dan Wilayah AWS yang tidak memiliki URLs pengaturan pengalihan untuk mereka tidak akan dapat mengautentikasi dengan penyedia identitas untuk mengakses koneksi Snowflake.

1. Pastikan kode otorisasi dan jenis hibah token refresh diizinkan untuk aplikasi Data Wrangler.

Dalam penyedia identitas Anda, Anda harus menyiapkan server yang mengirim OAuth token ke Data Wrangler di tingkat pengguna. Server mengirimkan token dengan Snowflake sebagai penonton.

Snowflake menggunakan konsep peran yang berbeda peran IAM digunakan. AWS Anda harus mengonfigurasi penyedia identitas untuk menggunakan peran apa pun untuk menggunakan peran default yang terkait dengan akun Snowflake. Misalnya, jika pengguna memiliki peran default dalam profil Snowflake mereka, koneksi dari Data Wrangler ke Snowflake digunakan `systems administrator` sebagai peran. `systems administrator`

Gunakan prosedur berikut untuk mengatur server.

Untuk mengatur server, lakukan hal berikut. Anda bekerja di dalam Snowflake untuk semua langkah kecuali yang terakhir.

1. Mulai mengatur server atau API.

1. Konfigurasikan server otorisasi untuk menggunakan kode otorisasi dan segarkan jenis hibah token.

1. Tentukan masa pakai token akses.

1. Setel batas waktu idle token refresh. Batas waktu idle adalah waktu token refresh kedaluwarsa jika tidak digunakan.
**catatan**  
Jika Anda menjadwalkan pekerjaan di Data Wrangler, kami sarankan untuk membuat waktu tunggu idle lebih besar daripada frekuensi pekerjaan pemrosesan. Jika tidak, beberapa pekerjaan pemrosesan mungkin gagal karena token penyegaran kedaluwarsa sebelum dapat dijalankan. Ketika token penyegaran kedaluwarsa, pengguna harus mengautentikasi ulang dengan mengakses koneksi yang telah mereka buat ke Snowflake melalui Data Wrangler.

1. Tentukan `session:role-any` sebagai ruang lingkup baru.
**catatan**  
Untuk Azure AD, salin pengenal unik untuk ruang lingkup. Data Wrangler mengharuskan Anda untuk menyediakannya dengan pengenal.

1. 
**penting**  
Dalam Integrasi OAuth Keamanan Eksternal untuk Kepingan Salju, aktifkan. `external_oauth_any_role_mode`

**penting**  
Data Wrangler tidak mendukung token penyegaran yang berputar. Menggunakan token penyegaran yang berputar dapat mengakibatkan kegagalan akses atau pengguna harus sering masuk.

**penting**  
Jika token penyegaran kedaluwarsa, pengguna Anda harus mengautentikasi ulang dengan mengakses koneksi yang telah mereka buat ke Snowflake melalui Data Wrangler.

Setelah menyiapkan OAuth penyedia, Anda memberikan Data Wrangler informasi yang dibutuhkan untuk terhubung ke penyedia. Anda dapat menggunakan dokumentasi dari penyedia identitas Anda untuk mendapatkan nilai untuk bidang berikut:
+ URL Token — URL token yang dikirim oleh penyedia identitas ke Data Wrangler.
+ URL otorisasi — URL server otorisasi penyedia identitas.
+ ID Klien — ID penyedia identitas.
+ Rahasia klien — Rahasia yang hanya dikenali oleh server otorisasi atau API.
+ (Hanya Azure AD) Kredensi OAuth cakupan yang telah Anda salin.

Anda menyimpan bidang dan nilai dalam AWS Secrets Manager rahasia dan menambahkannya ke konfigurasi siklus hidup Amazon SageMaker Studio Classic yang Anda gunakan untuk Data Wrangler. Konfigurasi Siklus Hidup adalah skrip shell. Gunakan untuk membuat Nama Sumber Daya Amazon (ARN) dari rahasia dapat diakses oleh Data Wrangler. Untuk informasi tentang membuat rahasia, lihat [Memindahkan rahasia hardcode](https://docs.aws.amazon.com/secretsmanager/latest/userguide/hardcoded.html) ke. AWS Secrets Manager Untuk informasi tentang menggunakan konfigurasi siklus hidup di Studio Classic, lihat. [Menggunakan Konfigurasi Siklus Hidup untuk Menyesuaikan Amazon Studio Classic SageMaker](studio-lcc.md)

**penting**  
Sebelum membuat rahasia Secrets Manager, pastikan peran eksekusi SageMaker AI yang Anda gunakan untuk Amazon SageMaker Studio Classic memiliki izin untuk membuat dan memperbarui rahasia di Secrets Manager. Untuk informasi selengkapnya tentang menambahkan izin, lihat [Contoh: Izin untuk membuat rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/auth-and-access_examples.html#auth-and-access_examples_create).

Untuk Okta dan Ping Federate, berikut ini adalah format rahasianya:

```
{
    "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token",
    "client_id":"example-client-id",
    "client_secret":"example-client-secret",
    "identity_provider":"OKTA"|"PING_FEDERATE",
    "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize"
}
```

Untuk Azure AD, berikut ini adalah format rahasianya:

```
{
    "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token",
    "client_id":"example-client-id",
    "client_secret":"example-client-secret",
    "identity_provider":"AZURE_AD",
    "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize",
    "datasource_oauth_scope":"api://appuri/session:role-any)"
}
```

Anda harus memiliki konfigurasi siklus hidup yang menggunakan rahasia Secrets Manager yang telah Anda buat. Anda dapat membuat konfigurasi siklus hidup atau memodifikasi konfigurasi yang telah dibuat. Konfigurasi harus menggunakan skrip berikut.

```
#!/bin/bash

set -eux

## Script Body

cat > ~/.snowflake_identity_provider_oauth_config <<EOL
{
    "secret_arn": "example-secret-arn"
}
EOL
```

Untuk informasi tentang menyiapkan konfigurasi siklus hidup, lihat. [Membuat dan Mengaitkan Konfigurasi Siklus Hidup dengan Amazon SageMaker Studio Classic](studio-lcc-create.md) Ketika Anda akan melalui proses pengaturan, lakukan hal berikut:
+ Atur jenis aplikasi konfigurasi ke`Jupyter Server`.
+ Lampirkan konfigurasi ke domain Amazon SageMaker AI yang memiliki pengguna Anda.
+ Jalankan konfigurasi secara default. Itu harus berjalan setiap kali pengguna login ke Studio Classic. Jika tidak, kredensyal yang disimpan dalam konfigurasi tidak akan tersedia bagi pengguna Anda saat mereka menggunakan Data Wrangler.
+ Konfigurasi siklus hidup membuat file dengan nama, `snowflake_identity_provider_oauth_config` di folder beranda pengguna. File tersebut berisi rahasia Secrets Manager. Pastikan itu ada di folder beranda pengguna setiap kali instance Jupyter Server diinisialisasi.

#### Konektivitas Pribadi antara Data Wrangler dan Snowflake via AWS PrivateLink
<a name="data-wrangler-security-snowflake-vpc"></a>

Bagian ini menjelaskan cara menggunakan AWS PrivateLink untuk membuat koneksi pribadi antara Data Wrangler dan Snowflake. Langkah-langkahnya dijelaskan di bagian berikut. 

##### Buat VPC
<a name="data-wrangler-snowflake-snowflake-vpc-setup"></a>

Jika Anda tidak memiliki pengaturan VPC, ikuti instruksi [Buat VPC baru](https://docs.aws.amazon.com/directoryservice/latest/admin-guide/gsg_create_vpc.html#create_vpc) untuk membuatnya.

Setelah Anda memiliki VPC pilihan yang ingin Anda gunakan untuk membuat koneksi pribadi, berikan kredensyal berikut kepada Administrator Snowflake Anda untuk mengaktifkan: AWS PrivateLink
+ VPC ID
+ AWS ID Akun
+ URL akun terkait yang Anda gunakan untuk mengakses Snowflake

**penting**  
Seperti yang dijelaskan dalam dokumentasi Snowflake, mengaktifkan akun Snowflake Anda dapat memakan waktu hingga dua hari kerja. 

##### Mengatur Integrasi Kepingan Salju AWS PrivateLink
<a name="data-wrangler-snowflake-snowflake-vpc-privatelink-setup"></a>

Setelah AWS PrivateLink diaktifkan, ambil AWS PrivateLink konfigurasi untuk Wilayah Anda dengan menjalankan perintah berikut di lembar kerja Snowflake. **Masuk ke konsol Snowflake Anda dan masukkan yang berikut ini di bawah Lembar Kerja:** `select SYSTEM$GET_PRIVATELINK_CONFIG();` 

1. Ambil nilai untuk berikut:`privatelink-account-name`,, `privatelink_ocsp-url``privatelink-account-url`, dan `privatelink_ocsp-url` dari objek JSON yang dihasilkan. Contoh dari setiap nilai ditampilkan dalam cuplikan berikut. Simpan nilai-nilai ini untuk digunakan nanti.

   ```
   privatelink-account-name: xxxxxxxx.region.privatelink
   privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx
   privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com
   privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
   ```

1. Beralih ke AWS Konsol Anda dan navigasikan ke menu VPC.

1. Dari panel sisi kiri, pilih tautan **Endpoints** untuk menavigasi ke pengaturan **VPC** Endpoints.

   Sesampai di sana, pilih **Create Endpoint**. 

1. Pilih tombol radio untuk **Temukan layanan dengan nama**, seperti yang ditunjukkan pada gambar berikut.   
![\[Bagian Create Endpoint di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-radio.png)

1. **Di bidang **Nama Layanan**, tempelkan nilai untuk `privatelink-vpce-id` yang Anda ambil di langkah sebelumnya dan pilih Verifikasi.** 

   Jika koneksi berhasil, peringatan hijau yang mengatakan **Nama layanan ditemukan** muncul di layar Anda dan opsi **VPC** dan **Subnet** secara otomatis meluas, seperti yang ditunjukkan pada gambar berikut. Bergantung pada Wilayah yang ditargetkan, layar hasil Anda mungkin menampilkan nama AWS Wilayah lain.   
![\[Bagian Create Endpoint di konsol yang menunjukkan koneksi berhasil.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-service-name-found.png)

1. **Pilih ID VPC yang sama yang Anda kirim ke Snowflake dari daftar dropdown VPC.**

1. Jika Anda belum membuat subnet, maka lakukan serangkaian instruksi berikut untuk membuat subnet. 

1. Pilih **Subnet** dari daftar **dropdown** VPC. Kemudian pilih **Buat subnet** dan ikuti petunjuk untuk membuat subset di VPC Anda. Pastikan Anda memilih ID VPC yang Anda kirim Snowflake. 

1. Di bawah **Konfigurasi Grup Keamanan**, pilih **Buat Grup Keamanan Baru** untuk membuka layar **Grup Keamanan** default di tab baru. Di tab baru ini, pilih t **Buat Grup Keamanan**. 

1. Berikan nama untuk grup keamanan baru (seperti`datawrangler-doc-snowflake-privatelink-connection`) dan deskripsi. Pastikan untuk memilih ID VPC yang telah Anda gunakan pada langkah sebelumnya. 

1. Tambahkan dua aturan untuk mengizinkan lalu lintas dari dalam VPC Anda ke titik akhir VPC ini. 

   Arahkan ke VPC Anda di bawah tab **Anda VPCs** di tab terpisah, dan ambil blok CIDR Anda untuk VPC Anda. Kemudian pilih **Tambahkan Aturan** di bagian **Aturan Masuk**. Pilih `HTTPS` jenisnya, biarkan **Sumber** sebagai **Kustom** dalam formulir, dan tempel nilai yang diambil dari `describe-vpcs` panggilan sebelumnya (seperti). `10.0.0.0/16` 

1. Pilih **Buat Grup Keamanan**. Ambil **ID Grup Keamanan** dari grup keamanan yang baru dibuat (seperti`sg-xxxxxxxxxxxxxxxxx`).

1. Di layar konfigurasi **VPC Endpoint**, hapus grup keamanan default. Tempel di ID grup keamanan di bidang pencarian dan pilih kotak centang.  
![\[Bagian grup Keamanan di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-security-group.png)

1. Pilih **Buat Titik Akhir**. 

1. Jika pembuatan titik akhir berhasil, Anda melihat halaman yang memiliki tautan ke konfigurasi titik akhir VPC Anda, yang ditentukan oleh ID VPC. Pilih tautan untuk melihat konfigurasi secara penuh.   
![\[Bagian Detail titik akhir.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-success-endpoint.png)

   Ambil catatan paling atas dalam daftar nama DNS. Ini dapat dibedakan dari nama DNS lain karena hanya menyertakan nama Wilayah (seperti`us-west-2`), dan tidak ada notasi huruf Availability Zone (seperti). `us-west-2a` Simpan informasi ini untuk digunakan nanti.

##### Konfigurasikan DNS untuk Snowflake Endpoint di VPC Anda
<a name="data-wrangler-snowflake-vpc-privatelink-dns"></a>

Bagian ini menjelaskan cara mengonfigurasi DNS untuk titik akhir Snowflake di VPC Anda. Ini memungkinkan VPC Anda menyelesaikan permintaan ke titik akhir Snowflake AWS PrivateLink . 

1. Arahkan ke [menu Route 53](https://console.aws.amazon.com/route53) di dalam AWS konsol Anda.

1. Pilih opsi **Zona yang Dihosting** (jika perlu, perluas menu sebelah kiri untuk menemukan opsi ini).

1. Pilih **Buat Zona yang Di-hosting**.

   1. Di bidang **Nama domain**, referensi nilai yang disimpan untuk `privatelink-account-url` langkah-langkah sebelumnya. Di bidang ini, ID akun Snowflake Anda dihapus dari nama DNS dan hanya menggunakan nilai yang dimulai dengan pengenal Wilayah. Sebuah **Resource Record Set** juga dibuat nanti untuk subdomain, seperti,`region.privatelink.snowflakecomputing.com`.

   1. Pilih tombol radio untuk **Private Hosted Zone** di bagian **Type**. Kode Wilayah Anda mungkin tidak`us-west-2`. Referensi nama DNS yang dikembalikan kepada Anda oleh Snowflake.  
![\[Halaman Buat zona yang dihosting di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-create-hosted-zone.png)

   1. Di bagian **VPCs untuk mengaitkan dengan zona yang dihosting**, pilih Wilayah tempat VPC Anda berada dan ID VPC yang digunakan pada langkah sebelumnya.  
![\[VPCs Untuk mengasosiasikan dengan bagian zona yang dihosting di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-vpc-hosted-zone.png)

   1. Pilih **Buat zona yang di-hosting**.

1. Selanjutnya, buat dua catatan, satu untuk `privatelink-account-url` dan satu untuk`privatelink_ocsp-url`.
   + Di menu **Zona yang Dihosting**, pilih **Buat Kumpulan Rekaman**.

     1. Di bawah **nama Rekam**, masukkan ID Akun Snowflake Anda saja (8 karakter pertama di`privatelink-account-url`).

     1. Di bawah **Jenis rekaman**, pilih **CNAME**.

     1. Di bawah **Nilai**, masukkan nama DNS untuk titik akhir VPC regional yang Anda ambil pada langkah terakhir dari bagian *Mengatur Integrasi Kepingan Salju*. AWS PrivateLink   
![\[Bagian Quick create record di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-record.png)

     1. Pilih **Create records** (Buat catatan).

     1. Ulangi langkah sebelumnya untuk catatan OCSP yang kami catat`privatelink-ocsp-url`, dimulai dengan `ocsp` melalui ID Snowflake 8 karakter untuk nama rekaman (seperti). `ocsp.xxxxxxxx`  
![\[Bagian Quick create record di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-ocsp.png)

##### Konfigurasikan Route 53 Resolver Inbound Endpoint untuk VPC Anda
<a name="data-wrangler-snowflake-vpc-privatelink-route53"></a>

Bagian ini menjelaskan cara mengonfigurasi titik akhir inbound resolver Route 53 untuk VPC Anda.

1. Arahkan ke [menu Route 53](https://console.aws.amazon.com/route53) di dalam AWS konsol Anda.
   + Di panel sebelah kiri di bagian **Keamanan**, pilih opsi **Grup Keamanan**.

1. Pilih **Buat Grup Keamanan**. 
   + Berikan nama untuk grup keamanan Anda (seperti`datawranger-doc-route53-resolver-sg`) dan deskripsi.
   + Pilih ID VPC yang digunakan pada langkah sebelumnya.
   + Buat aturan yang memungkinkan DNS melalui UDP dan TCP dari dalam blok VPC CIDR.   
![\[Bagian Aturan masuk di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-rules.png)
   + Pilih **Buat Grup Keamanan**. Perhatikan **ID Grup Keamanan** karena menambahkan aturan untuk mengizinkan lalu lintas ke grup keamanan titik akhir VPC.

1. Arahkan ke [menu Route 53](https://console.aws.amazon.com/route53) di dalam AWS konsol Anda.
   + Di bagian **Resolver**, pilih opsi **Inbound** Endpoint.

1. Pilih **Buat Titik Akhir Masuk**. 
   + Berikan nama titik akhir.
   + Dari daftar tarik-turun **VPC di Wilayah**, pilih ID VPC yang telah Anda gunakan di semua langkah sebelumnya. 
   + Dalam daftar dropdown **grup Keamanan untuk titik akhir ini**, pilih ID grup keamanan dari Langkah 2 di bagian ini.   
![\[Pengaturan umum untuk bagian titik akhir masuk di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-endpoint.png)
   + Di bagian **Alamat IP**, pilih Availability Zones, pilih subnet, dan tinggalkan pemilih radio untuk **Gunakan alamat IP yang dipilih secara otomatis dipilih** untuk setiap alamat IP.   
![\[Bagian Alamat IP di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-address-1.png)
   + Pilih **Kirim**.

1. Pilih **titik akhir Inbound** setelah dibuat.

1. Setelah titik akhir masuk dibuat, perhatikan dua alamat IP untuk resolver.  
![\[Bagian Alamat IP di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-addresses-2.png)

##### SageMaker Titik Akhir AI VPC
<a name="data-wrangler-snowflake-sagemaker-vpc-endpoints"></a>

 Bagian ini menjelaskan cara membuat titik akhir VPC untuk hal-hal berikut: Amazon SageMaker Studio Classic, SageMaker Notebooks, SageMaker API, Runtime Runtime, dan Amazon SageMaker Feature Store Runtime. SageMaker 

**Buat grup keamanan yang diterapkan ke semua titik akhir.**

1. Arahkan ke [menu EC2](https://console.aws.amazon.com/ec2) di AWS Konsol.

1. Di bagian **Jaringan & Keamanan**, pilih opsi **Grup keamanan**.

1. Pilih **Buat grup keamanan**.

1. Berikan nama dan deskripsi grup keamanan (seperti`datawrangler-doc-sagemaker-vpce-sg`). Aturan ditambahkan nanti untuk memungkinkan lalu lintas melalui HTTPS dari SageMaker AI ke grup ini. 

**Membuat titik akhir**

1. Arahkan ke [menu VPC](https://console.aws.amazon.com/vpc) di konsol. AWS 

1. Pilih opsi **Endpoints**.

1. Pilih **Buat Titik Akhir**.

1. Cari layanan dengan memasukkan namanya di bidang **Pencarian**.

1. Dari daftar dropdown **VPC**, pilih VPC tempat koneksi Snowflake Anda ada. AWS PrivateLink 

1. Di bagian **Subnet**, pilih subnet yang memiliki akses ke koneksi Snowflake PrivateLink .

1. Biarkan kotak centang **Aktifkan Nama DNS** dipilih.

1. Di bagian **Grup Keamanan**, pilih grup keamanan yang Anda buat di bagian sebelumnya.

1. Pilih **Buat Titik Akhir**.

**Konfigurasikan Studio Classic dan Data Wrangler**

Bagian ini menjelaskan cara mengkonfigurasi Studio Classic dan Data Wrangler.

1. Konfigurasikan grup keamanan.

   1. Arahkan ke menu Amazon EC2 di Konsol. AWS 

   1. Pilih opsi **Grup Keamanan** di bagian **Jaringan & Keamanan**.

   1. Pilih **Buat Grup Keamanan**. 

   1. Berikan nama dan deskripsi untuk grup keamanan Anda (seperti`datawrangler-doc-sagemaker-studio`). 

   1. Buat aturan masuk berikut.
      + Koneksi HTTPS ke grup keamanan yang Anda sediakan untuk PrivateLink koneksi Snowflake yang Anda buat di langkah *Atur* Integrasi Kepingan Salju. PrivateLink 
      + Koneksi HTTP ke grup keamanan yang Anda sediakan untuk PrivateLink koneksi Snowflake yang Anda buat di langkah *Atur* Integrasi Snowflake. PrivateLink 
      + Grup keamanan UDP dan TCP untuk DNS (port 53) ke Route 53 Resolver Inbound Endpoint yang Anda buat di langkah 2 Konfigurasi Route *53 Resolver Inbound Endpoint untuk VPC* Anda.

   1. Pilih tombol **Create Security Group** di pojok kanan bawah.

1. Konfigurasikan Studio Klasik.
   + Arahkan ke menu SageMaker AI di AWS konsol.
   + Dari konsol sebelah kiri, Pilih opsi **SageMaker AI Studio Classic**.
   + Jika Anda tidak memiliki domain yang dikonfigurasi, menu **Memulai** hadir.
   + Pilih opsi **Pengaturan Standar** dari menu **Memulai**.
   + Di bawah **metode Authentication**, pilih **AWS Identity and Access Management (IAM**).
   + Dari menu **Izin**, Anda dapat membuat peran baru atau menggunakan peran yang sudah ada sebelumnya, tergantung pada kasus penggunaan Anda.
     + Jika Anda memilih **Buat peran baru**, Anda akan diberikan opsi untuk memberikan nama bucket S3, dan kebijakan dibuat untuk Anda.
     + Jika Anda sudah memiliki peran yang dibuat dengan izin untuk bucket S3 yang Anda perlukan akses, pilih peran dari daftar tarik-turun. Peran ini harus memiliki `AmazonSageMakerFullAccess` kebijakan yang melekat padanya.
   + Pilih daftar tarik-turun **Jaringan dan Penyimpanan** untuk mengonfigurasi VPC, keamanan, dan subnet yang digunakan AI. SageMaker 
     + Di bawah **VPC**, pilih VPC tempat koneksi Snowflake Anda ada. PrivateLink 
     + Di bawah **Subnet (s)**, pilih subnet yang memiliki akses ke koneksi Snowflake PrivateLink.
     + Di bawah **Akses Jaringan untuk Studio Classic**, pilih **VPC Only**.
     + Di bawah **Grup Keamanan**, pilih grup keamanan yang Anda buat di langkah 1.
   + Pilih **Kirim**.

1. Edit grup keamanan SageMaker AI.
   + Buat aturan masuk berikut:
     + Port 2049 ke Grup Keamanan NFS masuk dan keluar yang dibuat secara otomatis oleh SageMaker AI pada langkah 2 (nama grup keamanan berisi ID domain Studio Classic).
     + Akses ke semua port TCP ke dirinya sendiri (diperlukan untuk SageMaker AI untuk VPC Saja).

1. Edit Grup Keamanan Titik Akhir VPC:
   + Arahkan ke menu Amazon EC2 di konsol. AWS 
   + Temukan grup keamanan yang Anda buat pada langkah sebelumnya.
   + Tambahkan aturan masuk yang memungkinkan lalu lintas HTTPS dari grup keamanan yang dibuat pada langkah 1.

1. Buat profil pengguna.
   + Dari **Panel Kontrol Klasik SageMaker Studio**, pilih **Tambah Pengguna**.
   + Berikan nama pengguna. 
   + Untuk **Peran Eksekusi**, pilih untuk membuat peran baru atau menggunakan peran yang sudah ada sebelumnya.
     + Jika memilih **Buat peran baru**, Anda akan diberikan opsi untuk memberikan nama bucket Amazon S3, dan kebijakan dibuat untuk Anda.
     + Jika Anda sudah memiliki peran yang dibuat dengan izin ke bucket Amazon S3 yang memerlukan akses, pilih peran dari daftar tarik-turun. Peran ini harus memiliki `AmazonSageMakerFullAccess` kebijakan yang melekat padanya.
   + Pilih **Kirim**. 

1. Buat aliran data (ikuti panduan ilmuwan data yang diuraikan di bagian sebelumnya). 
   + Saat menambahkan koneksi Snowflake, masukkan nilai `privatelink-account-name` (dari langkah *Set Up Snowflake PrivateLink Integration) ke bidang nama akun Snowflake* **(alfanumerik), bukan nama akun Snowflake** biasa. Segala sesuatu yang lain dibiarkan tidak berubah.

#### Memberikan informasi kepada ilmuwan data
<a name="data-wrangler-snowflake-admin-ds-info"></a>

Berikan ilmuwan data informasi yang mereka butuhkan untuk mengakses Snowflake dari Amazon SageMaker AI Data Wrangler.

**penting**  
Pengguna Anda harus menjalankan Amazon SageMaker Studio Classic versi 1.3.0 atau yang lebih baru. Untuk informasi tentang memeriksa versi Studio Classic dan memperbaruinya, lihat[Siapkan Data ML dengan Amazon SageMaker Data Wrangler](data-wrangler.md).

1. Untuk memungkinkan ilmuwan data Anda mengakses Snowflake dari SageMaker Data Wrangler, berikan mereka salah satu dari berikut ini:
   + Untuk Otentikasi Dasar, nama akun Snowflake, nama pengguna, dan kata sandi.
   + Untuk OAuth, nama pengguna dan kata sandi di penyedia identitas.
   + Untuk ARN, Secrets Manager rahasia Amazon Resource Name (ARN).
   + Rahasia yang dibuat dengan [AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) dan ARN of the secret. Gunakan prosedur berikut di bawah ini untuk membuat rahasia Snowflake jika Anda memilih opsi ini.
**penting**  
Jika ilmuwan data Anda menggunakan opsi **Snowflake Credentials (Nama pengguna dan Kata Sandi)** untuk terhubung ke Snowflake, Anda dapat menggunakan Secrets [Manager untuk menyimpan kredensialnya secara rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html). Secrets Manager memutar rahasia sebagai bagian dari rencana keamanan praktik terbaik. Rahasia yang dibuat di Secrets Manager hanya dapat diakses dengan peran Studio Classic yang dikonfigurasi saat Anda menyiapkan profil pengguna Studio Classic. Ini mengharuskan Anda untuk menambahkan izin ini`secretsmanager:PutResourcePolicy`,, ke kebijakan yang dilampirkan ke peran Studio Classic Anda.  
Kami sangat menyarankan agar Anda membuat cakupan kebijakan peran untuk menggunakan peran yang berbeda untuk grup pengguna Studio Classic yang berbeda. Anda dapat menambahkan izin berbasis sumber daya tambahan untuk rahasia Secrets Manager. Lihat [Mengelola Kebijakan Rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/manage_secret-policy.html) untuk kunci kondisi yang dapat Anda gunakan.  
Untuk informasi tentang membuat rahasia, lihat [Membuat rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html). Anda dikenakan biaya untuk rahasia yang Anda buat.

1. (Opsional) Berikan nama integrasi penyimpanan kepada ilmuwan data yang Anda buat menggunakan prosedur berikut [Buat Integrasi Penyimpanan Cloud di Snowflake](                                      https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake). Ini adalah nama integrasi baru dan dipanggil `integration_name` dalam perintah `CREATE INTEGRATION` SQL yang Anda jalankan, yang ditunjukkan dalam cuplikan berikut: 

   ```
     CREATE STORAGE INTEGRATION integration_name
     TYPE = EXTERNAL_STAGE
     STORAGE_PROVIDER = S3
     ENABLED = TRUE
     STORAGE_AWS_ROLE_ARN = 'iam_role'
     [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ]
     STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/')
     [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]
   ```

### Panduan Ilmuwan Data
<a name="data-wrangler-snowflake-ds"></a>

Gunakan yang berikut ini untuk menghubungkan Snowflake dan mengakses data Anda di Data Wrangler.

**penting**  
Administrator Anda perlu menggunakan informasi di bagian sebelumnya untuk mengatur Snowflake. Jika Anda mengalami masalah, hubungi mereka untuk bantuan pemecahan masalah.

Anda dapat terhubung ke Snowflake dengan salah satu cara berikut:
+ Menentukan kredensil Snowflake Anda (nama akun, nama pengguna, dan kata sandi) di Data Wrangler. 
+ Menyediakan Nama Sumber Daya Amazon (ARN) dari rahasia yang berisi kredensialnya.
+ Menggunakan standar terbuka untuk penyedia delegasi akses (OAuth) yang terhubung ke Snowflake. Administrator Anda dapat memberi Anda akses ke salah satu OAuth penyedia berikut:
  + [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
  + [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
  + [Federasi Ping](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Bicaralah dengan administrator Anda tentang metode yang perlu Anda gunakan untuk terhubung ke Snowflake.

Bagian berikut memiliki informasi tentang bagaimana Anda dapat terhubung ke Snowflake menggunakan metode sebelumnya.

------
#### [ Specifying your Snowflake Credentials ]

**Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan kredensil Anda**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Kepingan Salju**.

1. Untuk **nama Koneksi**, tentukan nama yang secara unik mengidentifikasi koneksi.

1. Untuk **metode Authentication**, pilih **Basic Username-Password**.

1. Untuk **nama akun Snowflake (alfanumerik)**, tentukan nama lengkap akun Snowflake.

1. Untuk **Nama Pengguna**, tentukan nama pengguna yang Anda gunakan untuk mengakses akun Snowflake.

1. Untuk **Kata Sandi**, tentukan kata sandi yang terkait dengan nama pengguna.

1. (Opsional) Untuk **pengaturan lanjutan**. tentukan yang berikut ini:
   + **Peran** — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.
   + **Integrasi penyimpanan** — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda URI S3.
   + **ID kunci KMS** — Kunci KMS yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

1. Pilih **Hubungkan**.

------
#### [ Providing an Amazon Resource Name (ARN) ]

**Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan ARN**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Kepingan Salju**.

1. Untuk **nama Koneksi**, tentukan nama yang secara unik mengidentifikasi koneksi.

1. Untuk **metode otentikasi**, pilih **ARN**.

1. **Secrets Manager ARN** — ARN AWS Secrets Manager rahasia yang digunakan untuk menyimpan kredensyal yang digunakan untuk terhubung ke Snowflake.

1. (Opsional) Untuk **pengaturan lanjutan**. tentukan yang berikut ini:
   + **Peran** — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.
   + **Integrasi penyimpanan** — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda URI S3.
   + **ID kunci KMS** — Kunci KMS yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

1. Pilih **Hubungkan**.

------
#### [ Using an OAuth Connection ]

**penting**  
Administrator Anda menyesuaikan lingkungan Studio Classic Anda untuk menyediakan fungsionalitas yang Anda gunakan untuk menggunakan OAuth koneksi. Anda mungkin perlu me-restart aplikasi server Jupyter untuk menggunakan fungsionalitas.  
Gunakan prosedur berikut untuk memperbarui aplikasi server Jupyter.  
Dalam Studio Classic, pilih **File**
Pilih **Shut down**.
Pilih **Shut down server**.
Tutup tab atau jendela yang Anda gunakan untuk mengakses Studio Classic.
Dari konsol Amazon SageMaker AI, buka Studio Classic.

**Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan kredensil Anda**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Kepingan Salju**.

1. Untuk **nama Koneksi**, tentukan nama yang secara unik mengidentifikasi koneksi.

1. Untuk **metode Otentikasi**, pilih **OAuth**.

1. (Opsional) Untuk **pengaturan lanjutan**. tentukan yang berikut ini:
   + **Peran** — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.
   + **Integrasi penyimpanan** — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda URI S3.
   + **ID kunci KMS** — Kunci KMS yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

1. Pilih **Hubungkan**.

------

Anda dapat memulai proses mengimpor data Anda dari Snowflake setelah Anda terhubung dengannya.

Dalam Data Wrangler, Anda dapat melihat gudang data, database, dan skema Anda, bersama dengan ikon mata yang dapat digunakan untuk melihat pratinjau tabel Anda. Setelah Anda memilih ikon **Tabel Pratinjau**, pratinjau skema tabel tersebut dihasilkan. Anda harus memilih gudang sebelum Anda dapat melihat pratinjau tabel.

**penting**  
Jika Anda mengimpor dataset dengan kolom jenis `TIMESTAMP_TZ` atau`TIMESTAMP_LTZ`, tambahkan `::string` ke nama kolom kueri Anda. Untuk informasi selengkapnya, lihat [Cara: Membongkar data TIMESTAMP\$1TZ dan TIMESTAMP\$1LTZ](https://community.snowflake.com/s/article/How-To-Unload-Timestamp-data-in-a-Parquet-file) ke file Parket.

Setelah Anda memilih gudang data, database dan skema, Anda sekarang dapat menulis kueri dan menjalankannya. Output kueri Anda ditampilkan di bawah **Hasil kueri**.

Setelah Anda menyelesaikan output kueri Anda, Anda kemudian dapat mengimpor output kueri Anda ke dalam aliran Data Wrangler untuk melakukan transformasi data. 

Setelah mengimpor data, navigasikan ke alur Data Wrangler Anda dan mulailah menambahkan transformasi ke dalamnya. Untuk daftar transformasi yang tersedia, lihat[Transformasi Data](data-wrangler-transform.md).

## Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)
<a name="data-wrangler-import-saas"></a>

Anda dapat menggunakan Data Wrangler untuk mengimpor data dari lebih dari empat puluh platform perangkat lunak sebagai layanan (SaaS). Untuk mengimpor data Anda dari platform SaaS Anda, Anda atau administrator Anda harus menggunakan Amazon AppFlow untuk mentransfer data dari platform ke Amazon S3 atau Amazon Redshift. Untuk informasi selengkapnya tentang Amazon AppFlow, lihat [Apa itu Amazon AppFlow?](https://docs.aws.amazon.com/appflow/latest/userguide/what-is-appflow.html) Jika Anda tidak perlu menggunakan Amazon Redshift, kami sarankan untuk mentransfer data ke Amazon S3 untuk proses yang lebih sederhana.

Data Wrangler mendukung transfer data dari platform SaaS berikut:
+ [Amplitudo](https://docs.aws.amazon.com/appflow/latest/userguide/amplitude.html)
+ [Asana](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-asana.html)
+ [Braintree](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-braintree.html)
+ [CircleCI](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-circleci.html)
+ [DocuSign Monitor](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-docusign-monitor.html)
+ [Senang](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-delighted.html)
+ [Domo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-domo.html)
+ [Datadog](https://docs.aws.amazon.com/appflow/latest/userguide/datadog.html)
+ [Dynatrace](https://docs.aws.amazon.com/appflow/latest/userguide/dynatrace.html)
+ [Iklan Facebook](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-ads.html)
+ [Wawasan Halaman Facebook](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-page-insights.html)
+ [Iklan Google](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-ads.html)
+ [Google Analytics 4](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-analytics-4.html)
+ [Google Calendar](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-calendar.html)
+ [Konsol Penelusuran Google](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-search-console.html)
+ [GitHub](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-github.html)
+ [GitLab](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-gitlab.html)
+ [Infor Nexus](https://docs.aws.amazon.com/appflow/latest/userguide/infor-nexus.html)
+ [Iklan Instagram](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-instagram-ads.html)
+ [Interkom](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-intercom.html)
+ [JDBC (Sinkronisasi)](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jdbc.html)
+ [Jira Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jira-cloud.html)
+ [LinkedIn Iklan](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html)
+ [Mailchimp](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mailchimp.html)
+ [Marketo](https://docs.aws.amazon.com/appflow/latest/userguide/marketo.html)
+ [Microsoft Dynamics 365](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-dynamics-365.html)
+ [Microsoft Teams](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-teams.html)
+ [Mixpanel](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mixpanel.html)
+ [Okta](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-okta.html)
+ [Oracle HCM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-oracle-hcm.html)
+ [Paypal Checkout](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-paypal.html)
+ [Pendo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-pendo.html)
+ [Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/salesforce.html)
+ [Cloud Pemasaran Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html)
+ [Salesforce Pardot](https://docs.aws.amazon.com/appflow/latest/userguide/pardot.html)
+ [GETAH OData](https://docs.aws.amazon.com/appflow/latest/userguide/sapodata.html)
+ [SendGrid](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-sendgrid.html)
+ [ServiceNow](https://docs.aws.amazon.com/appflow/latest/userguide/servicenow.html)
+ [Tunggal](https://docs.aws.amazon.com/appflow/latest/userguide/singular.html)
+ [Slack](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Smartsheet](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-smartsheet.html)
+ [Iklan Snapchat](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-snapchat-ads.html)
+ [Stripe](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-stripe.html)
+ [Tren Mikro](https://docs.aws.amazon.com/appflow/latest/userguide/trend-micro.html)
+ [Jenis huruf](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-typeform.html)
+ [Veeva](https://docs.aws.amazon.com/appflow/latest/userguide/veeva.html)
+ [WooCommerce](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-woocommerce.html)
+ [Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Obrolan Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-chat.html)
+ [Jual Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sell.html)
+ [Sinar Matahari Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sunshine.html)
+ [Zoho CRM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoho-crm.html)
+ [Pertemuan Zoom](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoom-meetings.html)

Daftar sebelumnya memiliki tautan ke informasi lebih lanjut tentang pengaturan sumber data Anda. Anda atau administrator Anda dapat merujuk ke tautan sebelumnya setelah Anda membaca informasi berikut.

Saat Anda menavigasi ke tab **Impor** aliran Data Wrangler Anda, Anda melihat sumber data di bawah bagian berikut:
+ **Available**
+ **Siapkan sumber data**

Anda dapat terhubung ke sumber data di bawah **Tersedia** tanpa memerlukan konfigurasi tambahan. Anda dapat memilih sumber data dan mengimpor data Anda.

Sumber data di bawah **Mengatur sumber data**, mengharuskan Anda atau administrator Anda menggunakan Amazon AppFlow untuk mentransfer data dari platform SaaS ke Amazon S3 atau Amazon Redshift. Untuk informasi tentang melakukan transfer, lihat[Menggunakan Amazon AppFlow untuk mentransfer data Anda](#data-wrangler-import-saas-transfer).

**Setelah Anda melakukan transfer data, platform SaaS muncul sebagai sumber data di bawah Tersedia.** Anda dapat memilihnya dan mengimpor data yang telah Anda transfer ke Data Wrangler. Data yang telah Anda transfer muncul sebagai tabel yang dapat Anda kueri.

### Menggunakan Amazon AppFlow untuk mentransfer data Anda
<a name="data-wrangler-import-saas-transfer"></a>

Amazon AppFlow adalah platform yang dapat Anda gunakan untuk mentransfer data dari platform SaaS Anda ke Amazon S3 atau Amazon Redshift tanpa harus menulis kode apa pun. Untuk melakukan transfer data, Anda menggunakan file Konsol Manajemen AWS.

**penting**  
Anda harus memastikan bahwa Anda telah mengatur izin untuk melakukan transfer data. Untuk informasi selengkapnya, lihat [AppFlow Izin Amazon](data-wrangler-security.md#data-wrangler-appflow-permissions).

Setelah menambahkan izin, Anda dapat mentransfer data. Di Amazon AppFlow, Anda membuat *alur* untuk mentransfer data. Aliran adalah serangkaian konfigurasi. Anda dapat menggunakannya untuk menentukan apakah Anda menjalankan transfer data sesuai jadwal atau apakah Anda mempartisi data menjadi file terpisah. Setelah mengkonfigurasi alur, Anda menjalankannya untuk mentransfer data.

Untuk informasi tentang membuat alur, lihat [Membuat alur di Amazon AppFlow](https://docs.aws.amazon.com/appflow/latest/userguide/create-flow.html). Untuk informasi tentang menjalankan alur, lihat [Mengaktifkan AppFlow aliran Amazon](https://docs.aws.amazon.com/appflow/latest/userguide/run-flow.html).

Setelah data ditransfer, gunakan prosedur berikut untuk mengakses data di Data Wrangler.
**penting**  
Sebelum Anda mencoba mengakses data Anda, pastikan peran IAM Anda memiliki kebijakan berikut:  

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "glue:SearchTables",
            "Resource": [
                "arn:aws:glue:*:*:table/*/*",
                "arn:aws:glue:*:*:database/*",
                "arn:aws:glue:*:*:catalog"
            ]
        }
    ]
}
```
Secara default, peran IAM yang Anda gunakan untuk mengakses Data Wrangler adalah. `SageMakerExecutionRole` Untuk informasi selengkapnya tentang menambahkan kebijakan, lihat [Menambahkan izin identitas IAM (konsol)](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html#add-policies-console).

Untuk terhubung ke sumber data, lakukan hal berikut.

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih sumber data.

1. Untuk bidang **Nama**, tentukan nama koneksi.

1. (Opsional) Pilih **Konfigurasi lanjutan**.

   1. Pilih **Workgroup**.

   1. Jika grup kerja Anda belum menerapkan lokasi keluaran Amazon S3 atau jika Anda tidak menggunakan grup kerja, tentukan nilai untuk lokasi hasil kueri Amazon **S3**.

   1. (Opsional) Untuk **periode penyimpanan data**, pilih kotak centang untuk mengatur periode penyimpanan data dan tentukan jumlah hari untuk menyimpan data sebelum dihapus.

   1. (Opsional) Secara default, Data Wrangler menyimpan koneksi. Anda dapat memilih untuk membatalkan pilihan kotak centang dan tidak menyimpan koneksi.

1. Pilih **Hubungkan**.

1. Tentukan kueri.
**catatan**  
Untuk membantu Anda menentukan kueri, Anda dapat memilih tabel di panel navigasi sebelah kiri. Data Wrangler menunjukkan nama tabel dan pratinjau tabel. Pilih ikon di sebelah nama tabel untuk menyalin nama. Anda dapat menggunakan nama tabel dalam kueri.

1. Pilih **Jalankan**.

1. Pilih **kueri Impor**.

1. Untuk **nama Dataset**, tentukan nama dataset.

1. Pilih **Tambahkan**.

Saat Anda menavigasi ke layar **Impor data**, Anda dapat melihat koneksi yang telah Anda buat. Anda dapat menggunakan koneksi untuk mengimpor lebih banyak data.

## Penyimpanan Data yang Diimpor
<a name="data-wrangler-import-storage"></a>

**penting**  
 Kami sangat menyarankan agar Anda mengikuti praktik terbaik seputar melindungi bucket Amazon S3 Anda dengan mengikuti praktik [terbaik Keamanan](https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html). 

Saat Anda menanyakan data dari Amazon Athena atau Amazon Redshift, kumpulan data yang ditanyakan akan disimpan secara otomatis di Amazon S3. Data disimpan di bucket SageMaker AI S3 default untuk AWS Wilayah tempat Anda menggunakan Studio Classic.

Bucket S3 default memiliki konvensi penamaan berikut:. `sagemaker-region-account number` Misalnya, jika nomor akun Anda 111122223333 dan Anda menggunakan Studio Classic in, kumpulan data yang diimpor akan disimpan di `us-east-1` 111122223333. `sagemaker-us-east-1-` 

 Alur Data Wrangler bergantung pada lokasi kumpulan data Amazon S3 ini, jadi Anda tidak boleh memodifikasi kumpulan data ini di Amazon S3 saat Anda menggunakan aliran dependen. Jika Anda memodifikasi lokasi S3 ini, dan Anda ingin terus menggunakan aliran data Anda, Anda harus menghapus semua objek `trained_parameters` dalam file.flow Anda. Untuk melakukan ini, unduh file.flow dari Studio Classic dan untuk setiap instance`trained_parameters`, hapus semua entri. Ketika Anda selesai, `trained_parameters` harus menjadi objek JSON kosong:

```
"trained_parameters": {}
```

Saat Anda mengekspor dan menggunakan aliran data untuk memproses data, file.flow yang Anda ekspor merujuk ke kumpulan data ini di Amazon S3. Gunakan bagian berikut untuk mempelajari lebih lanjut. 

### Penyimpanan Impor Amazon Redshift
<a name="data-wrangler-import-storage-redshift"></a>

Data Wrangler menyimpan kumpulan data yang dihasilkan dari kueri Anda dalam file Parket di bucket AI S3 default Anda. SageMaker 

File ini disimpan di bawah awalan berikut (direktori): redshift/ *uuid* /data/, di mana *uuid* adalah pengidentifikasi unik yang dibuat untuk setiap kueri. 

Misalnya, jika bucket default Anda, satu kumpulan data yang ditanyakan dari Amazon Redshift terletak di s3://-1-111122223333/redshift/ /data/. `sagemaker-us-east-1-111122223333` sagemaker-us-east *uuid*

### Penyimpanan Impor Amazon Athena
<a name="data-wrangler-import-storage-athena"></a>

*Saat Anda menanyakan database Athena dan mengimpor kumpulan data, Data Wrangler menyimpan kumpulan data, serta subset dari kumpulan data tersebut, atau file pratinjau, di Amazon S3.* 

Dataset yang Anda impor dengan memilih **Impor dataset** disimpan dalam format Parket di Amazon S3. 

File pratinjau ditulis dalam format CSV saat Anda memilih **Jalankan** di layar impor Athena, dan berisi hingga 100 baris dari kumpulan data yang Anda kueri. 

Dataset yang Anda kueri terletak di bawah awalan (direktori): athena/ *uuid* /data/, di mana *uuid* adalah pengidentifikasi unik yang dibuat untuk setiap kueri.

Misalnya, jika bucket default Anda adalah`sagemaker-us-east-1-111122223333`, satu set data yang ditanyakan dari Athena terletak di /athena/ /data/. `s3://sagemaker-us-east-1-111122223333` *uuid* *example\$1dataset.parquet*

Subset dari kumpulan data yang disimpan untuk melihat pratinjau kerangka data di Data Wrangler disimpan di bawah awalan: athena/.

# Membuat dan Menggunakan Data Wrangler Flow
<a name="data-wrangler-data-flow"></a>

Gunakan alur Amazon SageMaker Data Wrangler, atau *aliran data*, untuk membuat dan memodifikasi pipeline persiapan data. Aliran data menghubungkan kumpulan data, transformasi, dan analisis, atau *langkah*, yang Anda buat dan dapat digunakan untuk menentukan pipeline Anda. 

## Contoh
<a name="data-wrangler-data-flow-instances"></a>

Saat Anda membuat alur Data Wrangler di Amazon SageMaker Studio Classic, Data Wrangler menggunakan instans Amazon EC2 untuk menjalankan analisis dan transformasi dalam alur Anda. Secara default, Data Wrangler menggunakan instance m5.4xlarge. instance m5 adalah instance tujuan umum yang memberikan keseimbangan antara komputasi dan memori. Anda dapat menggunakan instans m5 untuk berbagai beban kerja komputasi.

Data Wrangler juga memberi Anda opsi untuk menggunakan instans r5. Instans r5 dirancang untuk memberikan kinerja cepat yang memproses kumpulan data besar dalam memori.

Kami menyarankan Anda memilih instance yang paling baik dioptimalkan di sekitar beban kerja Anda. Misalnya, r5.8xlarge mungkin memiliki harga yang lebih tinggi daripada m5.4xlarge, tetapi r5.8xlarge mungkin lebih baik dioptimalkan untuk beban kerja Anda. Dengan instans yang dioptimalkan dengan lebih baik, Anda dapat menjalankan aliran data dalam waktu yang lebih singkat dengan biaya lebih rendah.

Tabel berikut menunjukkan contoh yang dapat Anda gunakan untuk menjalankan aliran Data Wrangler Anda.


| Instans Standar | vCPU | Memori | 
| --- | --- | --- | 
| ml.m5.4xlarge | 16 | 64 GiB | 
| ml.m5.8xlarge | 32 | 128 GiB | 
| ml.m5.16xlarge | 64 |  256 GiB  | 
| ml.m5.24xlarge | 96 | 384 GiB | 
| r5.4xlarge | 16 | 128 GiB | 
| r5.8xlarge | 32 | 256 GiB | 
| r5.24xlarge | 96 | 768 GiB | 

Untuk informasi selengkapnya tentang instans r5, lihat Instans [Amazon EC2](https://aws.amazon.com/ec2/instance-types/r5/) R5. Untuk informasi selengkapnya tentang instans m5, lihat Instans [Amazon EC2](https://aws.amazon.com/ec2/instance-types/m5/) M5.

Setiap aliran Data Wrangler memiliki instans Amazon EC2 yang terkait dengannya. Anda mungkin memiliki beberapa aliran yang terkait dengan satu instance.

Untuk setiap file aliran, Anda dapat mengganti jenis instans dengan mulus. Jika Anda mengganti jenis instance, instance yang Anda gunakan untuk menjalankan flow akan terus berjalan.

Untuk mengganti jenis instans aliran Anda, lakukan hal berikut.

1. Pilih ikon **Running Terminal dan Kernels** (![\[Black square icon representing a placeholder or empty image.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/icons/running-terminals-kernels.png)).

1. Arahkan ke instance yang Anda gunakan dan pilih.

1. Pilih jenis instance yang ingin Anda gunakan.  
![\[Contoh yang menunjukkan cara memilih instance di halaman aliran data konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-instance-switching-list-instances.png)

1. Pilih **Simpan**.

Anda dikenakan biaya untuk semua instans yang sedang berjalan. Untuk menghindari biaya tambahan, matikan instance yang tidak Anda gunakan secara manual. Untuk mematikan instance yang sedang berjalan, gunakan prosedur berikut. 

Untuk mematikan instance yang sedang berjalan.

1. Pilih ikon instance. Gambar berikut menunjukkan tempat untuk memilih ikon **RUNNING INSTANCES**.  
![\[\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/instance-switching-running-instances.png)

1. Pilih **Shut down** di sebelah instance yang ingin Anda matikan.

Jika Anda mematikan instance yang digunakan untuk menjalankan aliran, Anda tidak dapat mengakses aliran untuk sementara. Jika Anda mendapatkan kesalahan saat mencoba membuka alur yang menjalankan instance yang sebelumnya Anda matikan, tunggu selama 5 menit dan coba buka lagi.

Saat Anda mengekspor aliran data ke lokasi seperti Amazon Simple Storage Service atau Amazon SageMaker Feature Store, Data Wrangler menjalankan pekerjaan SageMaker pemrosesan Amazon. Anda dapat menggunakan salah satu contoh berikut untuk pekerjaan pemrosesan. Untuk informasi selengkapnya tentang mengekspor data Anda, lihat[Ekspor](data-wrangler-data-export.md).


| Instans Standar | vCPU | Memori | 
| --- | --- | --- | 
| ml.m5.4xlarge | 16 | 64 GiB | 
| ml.m5.12xlarge | 48 |  192 GiB  | 
| ml.m5.24xlarge | 96 | 384 GiB | 

Untuk informasi selengkapnya tentang biaya per jam untuk menggunakan jenis instans yang tersedia, lihat [SageMaker Harga](https://aws.amazon.com//sagemaker/pricing/). 

## UI Aliran Data
<a name="data-wrangler-data-flow-ui"></a>

**Saat Anda mengimpor dataset, dataset asli muncul di aliran data dan diberi nama Source.** Jika Anda mengaktifkan pengambilan sampel saat mengimpor data, kumpulan data ini diberi nama **Sumber -** sampel. **Data Wrangler secara otomatis menyimpulkan jenis setiap kolom dalam kumpulan data Anda dan membuat kerangka data baru bernama Tipe data.** Anda dapat memilih bingkai ini untuk memperbarui tipe data yang disimpulkan. Anda melihat hasil yang mirip dengan yang ditunjukkan pada gambar berikut setelah Anda mengunggah satu kumpulan data: 

![\[Contoh yang menunjukkan Sumber - sampel dan tipe Data di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/dataflow-after-import.png)


Setiap kali Anda menambahkan langkah transformasi, Anda membuat kerangka data baru. Ketika beberapa langkah transformasi (selain **Join** atau **Concatenate**) ditambahkan ke kumpulan data yang sama, mereka ditumpuk. 

**Bergabunglah** dan **Gabungkan** buat langkah mandiri yang berisi kumpulan data baru yang digabungkan atau digabungkan. 

Diagram berikut menunjukkan aliran data dengan gabungan antara dua kumpulan data, serta dua tumpukan langkah. Tumpukan pertama (**Langkah (2))** menambahkan dua transformasi ke jenis yang disimpulkan dalam kumpulan **data tipe Data**. **Tumpukan *hilir*, atau tumpukan di sebelah kanan, menambahkan transformasi ke kumpulan data yang dihasilkan dari gabungan bernama demo-join.** 

![\[Contoh yang menunjukkan langkah-langkah di halaman aliran data konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-flow-steps.png)


Kotak kecil berwarna abu-abu di sudut kanan bawah aliran data memberikan gambaran umum tentang jumlah tumpukan dan langkah dalam aliran dan tata letak aliran. Kotak yang lebih terang di dalam kotak abu-abu menunjukkan langkah-langkah yang ada dalam tampilan UI. Anda dapat menggunakan kotak ini untuk melihat bagian aliran data yang berada di luar tampilan UI. Gunakan ikon layar fit (![\[Dotted square outline icon representing a placeholder or empty state.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/updates/fit-screen.png)) agar sesuai dengan semua langkah dan kumpulan data ke dalam tampilan UI Anda. 

Bilah navigasi kiri bawah menyertakan ikon yang dapat Anda gunakan untuk memperbesar (![\[Plus symbol icon representing an addition or new item action.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/updates/zoom-in.png)) dan memperkecil (![\[Horizontal line or divider, typically used to separate content sections.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/updates/zoom-out.png)) aliran data Anda dan mengubah ukuran aliran data agar sesuai dengan layar (![\[Dotted square outline icon representing a placeholder or empty state.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/updates/fit-screen.png)). Gunakan ikon kunci (![\[Trash can icon representing deletion or removal functionality.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/updates/lock-nodes.png)) untuk mengunci dan membuka kunci lokasi setiap langkah di layar. 



## Tambahkan Langkah ke Alur Data Anda
<a name="data-wrangler-data-flow-add-step"></a>

Pilih **\$1** di sebelah kumpulan data apa pun atau langkah yang ditambahkan sebelumnya, lalu pilih salah satu opsi berikut:
+ **Mengedit tipe data** (Hanya untuk langkah **tipe data**): Jika Anda belum menambahkan transformasi apa pun ke langkah **Jenis data, Anda dapat memilih Edit tipe data** **untuk memperbarui tipe data** yang disimpulkan oleh Wrangler Data saat mengimpor kumpulan data Anda. 
+ **Tambahkan transformasi**: Menambahkan langkah transformasi baru. Lihat [Transformasi Data](data-wrangler-transform.md) untuk mempelajari lebih lanjut tentang transformasi data yang dapat Anda tambahkan. 
+ **Tambahkan analisis**: Menambahkan analisis. Anda dapat menggunakan opsi ini untuk menganalisis data Anda kapan saja dalam aliran data. Ketika Anda menambahkan satu atau lebih analisis ke langkah, ikon analisis (![\[Bar chart icon representing data visualization or analytics functionality.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/updates/analysis-icon.png)) muncul pada langkah itu. Lihat [Analisis dan Visualisasikan](data-wrangler-analyses.md) untuk mempelajari lebih lanjut tentang analisis yang dapat Anda tambahkan. 
+ **Gabung: Bergabung dengan** dua kumpulan data dan menambahkan kumpulan data yang dihasilkan ke aliran data. Untuk mempelajari selengkapnya, lihat [Bergabunglah dengan Datasets](data-wrangler-transform.md#data-wrangler-transform-join).
+ **Menggabungkan: Menggabungkan** dua kumpulan data dan menambahkan kumpulan data yang dihasilkan ke aliran data. Untuk mempelajari selengkapnya, lihat [Menggabungkan Dataset](data-wrangler-transform.md#data-wrangler-transform-concatenate).

## Hapus Langkah dari Alur Data Anda
<a name="data-wrangler-data-flow-delete-step"></a>

Untuk menghapus langkah, pilih langkah dan pilih **Hapus**. Jika node adalah node yang memiliki input tunggal, Anda hanya menghapus langkah yang Anda pilih. Menghapus langkah yang memiliki satu input tidak menghapus langkah-langkah yang mengikutinya. Jika Anda menghapus langkah untuk sumber, bergabung, atau menggabungkan node, semua langkah yang mengikutinya juga dihapus.

Untuk menghapus langkah dari tumpukan langkah, pilih tumpukan dan kemudian pilih langkah yang ingin Anda hapus. 

Anda dapat menggunakan salah satu prosedur berikut untuk menghapus langkah tanpa menghapus langkah hilir.

------
#### [ Delete a step in the Data Wrangler flow ]

Anda dapat menghapus langkah individual untuk node dalam aliran data Anda yang memiliki satu input. Anda tidak dapat menghapus langkah individual untuk sumber, bergabung, dan menggabungkan node.

Gunakan prosedur berikut untuk menghapus langkah dalam aliran Data Wrangler.

1. Pilih kelompok langkah yang memiliki langkah yang Anda hapus.

1. Pilih ikon di sebelah langkah.

1. Pilih **Hapus langkah**.  
![\[Contoh yang menunjukkan cara menghapus langkah di halaman aliran data konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/delete-step-flow-1.png)

------
#### [ Delete a step in the table view ]

Gunakan prosedur berikut untuk menghapus langkah dalam tampilan tabel.

Anda dapat menghapus langkah individual untuk node dalam aliran data Anda yang memiliki satu input. Anda tidak dapat menghapus langkah individual untuk sumber, bergabung, dan menggabungkan node.

1. Pilih langkah dan buka tampilan tabel untuk langkah tersebut.

1. Gerakkan kursor Anda ke atas langkah sehingga ikon elipsis muncul.

1. Pilih ikon di sebelah langkah.

1. Pilih **Hapus**.  
![\[Contoh yang menunjukkan cara menghapus langkah dalam tampilan tabel konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/delete-step-table-0.png)

------

## Mengedit Langkah dalam Alur Wrangler Data Anda
<a name="data-wrangler-data-flow-edit-step"></a>

Anda dapat mengedit setiap langkah yang telah Anda tambahkan dalam alur Data Wrangler Anda. Dengan mengedit langkah-langkah, Anda dapat mengubah transformasi atau tipe data kolom. Anda dapat mengedit langkah-langkah untuk membuat perubahan yang dengannya Anda dapat melakukan analisis yang lebih baik.

Ada banyak cara Anda dapat mengedit langkah. Beberapa contoh termasuk mengubah metode imputasi atau mengubah ambang batas untuk mempertimbangkan nilai sebagai outlier.

Gunakan prosedur berikut untuk mengedit langkah.

Untuk mengedit langkah, lakukan hal berikut.

1. Pilih langkah dalam alur Data Wrangler untuk membuka tampilan tabel.  
![\[Contoh langkah di halaman aliran data konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-flow-edit-choose-step.png)

1. Pilih langkah dalam aliran data.

1. Edit langkahnya.

Gambar berikut menunjukkan contoh pengeditan langkah.

![\[Contoh yang menunjukkan cara mengedit langkah-langkah di halaman aliran data konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-flow-table-edit-step.png)


**catatan**  
Anda dapat menggunakan spasi bersama dalam domain Amazon SageMaker AI untuk bekerja secara kolaboratif pada alur Data Wrangler Anda. Dalam ruang bersama, Anda dan kolaborator dapat mengedit file aliran secara real-time. Namun, baik Anda maupun kolaborator Anda tidak dapat melihat perubahan secara real-time. Ketika ada yang membuat perubahan pada aliran Data Wrangler, mereka harus segera menyimpannya. Ketika seseorang menyimpan file, kolaborator tidak akan dapat melihatnya kecuali jika menutup file dan membukanya kembali. Setiap perubahan yang tidak disimpan oleh satu orang akan ditimpa oleh orang yang menyimpan perubahan mereka.

# Dapatkan Wawasan Tentang Kualitas Data dan Data
<a name="data-wrangler-data-insights"></a>

Gunakan **Laporan Kualitas Data dan Wawasan** untuk melakukan analisis data yang telah Anda impor ke Data Wrangler. Kami menyarankan Anda membuat laporan setelah Anda mengimpor dataset Anda. Anda dapat menggunakan laporan untuk membantu Anda membersihkan dan memproses data Anda. Ini memberi Anda informasi seperti jumlah nilai yang hilang dan jumlah outlier. Jika Anda memiliki masalah dengan data Anda, seperti kebocoran target atau ketidakseimbangan, laporan wawasan dapat membawa masalah tersebut ke perhatian Anda.

Gunakan prosedur berikut untuk membuat laporan Kualitas Data dan Wawasan. Ini mengasumsikan bahwa Anda telah mengimpor dataset ke dalam aliran Data Wrangler Anda.

**Untuk membuat laporan Kualitas Data dan Wawasan**

1. Pilih **\$1** di sebelah node dalam alur Data Wrangler Anda.

1. Pilih **Dapatkan wawasan data**.

1. Untuk **nama Analisis**, tentukan nama untuk laporan wawasan.

1. (Opsional) Untuk **kolom Target**, tentukan kolom target.

1. **Untuk **jenis Masalah**, tentukan **Regresi** atau Klasifikasi.**

1. Untuk **ukuran Data**, tentukan salah satu dari berikut ini:
   + **50 K** - Menggunakan 50000 baris pertama dari kumpulan data yang telah Anda impor untuk membuat laporan.
   + **Seluruh kumpulan data** — Menggunakan seluruh kumpulan data yang telah Anda impor untuk membuat laporan.
**catatan**  
Membuat laporan Kualitas Data dan Wawasan di seluruh kumpulan data menggunakan pekerjaan SageMaker pemrosesan Amazon. Pekerjaan SageMaker Pemrosesan menyediakan sumber daya komputasi tambahan yang diperlukan untuk mendapatkan wawasan untuk semua data Anda. Untuk informasi selengkapnya tentang SageMaker Memproses pekerjaan, lihat[Beban kerja transformasi data dengan SageMaker Processing](processing-job.md).

1. Pilih **Buat**.

Topik berikut menunjukkan bagian laporan:

**Topics**
+ [

## Ringkasan
](#data-wrangler-data-insights-summary)
+ [

## Kolom target
](#data-wrangler-data-insights-target-column)
+ [

## Model cepat
](#data-wrangler-data-insights-quick-model)
+ [

## Ringkasan fitur
](#data-wrangler-data-insights-feature-summary)
+ [

## Sampel
](#data-wrangler-data-insights-samples)
+ [

## Definisi
](#data-wrangler-data-insights-definitions)

Anda dapat mengunduh laporan atau melihatnya secara online. Untuk mengunduh laporan, pilih tombol unduh di sudut kanan atas layar. Gambar berikut menunjukkan tombol.

![\[Contoh yang menunjukkan tombol unduh.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-download.png)


## Ringkasan
<a name="data-wrangler-data-insights-summary"></a>

Laporan wawasan memiliki ringkasan singkat dari data yang mencakup informasi umum seperti nilai yang hilang, nilai tidak valid, jenis fitur, jumlah outlier, dan banyak lagi. Ini juga dapat mencakup peringatan tingkat keparahan tinggi yang menunjukkan kemungkinan masalah dengan data. Kami menyarankan Anda menyelidiki peringatan tersebut.

Berikut ini adalah contoh ringkasan laporan.

![\[Contoh ringkasan laporan.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-report-summary.png)


## Kolom target
<a name="data-wrangler-data-insights-target-column"></a>

Saat Anda membuat laporan kualitas data dan wawasan, Data Wrangler memberi Anda opsi untuk memilih kolom target. Kolom target adalah kolom yang Anda coba prediksi. Saat Anda memilih kolom target, Data Wrangler secara otomatis membuat analisis kolom target. Ini juga memberi peringkat fitur dalam urutan kekuatan prediksi mereka. Saat memilih kolom target, Anda harus menentukan apakah Anda mencoba memecahkan masalah regresi atau klasifikasi.

Untuk klasifikasi, Data Wrangler menunjukkan tabel dan histogram dari kelas yang paling umum. Kelas adalah kategori. Ini juga menyajikan pengamatan, atau baris, dengan nilai target yang hilang atau tidak valid.

Gambar berikut menunjukkan contoh analisis kolom target untuk masalah klasifikasi.

![\[Contoh analisis kolom target.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-target-column-classification.png)


Untuk regresi, Data Wrangler menunjukkan histogram semua nilai di kolom target. Ini juga menyajikan pengamatan, atau baris, dengan nilai target yang hilang, tidak valid, atau outlier.

Gambar berikut menunjukkan contoh analisis kolom target untuk masalah regresi.

![\[Contoh analisis kolom target.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-target-column-regression.png)


## Model cepat
<a name="data-wrangler-data-insights-quick-model"></a>

**Model Cepat** memberikan perkiraan kualitas prediksi yang diharapkan dari model yang Anda latih pada data Anda.

Data Wrangler membagi data Anda menjadi lipatan pelatihan dan validasi. Ini menggunakan 80% sampel untuk pelatihan dan 20% dari nilai untuk validasi. Untuk klasifikasi, sampel dibagi bertingkat. Untuk pemisahan bertingkat, setiap partisi data memiliki rasio label yang sama. Untuk masalah klasifikasi, penting untuk memiliki rasio label yang sama antara lipatan pelatihan dan klasifikasi. Data Wrangler melatih XGBoost model dengan hyperparameters default. Ini berlaku penghentian awal pada data validasi dan melakukan preprocessing fitur minimal.

Untuk model klasifikasi, Data Wrangler mengembalikan ringkasan model dan matriks kebingungan.

Berikut ini adalah contoh ringkasan model klasifikasi. Untuk mempelajari lebih lanjut tentang informasi yang dikembalikan, lihat[Definisi](#data-wrangler-data-insights-definitions).

![\[Contoh ringkasan model klasifikasi.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-quick-model-classification-summary.png)


Berikut ini adalah contoh matriks kebingungan yang dikembalikan oleh model cepat.

![\[Contoh matriks kebingungan.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-quick-model-classification-confusion-matrix.png)


Matriks kebingungan memberi Anda informasi berikut:
+ Berapa kali label yang diprediksi cocok dengan label sebenarnya.
+ Berapa kali label yang diprediksi tidak cocok dengan label sebenarnya.

Label sebenarnya mewakili pengamatan aktual dalam data Anda. Misalnya, jika Anda menggunakan model untuk mendeteksi transaksi penipuan, label sebenarnya mewakili transaksi yang sebenarnya curang atau tidak curang. Label yang diprediksi mewakili label yang ditetapkan model Anda ke data.

Anda dapat menggunakan matriks kebingungan untuk melihat seberapa baik model memprediksi ada atau tidak adanya suatu kondisi. Jika Anda memprediksi transaksi penipuan, Anda dapat menggunakan matriks kebingungan untuk memahami sensitivitas dan kekhususan model. Sensitivitas mengacu pada kemampuan model untuk mendeteksi transaksi penipuan. Kekhususan mengacu pada kemampuan model untuk menghindari mendeteksi transaksi non-penipuan sebagai penipuan.

Berikut ini adalah contoh output model cepat untuk masalah regresi.

![\[Contoh keluaran model cepat untuk masalah regresi.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-quick-model-regression-summary.png)


## Ringkasan fitur
<a name="data-wrangler-data-insights-feature-summary"></a>

Saat Anda menentukan kolom target, Data Wrangler memesan fitur berdasarkan kekuatan prediksinya. Kekuatan prediksi diukur pada data setelah dibagi menjadi 80% pelatihan dan 20% lipatan validasi. Data Wrangler cocok dengan model untuk setiap fitur secara terpisah pada lipatan pelatihan. Ini menerapkan preprocessing fitur minimal dan mengukur kinerja prediksi pada data validasi.

Ini menormalkan skor ke kisaran [0,1]. Skor prediksi yang lebih tinggi menunjukkan kolom yang lebih berguna untuk memprediksi target sendiri. Skor yang lebih rendah menunjuk ke kolom yang tidak memprediksi kolom target.

Ini jarang untuk kolom yang tidak prediktif sendiri untuk menjadi prediktif ketika digunakan bersama-sama dengan kolom lain. Anda dapat dengan yakin menggunakan skor prediksi untuk menentukan apakah fitur dalam kumpulan data Anda bersifat prediktif.

Skor rendah biasanya menunjukkan fitur tersebut berlebihan. Skor 1 menyiratkan kemampuan prediksi sempurna, yang sering menunjukkan kebocoran target. Kebocoran target biasanya terjadi ketika kumpulan data berisi kolom yang tidak tersedia pada waktu prediksi. Misalnya, itu bisa menjadi duplikat dari kolom target.

Berikut ini adalah contoh tabel dan histogram yang menunjukkan nilai prediksi dari setiap fitur.

![\[Contoh tabel ringkasan yang menunjukkan nilai prediksi dari setiap fitur.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-feature-summary-table.png)


![\[Contoh histogram yang menunjukkan nilai prediksi dari setiap fitur.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-insights/data-insights-feature-summary-histogram.png)


## Sampel
<a name="data-wrangler-data-insights-samples"></a>

Data Wrangler memberikan informasi tentang apakah sampel Anda anomali atau jika ada duplikat dalam kumpulan data Anda.

*Data Wrangler mendeteksi sampel anomali menggunakan algoritma hutan isolasi.* Hutan isolasi mengaitkan skor anomali dengan setiap sampel (baris) dari kumpulan data. Skor anomali yang rendah menunjukkan sampel anomali. Skor tinggi dikaitkan dengan sampel non-anomali. Sampel dengan skor anomali negatif biasanya dianggap anomali dan sampel dengan skor anomali positif dianggap non-anomali.

Ketika Anda melihat sampel yang mungkin anomali, kami sarankan Anda memperhatikan nilai-nilai yang tidak biasa. Misalnya, Anda mungkin memiliki nilai anomali yang dihasilkan dari kesalahan dalam mengumpulkan dan memproses data. Sebaiknya gunakan pengetahuan domain dan logika bisnis saat Anda memeriksa sampel anomali.

Data Wrangler mendeteksi baris duplikat dan menghitung rasio baris duplikat dalam data Anda. Beberapa sumber data dapat menyertakan duplikat yang valid. Sumber data lain dapat memiliki duplikat yang menunjukkan masalah dalam pengumpulan data. Sampel duplikat yang dihasilkan dari pengumpulan data yang salah dapat mengganggu proses pembelajaran mesin yang mengandalkan pemisahan data menjadi pelatihan independen dan lipatan validasi.

Berikut ini adalah elemen laporan wawasan yang dapat dipengaruhi oleh sampel duplikat:
+ Model cepat
+ Estimasi daya prediksi
+ Penyetelan hyperparameter otomatis

**Anda dapat menghapus sampel duplikat dari kumpulan data menggunakan transformasi **Drop duplikat** di bawah Kelola baris.** Data Wrangler menunjukkan baris yang paling sering diduplikasi.

## Definisi
<a name="data-wrangler-data-insights-definitions"></a>

Berikut ini adalah definisi untuk istilah teknis yang digunakan dalam laporan wawasan data.

------
#### [ Feature types ]

Berikut ini adalah definisi untuk masing-masing jenis fitur:
+ **Numerik** — Nilai numerik dapat berupa float atau bilangan bulat, seperti usia atau pendapatan. Model pembelajaran mesin mengasumsikan bahwa nilai numerik diurutkan dan jarak ditentukan di atasnya. Misalnya, 3 lebih dekat ke 4 daripada 10 dan 3 < 4 < 10.
+ Categorical - Entri kolom milik satu set nilai unik, yang biasanya jauh lebih kecil dari jumlah entri di kolom. Misalnya, kolom dengan panjang 100 dapat berisi nilai unik`Dog`,`Cat`, dan`Mouse`. Nilainya bisa berupa numerik, teks, atau kombinasi keduanya. `Horse`,`House`,`8`,`Love`, dan semuanya `3.1` akan menjadi nilai yang valid dan dapat ditemukan di kolom kategoris yang sama. Model pembelajaran mesin tidak mengasumsikan urutan atau jarak pada nilai-nilai fitur kategoris, sebagai lawan dari fitur numerik, bahkan ketika semua nilai adalah angka.
+ **Biner** — Fitur biner adalah jenis fitur kategoris khusus di mana kardinalitas himpunan nilai unik adalah 2.
+ **Teks** - Kolom teks berisi banyak nilai unik non-numerik. Dalam kasus ekstrim, semua elemen kolom itu unik. Dalam kasus ekstrim, tidak ada dua entri yang sama.
+ **Datetime** - Kolom datetime berisi informasi tentang tanggal atau waktu. Ini dapat memiliki informasi tentang tanggal dan waktu.

------
#### [ Feature statistics ]

Berikut ini adalah definisi untuk masing-masing statistik fitur:
+ **Kekuatan prediksi — Kekuatan** prediksi mengukur seberapa berguna kolom dalam memprediksi target.
+ **Outlier** (dalam kolom numerik) — Data Wrangler mendeteksi outlier menggunakan dua statistik yang kuat untuk outlier: median dan solid standard deviation (RSTD). RSTD diturunkan dengan memotong nilai fitur ke kisaran [5 persentil, 95 persentil] dan menghitung standar deviasi vektor yang terpotong. Semua nilai yang lebih besar dari median \$1 5\$1 RSTD atau lebih kecil dari median - 5 \$1 RSTD dianggap outlier.
+ **Skew** (dalam kolom numerik) — Skew mengukur simetri distribusi dan didefinisikan sebagai momen ketiga distribusi dibagi dengan kekuatan ketiga dari standar deviasi. Kemiringan distribusi normal atau distribusi simetris lainnya adalah nol. Nilai positif menyiratkan bahwa ekor kanan distribusi lebih panjang dari ekor kiri. Nilai negatif menyiratkan bahwa ekor kiri distribusi lebih panjang dari ekor kanan. Sebagai aturan praktis, distribusi dianggap miring ketika nilai absolut kemiringan lebih besar dari 3.
+ **Kurtosis** (dalam kolom numerik) — Kurtosis Pearson mengukur beratnya ekor distribusi. Ini didefinisikan sebagai momen keempat dari distribusi dibagi dengan kuadrat dari momen kedua. Kurtosis dari distribusi normal adalah 3. Nilai kurtosis lebih rendah dari 3 menyiratkan bahwa distribusi terkonsentrasi di sekitar rata-rata dan ekor lebih ringan dari ekor distribusi normal. Nilai kurtosis lebih tinggi dari 3 menyiratkan ekor atau outlier yang lebih berat.
+ **Nilai yang hilang** - Objek seperti nol, string kosong, dan string yang hanya terdiri dari spasi putih dianggap hilang.
+ **Nilai yang valid untuk fitur numerik atau target regresi** - Semua nilai yang dapat Anda lemparkan ke float terbatas valid. Nilai yang hilang tidak valid.
+ **Nilai yang valid untuk fitur kategoris, biner, atau teks, atau untuk target klasifikasi** - Semua nilai yang tidak hilang valid.
+ **Fitur Datetime** - Semua nilai yang dapat Anda transmisikan ke objek datetime valid. Nilai yang hilang tidak valid.
+ Nilai **tidak valid - Nilai** yang hilang atau Anda tidak dapat mentransmisikan dengan benar. Misalnya, dalam kolom numerik, Anda tidak dapat mentransmisikan string `"six"` atau nilai null.

------
#### [ Quick model metrics for regression ]

Berikut ini adalah definisi untuk metrik model cepat:
+ R2 atau koefisien determinasi) — R2 adalah proporsi variasi target yang diprediksi oleh model. R2 berada dalam kisaran [-infty, 1]. 1 adalah skor model yang memprediksi target dengan sempurna dan 0 adalah skor model sepele yang selalu memprediksi rata-rata target.
+ MSE atau kesalahan kuadrat rata-rata — MSE berada dalam kisaran [0, infty]. 0 adalah skor model yang memprediksi target dengan sempurna.
+ MAE atau kesalahan absolut rata-rata — MAE berada dalam kisaran [0, infty] di mana 0 adalah skor model yang memprediksi target dengan sempurna.
+ RMSE atau kesalahan kuadrat rata-rata akar — RMSE berada dalam kisaran [0, infty] di mana 0 adalah skor model yang memprediksi target dengan sempurna.
+ Kesalahan maks - Nilai absolut maksimum kesalahan atas kumpulan data. Kesalahan maks ada dalam kisaran [0, infty]. 0 adalah skor model yang memprediksi target dengan sempurna.
+ Kesalahan absolut median — Kesalahan absolut median ada dalam kisaran [0, infty]. 0 adalah skor model yang memprediksi target dengan sempurna.

------
#### [ Quick model metrics for classification ]

Berikut ini adalah definisi untuk metrik model cepat:
+ **Akurasi** — Akurasi adalah rasio sampel yang diprediksi secara akurat. Akurasi ada dalam kisaran [0, 1]. 0 adalah skor model yang memprediksi semua sampel secara tidak benar dan 1 adalah skor model sempurna.
+ **Akurasi seimbang** — Akurasi seimbang adalah rasio sampel yang diprediksi secara akurat ketika bobot kelas disesuaikan untuk menyeimbangkan data. Semua kelas diberi kepentingan yang sama, terlepas dari frekuensinya. Akurasi seimbang ada dalam kisaran [0, 1]. 0 adalah skor model yang memprediksi semua sampel salah. 1 adalah skor model yang sempurna.
+ **AUC (klasifikasi biner)** — Ini adalah area di bawah kurva karakteristik operasi penerima. AUC berada dalam kisaran [0, 1] di mana model acak mengembalikan skor 0,5 dan model sempurna mengembalikan skor 1.
+ **AUC (OVR)** — Untuk klasifikasi multiclass, ini adalah area di bawah kurva karakteristik operasi penerima yang dihitung secara terpisah untuk setiap label menggunakan satu versus istirahat. Data Wrangler melaporkan rata-rata area. AUC berada dalam kisaran [0, 1] di mana model acak mengembalikan skor 0,5 dan model sempurna mengembalikan skor 1.
+ **Presisi** — Presisi didefinisikan untuk kelas tertentu. Presisi adalah fraksi positif sejati dari semua contoh yang diklasifikasikan model sebagai kelas itu. Presisi ada dalam kisaran [0, 1]. 1 adalah skor model yang tidak memiliki positif palsu untuk kelas. Untuk klasifikasi biner, Data Wrangler melaporkan ketepatan kelas positif.
+ **Recall** — Recall didefinisikan untuk kelas tertentu. Recall adalah fraksi dari instance kelas yang relevan yang berhasil diambil. Ingat ada dalam kisaran [0, 1]. 1 adalah skor model yang mengklasifikasikan semua contoh kelas dengan benar. Untuk klasifikasi biner, Data Wrangler melaporkan penarikan kembali kelas positif.
+ **F1** — F1 didefinisikan untuk kelas tertentu. Ini adalah rata-rata harmonik dari presisi dan ingatan. F1 berada dalam kisaran [0, 1]. 1 adalah skor model yang sempurna. Untuk klasifikasi biner, Data Wrangler melaporkan F1 untuk kelas dengan nilai positif.

------
#### [ Textual patterns ]

**Pola** menggambarkan format tekstual string menggunakan format yang mudah dibaca. Berikut ini adalah contoh pola tekstual:
+ “\$1digits:4-7\$1” menggambarkan urutan digit yang memiliki panjang antara 4 dan 7.
+ “\$1alnum:5\$1” menggambarkan string alfa-numerik dengan panjang tepat 5.

Data Wrangler menyimpulkan pola dengan melihat sampel string yang tidak kosong dari data Anda. Ini dapat menggambarkan banyak pola yang umum digunakan. **Keyakinan** yang dinyatakan sebagai persentase menunjukkan berapa banyak data yang diperkirakan cocok dengan pola. Dengan menggunakan pola tekstual, Anda dapat melihat baris mana dalam data Anda yang perlu Anda koreksi atau jatuhkan.

Berikut ini menjelaskan pola yang dapat dikenali oleh Data Wrangler:


| Pola | Format Tekstual | 
| --- | --- | 
|  \$1alnum\$1  |  String alfanumerik  | 
|  \$1apa saja\$1  |  Setiap string karakter kata  | 
|  \$1digit\$1  |  Urutan digit  | 
|  \$1lebih rendah\$1  |  Sebuah kata huruf kecil  | 
|  \$1campuran\$1  |  Kata kasus campuran  | 
|  \$1nama\$1  |  Sebuah kata yang dimulai dengan huruf kapital  | 
|  \$1atas\$1  |  Sebuah kata huruf besar  | 
|  \$1spasi\$1  |  karakter spasi  | 

Karakter kata adalah garis bawah atau karakter yang mungkin muncul dalam kata dalam bahasa apa pun. Misalnya, string 'Hello\$1word' dan 'écoute' keduanya terdiri dari karakter kata. 'H' dan 'é' keduanya merupakan contoh karakter kata.

------

# Secara Otomatis Melatih Model pada Alur Data Anda
<a name="data-wrangler-autopilot"></a>

Anda dapat menggunakan Amazon SageMaker Autopilot untuk secara otomatis melatih, menyetel, dan menerapkan model pada data yang telah diubah dalam aliran data Anda. Amazon SageMaker Autopilot dapat melalui beberapa algoritma dan menggunakan salah satu yang paling sesuai dengan data Anda. Untuk informasi selengkapnya tentang Amazon SageMaker Autopilot, lihat. [SageMaker Autopilot](autopilot-automate-model-development.md)

Saat Anda melatih dan menyetel model, Data Wrangler mengekspor data Anda ke lokasi Amazon S3 tempat SageMaker Amazon Autopilot dapat mengaksesnya.

Anda dapat menyiapkan dan menerapkan model dengan memilih node dalam alur Data Wrangler Anda dan memilih **Export and Train** di pratinjau data. Anda dapat menggunakan metode ini untuk melihat dataset Anda sebelum Anda memilih untuk melatih model di atasnya.

Anda juga dapat melatih dan menerapkan model langsung dari aliran data Anda.

Prosedur berikut mempersiapkan dan menyebarkan model dari aliran data. Untuk alur Data Wrangler dengan transformasi multi-baris, Anda tidak dapat menggunakan transformasi dari aliran Data Wrangler saat Anda menerapkan model. Anda dapat menggunakan prosedur berikut untuk memproses data sebelum Anda menggunakannya untuk melakukan inferensi.

Untuk melatih dan menerapkan model langsung dari aliran data Anda, lakukan hal berikut.

1. Pilih **\$1** di sebelah node yang berisi data pelatihan.

1. Pilih **model Kereta**.

1. (Opsional) Tentukan AWS KMS kunci atau ID. Untuk informasi selengkapnya tentang membuat dan mengendalikan kunci kriptografi untuk melindungi data Anda, lihat [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).

1. Pilih **Ekspor dan kereta api**.

1. **Setelah Amazon SageMaker Autopilot melatih model pada data yang diekspor Data Wrangler, tentukan nama untuk nama Eksperimen.**

1. Di bawah **Input data**, pilih **Pratinjau** untuk memverifikasi bahwa Data Wrangler mengekspor data Anda dengan benar ke Amazon Autopilot. SageMaker 

1. Untuk **Target**, pilih kolom target.

1. (Opsional) Untuk **lokasi S3** di bawah **Data keluaran**, tentukan lokasi Amazon S3 selain lokasi default.

1. Pilih **Berikutnya: Metode pelatihan**.

1. Pilih metode pelatihan. Untuk informasi selengkapnya, lihat [Mode pelatihan](autopilot-model-support-validation.md#autopilot-training-mode).

1. (Opsional) Untuk **titik akhir penerapan Otomatis**, tentukan nama untuk titik akhir.

1. Untuk **opsi Deployment**, pilih metode penerapan. Anda dapat memilih untuk menerapkan dengan atau tanpa transformasi yang telah Anda buat pada data Anda.
**penting**  
Anda tidak dapat menerapkan model SageMaker Autopilot Amazon dengan transformasi yang telah Anda buat dalam alur Data Wrangler Anda. Untuk informasi lebih lanjut tentang transformasi tersebut, lihat[Ekspor ke Endpoint Inferensi](data-wrangler-data-export.md#data-wrangler-data-export-inference).

1. Pilih **Berikutnya: Tinjau dan buat**.

1. Pilih **Buat percobaan**.

Untuk informasi selengkapnya tentang pelatihan dan penerapan model, lihat[Membuat Pekerjaan Regresi atau Klasifikasi untuk Data Tabular Menggunakan AutoML API](autopilot-automate-model-development-create-experiment.md). Autopilot menunjukkan kepada Anda analisis tentang kinerja model terbaik. Untuk informasi selengkapnya tentang kinerja model, lihat[Lihat laporan kinerja model Autopilot](autopilot-model-insights.md).

# Transformasi Data
<a name="data-wrangler-transform"></a>

Amazon SageMaker Data Wrangler menyediakan banyak transformasi data ML untuk merampingkan pembersihan, transformasi, dan fitur data Anda. Ketika Anda menambahkan transformasi, itu menambahkan langkah ke aliran data. Setiap transformasi yang Anda tambahkan memodifikasi dataset Anda dan menghasilkan kerangka data baru. Semua transformasi selanjutnya berlaku untuk kerangka data yang dihasilkan.

Data Wrangler mencakup transformasi bawaan, yang dapat Anda gunakan untuk mengubah kolom tanpa kode apa pun. Anda juga dapat menambahkan transformasi kustom menggunakan PySpark, Python (User-Defined Function), panda, dan SQL. PySpark Beberapa transformasi beroperasi di tempat, sementara yang lain membuat kolom output baru di dataset Anda.

Anda dapat menerapkan transformasi ke beberapa kolom sekaligus. Misalnya, Anda dapat menghapus beberapa kolom dalam satu langkah.

Anda dapat menerapkan **numerik Proses** dan **Menangani transformasi yang hilang** hanya ke satu kolom.

Gunakan halaman ini untuk mempelajari lebih lanjut tentang transformasi bawaan dan kustom ini.

## Ubah UI
<a name="data-wrangler-transform-ui"></a>

Sebagian besar transformasi bawaan terletak di tab **Siapkan UI** Data Wrangler. Anda dapat mengakses transformasi join dan concatenate melalui tampilan aliran data. Gunakan tabel berikut untuk melihat pratinjau dua tampilan ini. 

------
#### [ Transform ]

Anda dapat menambahkan transformasi ke langkah apa pun dalam aliran data Anda. Gunakan prosedur berikut untuk menambahkan transformasi ke aliran data Anda.

Untuk menambahkan langkah ke aliran data Anda, lakukan hal berikut.

1. Pilih **\$1** di sebelah langkah dalam aliran data.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.  
![\[\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-add-step.png)

1. Pilih transformasi. 

1. (Opsional) Anda dapat mencari transformasi yang ingin Anda gunakan. Data Wrangler menyoroti kueri dalam hasil.  
![\[\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-search.png)

------
#### [ Join View ]

**Untuk menggabungkan dua kumpulan data, pilih kumpulan data pertama dalam aliran data Anda dan pilih Gabung.** Ketika Anda memilih **Bergabung**, Anda melihat hasil yang mirip dengan yang ditunjukkan pada gambar berikut. Kumpulan data kiri dan kanan Anda ditampilkan di panel kiri. Panel utama menampilkan aliran data Anda, dengan dataset yang baru bergabung ditambahkan. 

![\[Alur kumpulan data yang bergabung di bagian aliran data dari konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/join-1.png)


Ketika Anda memilih **Konfigurasi** untuk mengonfigurasi gabungan Anda, Anda melihat hasil yang mirip dengan yang ditunjukkan pada gambar berikut. Konfigurasi bergabung Anda ditampilkan di panel kiri. Anda dapat menggunakan panel ini untuk memilih nama kumpulan data yang bergabung, jenis gabungan, dan kolom untuk bergabung. Panel utama menampilkan tiga tabel. Dua tabel teratas menampilkan kumpulan data kiri dan kanan masing-masing di kiri dan kanan. Di bawah tabel ini, Anda dapat melihat pratinjau kumpulan data yang digabungkan. 

![\[Tabel dataset bergabung di bagian aliran data dari konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/join-2.png)


Lihat [Bergabunglah dengan Datasets](#data-wrangler-transform-join) untuk mempelajari selengkapnya. 

------
#### [ Concatenate View ]

**Untuk menggabungkan dua kumpulan data, Anda memilih kumpulan data pertama dalam aliran data Anda dan memilih Concatenate.** Ketika Anda memilih **Concatenate**, Anda melihat hasil yang mirip dengan yang ditunjukkan pada gambar berikut. Kumpulan data kiri dan kanan Anda ditampilkan di panel kiri. Panel utama menampilkan aliran data Anda, dengan dataset yang baru digabungkan ditambahkan. 

![\[Contoh aliran kumpulan data gabungan di bagian aliran data di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/concat-1.png)


Ketika Anda memilih **Konfigurasi** untuk mengonfigurasi rangkaian Anda, Anda melihat hasil yang mirip dengan yang ditunjukkan pada gambar berikut. Konfigurasi gabungan Anda ditampilkan di panel kiri. Anda dapat menggunakan panel ini untuk memilih nama kumpulan data gabungan, dan memilih untuk menghapus duplikat setelah penggabungan dan menambahkan kolom untuk menunjukkan kerangka data sumber. Panel utama menampilkan tiga tabel. Dua tabel teratas menampilkan kumpulan data kiri dan kanan masing-masing di kiri dan kanan. Di bawah tabel ini, Anda dapat melihat pratinjau kumpulan data gabungan. 

![\[Contoh tabel kumpulan data gabungan di bagian aliran data di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/concat-2.png)


Lihat [Menggabungkan Dataset](#data-wrangler-transform-concatenate) untuk mempelajari selengkapnya.

------

## Bergabunglah dengan Datasets
<a name="data-wrangler-transform-join"></a>

Anda bergabung dengan kerangka data secara langsung dalam aliran data Anda. Saat Anda menggabungkan dua kumpulan data, kumpulan data gabungan yang dihasilkan akan muncul di alur Anda. Jenis gabungan berikut didukung oleh Data Wrangler.
+ **Left Outer** - Sertakan semua baris dari tabel kiri. Jika nilai untuk kolom bergabung pada baris tabel kiri tidak cocok dengan nilai baris tabel kanan, baris tersebut berisi nilai nol untuk semua kolom tabel kanan dalam tabel gabungan.
+ **Anti Kiri** - Sertakan baris dari tabel kiri yang tidak mengandung nilai di tabel kanan untuk kolom yang digabungkan.
+ **Semi kiri** - Sertakan satu baris dari tabel kiri untuk semua baris identik yang memenuhi kriteria dalam pernyataan gabungan. Ini tidak termasuk baris duplikat dari tabel kiri yang cocok dengan kriteria gabungan.
+ **Luar Kanan** - Sertakan semua baris dari tabel kanan. Jika nilai untuk kolom bergabung di baris tabel kanan tidak cocok dengan nilai baris tabel kiri, baris tersebut berisi nilai nol untuk semua kolom tabel kiri dalam tabel gabungan.
+ **Inner** - Sertakan baris dari tabel kiri dan kanan yang berisi nilai yang cocok di kolom yang digabungkan. 
+ **Full Outer** - Sertakan semua baris dari tabel kiri dan kanan. Jika nilai baris untuk kolom gabungan di salah satu tabel tidak cocok, baris terpisah dibuat dalam tabel gabungan. Jika baris tidak berisi nilai untuk kolom dalam tabel gabungan, null disisipkan untuk kolom itu.
+ **Cartesian Cross** - Sertakan baris yang menggabungkan setiap baris dari tabel pertama dengan setiap baris dari tabel kedua. Ini adalah [produk Cartesian](https://en.wikipedia.org/wiki/Cartesian_product) dari baris dari tabel di join. Hasil dari produk ini adalah ukuran tabel kiri dikalikan ukuran meja kanan. Oleh karena itu, kami menyarankan agar berhati-hati dalam menggunakan gabungan ini di antara kumpulan data yang sangat besar. 

Gunakan prosedur berikut untuk menggabungkan dua kerangka data.

1. Pilih **\$1** di sebelah kerangka data kiri yang ingin Anda ikuti. Rangka data pertama yang Anda pilih selalu tabel kiri di gabungan Anda. 

1. Pilih **Bergabung**.

1. Pilih kerangka data yang tepat. Rangka data kedua yang Anda pilih selalu merupakan tabel yang tepat dalam bergabung Anda.

1. Pilih **Konfigurasi** untuk mengonfigurasi gabungan Anda. 

1. Beri nama kumpulan data gabungan Anda menggunakan bidang **Nama**.

1. Pilih **jenis Gabung**.

1. Pilih kolom dari tabel kiri dan kanan untuk bergabung. 

1. Pilih **Terapkan** untuk melihat pratinjau kumpulan data yang bergabung di sebelah kanan. 

1. Untuk menambahkan tabel gabungan ke alur data Anda, pilih **Tambah**. 

## Menggabungkan Dataset
<a name="data-wrangler-transform-concatenate"></a>

**Menggabungkan dua kumpulan data:**

1. Pilih **\$1** di sebelah kerangka data kiri yang ingin Anda gabungkan. Rangka data pertama yang Anda pilih selalu tabel kiri dalam rangkaian Anda. 

1. Pilih **Concatenate**.

1. Pilih kerangka data yang tepat. Rangka data kedua yang Anda pilih selalu merupakan tabel yang tepat dalam rangkaian Anda.

1. Pilih **Konfigurasi** untuk mengonfigurasi rangkaian Anda. 

1. **Beri nama kumpulan data gabungan Anda menggunakan bidang Nama.**

1. (Opsional) Pilih kotak centang di samping **Hapus duplikat setelah penggabungan untuk menghapus** kolom duplikat. 

1. (Opsional) Pilih kotak centang di sebelah **Tambahkan kolom untuk menunjukkan kerangka data sumber** jika, untuk setiap kolom dalam kumpulan data baru, Anda ingin menambahkan indikator sumber kolom. 

1. Pilih **Terapkan** untuk melihat pratinjau kumpulan data baru. 

1. Pilih **Tambah** untuk menambahkan kumpulan data baru ke alur data Anda. 

## Data Saldo
<a name="data-wrangler-transform-balance-data"></a>

Anda dapat menyeimbangkan data untuk kumpulan data dengan kategori yang kurang terwakili. Menyeimbangkan kumpulan data dapat membantu Anda membuat model yang lebih baik untuk klasifikasi biner.

**catatan**  
Anda tidak dapat menyeimbangkan kumpulan data yang berisi vektor kolom.

Anda dapat menggunakan operasi **data Saldo** untuk menyeimbangkan data Anda menggunakan salah satu operator berikut:
+ *Oversampling acak* - Duplikat sampel secara acak dalam kategori minoritas. Misalnya, jika Anda mencoba mendeteksi penipuan, Anda mungkin hanya memiliki kasus penipuan di 10% data Anda. Untuk proporsi yang sama dari kasus penipuan dan non-penipuan, operator ini secara acak menduplikasi kasus penipuan dalam kumpulan data 8 kali.
+ *Undersampling acak* — Kira-kira setara dengan oversampling acak. Secara acak menghapus sampel dari kategori yang terwakili secara berlebihan untuk mendapatkan proporsi sampel yang Anda inginkan.
+ *Synthetic Minority Oversampling Technique (SMOTE)* — Menggunakan sampel dari kategori yang kurang terwakili untuk menginterpolasi sampel minoritas sintetis baru. Untuk informasi lebih lanjut tentang SMOTE, lihat deskripsi berikut.

Anda dapat menggunakan semua transformasi untuk kumpulan data yang berisi fitur numerik dan non-numerik. SMOTE menginterpolasi nilai dengan menggunakan sampel tetangga. Data Wrangler menggunakan jarak R-kuadrat untuk menentukan lingkungan untuk menginterpolasi sampel tambahan. Data Wrangler hanya menggunakan fitur numerik untuk menghitung jarak antara sampel dalam kelompok yang kurang terwakili.

Untuk dua sampel nyata dalam kelompok yang kurang terwakili, Data Wrangler menginterpolasi fitur numerik dengan menggunakan rata-rata tertimbang. Ini secara acak memberikan bobot untuk sampel tersebut dalam kisaran [0, 1]. Untuk fitur numerik, Data Wrangler menginterpolasi sampel menggunakan rata-rata tertimbang sampel. Untuk sampel A dan B, Data Wrangler dapat secara acak menetapkan berat 0,7 hingga A dan 0,3 hingga B. Sampel yang diinterpolasi memiliki nilai 0,7A \$10,3B.

Data Wrangler menginterpolasi fitur non-numerik dengan menyalin dari salah satu sampel nyata yang diinterpolasi. Ini menyalin sampel dengan probabilitas bahwa itu secara acak menetapkan untuk setiap sampel. Untuk sampel A dan B, ia dapat menetapkan probabilitas 0,8 ke A dan 0,2 ke B. Untuk probabilitas yang ditetapkan, ia menyalin A 80% dari waktu.

## Transformasi Kustom
<a name="data-wrangler-transform-custom"></a>

Grup **Custom Transforms** memungkinkan Anda untuk menggunakan Python (User-Defined Function) PySpark,, pandas, PySpark atau (SQL) untuk menentukan transformasi kustom. Untuk ketiga opsi, Anda menggunakan variabel `df` untuk mengakses kerangka data yang ingin Anda terapkan transformasi. Untuk menerapkan kode kustom Anda ke kerangka data Anda, tetapkan kerangka data dengan transformasi yang telah Anda buat ke variabel. `df` Jika Anda tidak menggunakan Python (User-Defined Function), Anda tidak perlu menyertakan pernyataan pengembalian. Pilih **Pratinjau** untuk melihat hasil transformasi kustom. Pilih **Tambah** untuk menambahkan transformasi kustom ke daftar **langkah Sebelumnya**.

Anda dapat mengimpor pustaka populer dengan `import` pernyataan di blok kode transformasi kustom, seperti berikut ini:
+ NumPy versi 1.19.0
+ scikit-learn versi 0.23.2
+ SciPy versi 1.5.4
+ panda versi 1.0.3
+ PySpark versi 3.0.0

**penting**  
**Transformasi kustom** tidak mendukung kolom dengan spasi atau karakter khusus dalam nama. Kami menyarankan Anda menentukan nama kolom yang hanya memiliki karakter alfanumerik dan garis bawah. Anda dapat menggunakan Transformasi **kolom Rename** di grup **Mengelola kolom** transformasi untuk menghapus spasi dari nama kolom. Anda juga dapat menambahkan **Python (Pandas)** **Custom transform** mirip dengan berikut ini untuk menghapus spasi dari beberapa kolom dalam satu langkah. Contoh ini mengubah kolom bernama `A column` dan `B column` ke `A_column` dan `B_column` masing-masing.   

```
df.rename(columns={"A column": "A_column", "B column": "B_column"})
```

Jika Anda menyertakan pernyataan cetak di blok kode, hasilnya akan muncul saat Anda memilih **Pratinjau**. Anda dapat mengubah ukuran panel transformator kode khusus. Mengubah ukuran panel menyediakan lebih banyak ruang untuk menulis kode. Gambar berikut menunjukkan pengubahan ukuran panel.

![\[Untuk fungsi Python, ganti komentar di bawah PD.series dengan kode Anda.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/resizing-panel.gif)


Bagian berikut memberikan konteks tambahan dan contoh untuk menulis kode transformasi kustom.

**Python (Fungsi yang Ditentukan Pengguna)**

Fungsi Python memberi Anda kemampuan untuk menulis transformasi khusus tanpa perlu mengetahui Apache Spark atau panda. Data Wrangler dioptimalkan untuk menjalankan kode kustom Anda dengan cepat. Anda mendapatkan kinerja serupa menggunakan kode Python khusus dan plugin Apache Spark.

Untuk menggunakan blok kode Python (User-Defined Function), Anda tentukan yang berikut ini:
+ **Kolom input** - Kolom masukan tempat Anda menerapkan transformasi.
+ **Mode — Mode** scripting, baik panda atau Python.
+ **Jenis pengembalian** - Tipe data dari nilai yang Anda kembalikan.

Menggunakan mode panda memberikan kinerja yang lebih baik. Mode Python memudahkan Anda untuk menulis transformasi dengan menggunakan fungsi Python murni.

Video berikut menunjukkan contoh cara menggunakan kode kustom untuk membuat transformasi. Ini menggunakan [dataset Titanic](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/walkthrough_titanic.csv) untuk membuat kolom dengan salam orang tersebut.

![\[Untuk fungsi Python, ganti komentar di bawah PD.series dengan kode Anda.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/python-function-transform-titanic-720.gif)


**PySpark**

Contoh berikut mengekstrak tanggal dan waktu dari stempel waktu.

```
from pyspark.sql.functions import from_unixtime, to_date, date_format
df = df.withColumn('DATE_TIME', from_unixtime('TIMESTAMP'))
df = df.withColumn( 'EVENT_DATE', to_date('DATE_TIME')).withColumn(
'EVENT_TIME', date_format('DATE_TIME', 'HH:mm:ss'))
```

**panda**

Contoh berikut memberikan ikhtisar kerangka data yang Anda tambahkan transformasi. 

```
df.info()
```

**PySpark (SQL)**

*Contoh berikut membuat kerangka data baru dengan empat kolom: *name*, *fare*, *pclass*, survived.*

```
SELECT name, fare, pclass, survived FROM df
```

Jika Anda tidak tahu cara menggunakannya PySpark, Anda dapat menggunakan cuplikan kode khusus untuk membantu Anda memulai.

Data Wrangler memiliki kumpulan cuplikan kode yang dapat dicari. Anda dapat menggunakan potongan kode untuk melakukan tugas seperti menjatuhkan kolom, mengelompokkan berdasarkan kolom, atau pemodelan.

Untuk menggunakan cuplikan kode, pilih **Cari contoh cuplikan** dan tentukan kueri di bilah pencarian. Teks yang Anda tentukan dalam kueri tidak harus sama persis dengan nama cuplikan kode.

Contoh berikut menunjukkan cuplikan kode **baris duplikat Jatuhkan** yang dapat menghapus baris dengan data serupa di kumpulan data Anda. Anda dapat menemukan cuplikan kode dengan mencari salah satu dari berikut ini:
+ Duplikat
+ Identik
+ Menghapus

Cuplikan berikut memiliki komentar untuk membantu Anda memahami perubahan yang perlu Anda buat. Untuk sebagian besar cuplikan, Anda harus menentukan nama kolom kumpulan data Anda dalam kode.

```
# Specify the subset of columns
# all rows having identical values in these columns will be dropped

subset = ["col1", "col2", "col3"]
df = df.dropDuplicates(subset)  

# to drop the full-duplicate rows run
# df = df.dropDuplicates()
```

Untuk menggunakan cuplikan, salin dan tempel kontennya ke bidang **Custom transform**. Anda dapat menyalin dan menempelkan beberapa cuplikan kode ke bidang transformasi khusus.

## Formula Kustom
<a name="data-wrangler-transform-custom-formula"></a>

Gunakan **rumus Kustom** untuk menentukan kolom baru menggunakan ekspresi Spark SQL untuk menanyakan data dalam kerangka data saat ini. Kueri harus menggunakan konvensi ekspresi Spark SQL.

**penting**  
**Rumus kustom** tidak mendukung kolom dengan spasi atau karakter khusus dalam nama. Kami menyarankan Anda menentukan nama kolom yang hanya memiliki karakter alfanumerik dan garis bawah. Anda dapat menggunakan Transformasi **kolom Rename** di grup **Mengelola kolom** transformasi untuk menghapus spasi dari nama kolom. Anda juga dapat menambahkan **Python (Pandas)** **Custom transform** mirip dengan berikut ini untuk menghapus spasi dari beberapa kolom dalam satu langkah. Contoh ini mengubah kolom bernama `A column` dan `B column` ke `A_column` dan `B_column` masing-masing.   

```
df.rename(columns={"A column": "A_column", "B column": "B_column"})
```

Anda dapat menggunakan transformasi ini untuk melakukan operasi pada kolom, mereferensikan kolom dengan nama. Misalnya, dengan asumsi kerangka data saat ini berisi kolom bernama *col\$1a dan *col\$1b**, Anda dapat menggunakan operasi berikut untuk menghasilkan **kolom Output yang merupakan produk dari dua kolom** ini dengan kode berikut:

```
col_a * col_b
```

Operasi umum lainnya termasuk yang berikut, dengan asumsi kerangka data berisi dan kolom: `col_a` `col_b`
+ Gandungkan dua kolom: `concat(col_a, col_b)`
+ Tambahkan dua kolom: `col_a + col_b`
+ Kurangi dua kolom: `col_a - col_b`
+ Bagilah dua kolom: `col_a / col_b`
+ Ambil nilai absolut dari kolom: `abs(col_a)`

Untuk informasi selengkapnya, lihat [dokumentasi Spark](http://spark.apache.org/docs/latest/api/python) tentang memilih data. 

## Mengurangi Dimensionalitas dalam Dataset
<a name="data-wrangler-transform-dimensionality-reduction"></a>

Kurangi dimensi dalam data Anda dengan menggunakan Principal Component Analysis (PCA). Dimensi kumpulan data Anda sesuai dengan jumlah fitur. Saat Anda menggunakan pengurangan dimensi di Data Wrangler, Anda mendapatkan serangkaian fitur baru yang disebut komponen. Setiap komponen memperhitungkan beberapa variabilitas dalam data.

Komponen pertama menyumbang jumlah variasi terbesar dalam data. Komponen kedua menyumbang jumlah variasi terbesar kedua dalam data, dan seterusnya.

Anda dapat menggunakan pengurangan dimensi untuk mengurangi ukuran kumpulan data yang Anda gunakan untuk melatih model. Alih-alih menggunakan fitur dalam kumpulan data Anda, Anda dapat menggunakan komponen utama sebagai gantinya.

Untuk melakukan PCA, Data Wrangler membuat sumbu untuk data Anda. Sumbu adalah kombinasi affine kolom dalam kumpulan data Anda. Komponen utama pertama adalah nilai pada sumbu yang memiliki jumlah varians terbesar. Komponen utama kedua adalah nilai pada sumbu yang memiliki jumlah varians terbesar kedua. Komponen utama ke-n adalah nilai pada sumbu yang memiliki jumlah varians terbesar ke-n.

Anda dapat mengonfigurasi jumlah komponen utama yang dikembalikan Data Wrangler. Anda dapat menentukan jumlah komponen utama secara langsung atau Anda dapat menentukan persentase ambang varians. Setiap komponen utama menjelaskan sejumlah varians dalam data. Misalnya, Anda mungkin memiliki komponen utama dengan nilai 0,5. Komponen akan menjelaskan 50% variasi dalam data. Saat Anda menentukan persentase ambang batas varians, Data Wrangler mengembalikan jumlah komponen terkecil yang memenuhi persentase yang Anda tentukan.

Berikut ini adalah contoh komponen utama dengan jumlah varians yang mereka jelaskan dalam data.
+ Komponen 1 — 0.5
+ Komponen 2 - 0.45
+ Komponen 3 - 0.05

Jika Anda menentukan persentase ambang varians dari `94` or`95`, Data Wrangler mengembalikan Komponen 1 dan Komponen 2. Jika Anda menentukan persentase ambang varians dari`96`, Data Wrangler mengembalikan ketiga komponen utama.

Anda dapat menggunakan prosedur berikut untuk menjalankan PCA pada dataset Anda.

Untuk menjalankan PCA pada dataset Anda, lakukan hal berikut.

1. Buka aliran data Wrangler Data Anda.

1. Pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **Pengurangan Dimensi.**

1. Untuk **Kolom Input**, pilih fitur yang Anda kurangi menjadi komponen utama.

1. (Opsional) Untuk **Jumlah komponen utama**, pilih jumlah komponen utama yang dikembalikan Data Wrangler dalam kumpulan data Anda. Jika menentukan nilai untuk bidang, Anda tidak dapat menentukan nilai untuk **persentase ambang batas Varians**.

1. (Opsional) Untuk **persentase ambang batas Varians**, tentukan persentase variasi dalam data yang ingin Anda jelaskan oleh komponen utama. Data Wrangler menggunakan nilai default `95` jika Anda tidak menentukan nilai untuk ambang varians. Anda tidak dapat menentukan persentase ambang varians jika Anda telah menentukan nilai untuk **Jumlah komponen utama**.

1. (Opsional) Batalkan pilihan **Pusat** untuk tidak menggunakan rata-rata kolom sebagai pusat data. Secara default, Data Wrangler memusatkan data dengan mean sebelum penskalaan.

1. (Opsional) Batalkan pilihan **Skala** untuk tidak menskalakan data dengan standar deviasi unit.

1. (Opsional) Pilih **Kolom** untuk menampilkan komponen ke kolom terpisah. Pilih **Vector** untuk menampilkan komponen sebagai vektor tunggal.

1. (Opsional) Untuk **kolom Output**, tentukan nama untuk kolom keluaran. Jika Anda mengeluarkan komponen ke kolom terpisah, nama yang Anda tentukan adalah awalan. Jika Anda mengeluarkan komponen ke vektor, nama yang Anda tentukan adalah nama kolom vektor.

1. (Opsional) Pilih **Simpan kolom input**. Kami tidak menyarankan memilih opsi ini jika Anda berencana hanya menggunakan komponen utama untuk melatih model Anda.

1. Pilih **Pratinjau**.

1. Pilih **Tambahkan**.

## Mengkodekan Kategoris
<a name="data-wrangler-transform-cat-encode"></a>

Data kategoris biasanya terdiri dari sejumlah kategori yang terbatas, di mana setiap kategori diwakili dengan string. Misalnya, jika Anda memiliki tabel data pelanggan, kolom yang menunjukkan negara tempat seseorang tinggal adalah kategoris. Kategori-kategorinya adalah *Afganistan*, *Albania**, Aljazair,* dan sebagainya. *Data kategoris dapat berupa *nominal* atau ordinal.* Kategori ordinal memiliki urutan yang melekat, dan kategori nominal tidak. Gelar tertinggi yang diperoleh (*SMA*, *Sarjana*, *Magister*, dan sebagainya) adalah contoh kategori ordinal. 

Pengkodean data kategoris adalah proses menciptakan representasi numerik untuk kategori. *Misalnya, jika kategori Anda adalah *Dog* dan *Cat*, Anda dapat menyandikan informasi ini menjadi dua vektor, `[1,0]` untuk mewakili *Dog*, dan `[0,1]` untuk mewakili Cat.*

Saat Anda menyandikan kategori ordinal, Anda mungkin perlu menerjemahkan urutan alami kategori ke dalam pengkodean Anda. Misalnya, Anda dapat mewakili derajat tertinggi yang diperoleh dengan peta berikut:`{"High school": 1, "Bachelors": 2, "Masters":3}`.

Gunakan pengkodean kategoris untuk menyandikan data kategoris yang dalam format string ke dalam array bilangan bulat. 

Encoder kategoris Data Wrangler membuat pengkodean untuk semua kategori yang ada di kolom pada saat langkah ditentukan. *Jika kategori baru telah ditambahkan ke kolom saat Anda memulai pekerjaan Data Wrangler untuk memproses kumpulan data Anda pada waktu *t*, dan kolom ini adalah masukan untuk transformasi pengkodean kategoris Data Wrangler pada waktu *t* -1, kategori baru ini dianggap hilang dalam pekerjaan Data Wrangler.* Opsi yang Anda pilih untuk **Strategi penanganan tidak valid** diterapkan pada nilai yang hilang ini. Contoh kapan ini dapat terjadi adalah: 
+ Saat Anda menggunakan file.flow untuk membuat pekerjaan Data Wrangler untuk memproses kumpulan data yang diperbarui setelah pembuatan aliran data. Misalnya, Anda dapat menggunakan aliran data untuk memproses data penjualan secara teratur setiap bulan. Jika data penjualan diperbarui setiap minggu, kategori baru dapat dimasukkan ke dalam kolom yang menentukan langkah kategoris encode. 
+ Ketika Anda memilih **Sampling** ketika Anda mengimpor dataset Anda, beberapa kategori mungkin ditinggalkan dari sampel. 

Dalam situasi ini, kategori baru ini dianggap nilai yang hilang dalam pekerjaan Data Wrangler.

Anda dapat memilih dari dan mengkonfigurasi *ordinal dan encode* *satu-panas*. Gunakan bagian berikut untuk mempelajari lebih lanjut tentang opsi ini. 

Kedua transformasi membuat kolom baru bernama **Output nama kolom**. Anda menentukan format output kolom ini dengan **gaya Output**:
+ Pilih **Vektor** untuk menghasilkan satu kolom dengan vektor jarang. 
+ Pilih **Kolom** untuk membuat kolom untuk setiap kategori dengan variabel indikator apakah teks di kolom asli berisi nilai yang sama dengan kategori tersebut.

### Pengkodean Ordinal
<a name="data-wrangler-transform-cat-encode-ordinal"></a>

Pilih **Ordinal encode** untuk menyandikan kategori menjadi bilangan bulat antara 0 dan jumlah total kategori di kolom **Input** yang Anda pilih.

**Strategi penyerahan tidak valid**: Pilih metode untuk menangani nilai yang tidak valid atau hilang. 
+ Pilih **Lewati** jika Anda ingin menghilangkan baris dengan nilai yang hilang.
+ Pilih **Simpan** untuk mempertahankan nilai yang hilang sebagai kategori terakhir.
+ Pilih **Kesalahan** jika Anda ingin Data Wrangler melempar kesalahan jika nilai yang hilang ditemukan di kolom **Input**.
+ Pilih **Ganti dengan NaN** untuk mengganti yang hilang dengan NaN. Opsi ini direkomendasikan jika algoritme ML Anda dapat menangani nilai yang hilang. Jika tidak, tiga opsi pertama dalam daftar ini dapat menghasilkan hasil yang lebih baik.

### One-Hot Encode
<a name="data-wrangler-transform-cat-encode-onehot"></a>

Pilih **One-hot encode** untuk **Transform** untuk menggunakan one-hot encoding. Konfigurasikan transformasi ini menggunakan yang berikut: 
+ **Jatuhkan kategori terakhir**: Jika`True`, kategori terakhir tidak memiliki indeks yang sesuai dalam pengkodean satu panas. Ketika nilai yang hilang dimungkinkan, kategori yang hilang selalu menjadi yang terakhir dan `True` menyetelnya berarti bahwa nilai yang hilang menghasilkan vektor nol.
+ **Strategi penyerahan tidak valid**: Pilih metode untuk menangani nilai yang tidak valid atau hilang. 
  + Pilih **Lewati** jika Anda ingin menghilangkan baris dengan nilai yang hilang.
  + Pilih **Simpan** untuk mempertahankan nilai yang hilang sebagai kategori terakhir.
  + Pilih **Kesalahan** jika Anda ingin Data Wrangler melempar kesalahan jika nilai yang hilang ditemukan di kolom **Input**.
+ **Apakah input ordinal dikodekan**: Pilih opsi ini jika vektor input berisi data yang dikodekan ordinal. Opsi ini mengharuskan data input mengandung bilangan bulat non-negatif. Jika **Benar**, masukan *i* dikodekan sebagai vektor dengan bukan nol di lokasi *ke-i*. 

### Kesamaan menyandikan
<a name="data-wrangler-transform-cat-encode-similarity"></a>

Gunakan pengkodean kesamaan ketika Anda memiliki yang berikut:
+ Sejumlah besar variabel kategoris
+ Data berisik

Encoder kesamaan menciptakan embeddings untuk kolom dengan data kategoris. Embedding adalah pemetaan objek diskrit, seperti kata-kata, ke vektor bilangan real. Ini mengkodekan string yang mirip dengan vektor yang mengandung nilai serupa. Misalnya, ia menciptakan pengkodean yang sangat mirip untuk “California” dan “Calfornia”.

Data Wrangler mengonversi setiap kategori dalam kumpulan data Anda menjadi satu set token menggunakan tokenizer 3 gram. Ini mengubah token menjadi embedding menggunakan encoding min-hash.

Contoh berikut menunjukkan bagaimana encoder kesamaan menciptakan vektor dari string.

![\[Contoh penggunaan ENCODE CATEGORICAL untuk tabel di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/destination-nodes/similarity-encode-example-screenshot-0.png)


![\[Contoh representasi vektor dari variabel yang ditemukan dalam tabel di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/destination-nodes/similarity-encode-example-screenshot-1.png)


Pengkodean kesamaan yang dibuat Data Wrangler:
+ Memiliki dimensi rendah
+ Dapat diskalakan untuk sejumlah besar kategori
+ Kuat dan tahan terhadap kebisingan

Untuk alasan sebelumnya, pengkodean kesamaan lebih fleksibel daripada pengkodean satu panas.

Untuk menambahkan transformasi pengkodean kesamaan ke kumpulan data Anda, gunakan prosedur berikut.

Untuk menggunakan pengkodean kesamaan, lakukan hal berikut.

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker/).

1. Pilih **Open Studio Classic**.

1. Pilih **Luncurkan aplikasi**.

1. Pilih **Studio**.

1. Tentukan aliran data Anda.

1. Pilih langkah dengan transformasi.

1. Pilih **Tambahkan langkah**.

1. Pilih **Encode kategoris**.

1. Tentukan hal berikut:
   + **Transform** - **Encode kesamaan**
   + **Kolom input** - Kolom yang berisi data kategoris yang Anda enkodekan.
   + **Dimensi target** — (Opsional) Dimensi vektor embedding kategoris. Nilai default-nya adalah 30. Sebaiknya gunakan dimensi target yang lebih besar jika Anda memiliki kumpulan data besar dengan banyak kategori.
   + **Gaya keluaran** — Pilih **Vektor untuk vektor** tunggal dengan semua nilai yang dikodekan. Pilih **Kolom** untuk memiliki nilai yang dikodekan di kolom terpisah.
   + **Kolom keluaran** - (Opsional) Nama kolom keluaran untuk output yang dikodekan vektor. Untuk output yang dikodekan kolom, ini adalah awalan dari nama kolom diikuti dengan nomor yang terdaftar.

## Featurize Teks
<a name="data-wrangler-transform-featurize-text"></a>

Gunakan grup transformasi **Teks Featurize** untuk memeriksa kolom yang diketik string dan gunakan penyematan teks untuk menyesuaikan kolom ini. 

Grup fitur ini berisi dua fitur, *statistik Karakter* dan *Vektor*. Gunakan bagian berikut untuk mempelajari lebih lanjut tentang transformasi ini. Untuk kedua opsi, **kolom Input** harus berisi data teks (tipe string).

### Statistik Karakter
<a name="data-wrangler-transform-featurize-text-character-stats"></a>

Gunakan **statistik Karakter** untuk menghasilkan statistik untuk setiap baris dalam kolom yang berisi data teks. 

Transformasi ini menghitung rasio dan hitungan berikut untuk setiap baris, dan membuat kolom baru untuk melaporkan hasilnya. Kolom baru diberi nama menggunakan nama kolom input sebagai awalan dan akhiran yang spesifik untuk rasio atau hitungan. 
+ **Jumlah kata**: Jumlah kata dalam baris itu. Sufiks untuk kolom keluaran ini adalah`-stats_word_count`.
+ **Jumlah karakter**: Jumlah total karakter di baris itu. Sufiks untuk kolom keluaran ini adalah`-stats_char_count`.
+ **Rasio atas**: Jumlah karakter huruf besar, dari A hingga Z, dibagi dengan semua karakter di kolom. Sufiks untuk kolom keluaran ini adalah`-stats_capital_ratio`.
+ **Rasio yang lebih rendah**: Jumlah karakter huruf kecil, dari a hingga z, dibagi dengan semua karakter di kolom. Sufiks untuk kolom keluaran ini adalah`-stats_lower_ratio`.
+ **Rasio digit**: Rasio digit dalam satu baris di atas jumlah digit di kolom input. Sufiks untuk kolom keluaran ini adalah`-stats_digit_ratio`.
+ **Rasio karakter khusus**: Rasio karakter non-alfanumerik (seperti \$1 \$1&%: @) terhadap jumlah semua karakter di kolom input. Sufiks untuk kolom keluaran ini adalah`-stats_special_ratio`.

### Vektorisasi
<a name="data-wrangler-transform-featurize-text-vectorize"></a>

Penyematan teks melibatkan pemetaan kata atau frasa dari kosakata ke vektor bilangan real. Gunakan transformasi penyematan teks Data Wrangler untuk memberi token dan memvektorisasi data teks menjadi vektor frekuensi terminal-inverse document frequency (TF-IDF). 

Ketika TF-IDF dihitung untuk kolom data teks, setiap kata dalam setiap kalimat diubah menjadi bilangan real yang mewakili kepentingan semantiknya. Angka yang lebih tinggi dikaitkan dengan kata-kata yang lebih jarang, yang cenderung lebih bermakna. 

Saat Anda menentukan langkah transformasi **Vectorize**, Data Wrangler menggunakan data dalam kumpulan data Anda untuk menentukan metode count vectorizer dan TF-IDF. Menjalankan pekerjaan Data Wrangler menggunakan metode yang sama.

Anda mengonfigurasi transformasi ini menggunakan yang berikut: 
+ **Nama kolom keluaran**: Transformasi ini membuat kolom baru dengan penyematan teks. Gunakan bidang ini untuk menentukan nama untuk kolom keluaran ini. 
+ **Tokenizer***: Tokenizer mengubah kalimat menjadi daftar kata, atau token.* 

  Pilih **Standar** untuk menggunakan tokenizer yang dibagi dengan spasi putih dan mengubah setiap kata menjadi huruf kecil. Misalnya, `"Good dog"` diberi token ke. `["good","dog"]`

  Pilih **Custom** untuk menggunakan tokenizer yang disesuaikan. Jika Anda memilih **Custom**, Anda dapat menggunakan bidang berikut untuk mengkonfigurasi tokenizer:
  + **Panjang token minimum**: Panjang minimum, dalam karakter, agar token valid. Default ke `1`. Misalnya, jika Anda menentukan `3` panjang token minimum, kata-kata seperti `a, at, in` dijatuhkan dari kalimat tokenized. 
  + **Haruskah regex terbelah pada celah**: Jika dipilih, **regex** terbagi pada celah. Jika tidak, itu cocok dengan token. Default ke `True`. 
  + Pola **Regex: Pola** Regex yang mendefinisikan proses tokenisasi. Default ke `' \\ s+'`.
  + **Untuk huruf kecil**: Jika dipilih, Data Wrangler mengonversi semua karakter menjadi huruf kecil sebelum tokenisasi. Default ke `True`.

  Untuk mempelajari lebih lanjut, lihat dokumentasi Spark di [Tokenizer](https://spark.apache.org/docs/latest/ml-features#tokenizer).
+ **Vectorizer**: Vectorizer mengubah daftar token menjadi vektor numerik jarang. Setiap token sesuai dengan indeks dalam vektor dan bukan nol menunjukkan keberadaan token dalam kalimat input. *Anda dapat memilih dari dua opsi vectorizer, *Count* dan Hashing.*
  + **Count vectorize** memungkinkan penyesuaian yang memfilter token yang jarang atau terlalu umum. **Parameter vektorisasi hitung** meliputi yang berikut: 
    + **Frekuensi istilah minimum**: Di setiap baris, istilah (token) dengan frekuensi yang lebih kecil disaring. Jika Anda menentukan bilangan bulat, ini adalah ambang absolut (inklusif). Jika Anda menentukan pecahan antara 0 (inklusif) dan 1, ambang batas relatif terhadap jumlah suku total. Default ke `1`.
    + **Frekuensi dokumen minimum**: Jumlah baris minimum di mana istilah (token) harus muncul untuk disertakan. Jika Anda menentukan bilangan bulat, ini adalah ambang absolut (inklusif). Jika Anda menentukan pecahan antara 0 (inklusif) dan 1, ambang batas relatif terhadap jumlah suku total. Default ke `1`.
    + **Frekuensi dokumen maksimum**: Jumlah maksimum dokumen (baris) di mana istilah (token) dapat muncul untuk dimasukkan. Jika Anda menentukan bilangan bulat, ini adalah ambang absolut (inklusif). Jika Anda menentukan pecahan antara 0 (inklusif) dan 1, ambang batas relatif terhadap jumlah suku total. Default ke `0.999`.
    + Ukuran **kosakata maksimum: Ukuran** maksimum kosakata. Kosakata terdiri dari semua istilah (token) di semua baris kolom. Default ke `262144`.
    + **Output biner**: Jika dipilih, output vektor tidak termasuk jumlah penampilan suatu istilah dalam dokumen, melainkan merupakan indikator biner dari penampilannya. Default ke `False`.

    Untuk mempelajari lebih lanjut tentang opsi ini, lihat dokumentasi Spark di [CountVectorizer](https://spark.apache.org/docs/latest/ml-features#countvectorizer).
  + **Hashing secara** komputasi lebih cepat. **Parameter vektorisasi hash** meliputi yang berikut:
    + **Jumlah fitur selama hashing**: Sebuah hash vectorizer memetakan token ke indeks vektor sesuai dengan nilai hash mereka. Fitur ini menentukan jumlah nilai hash yang mungkin. Nilai yang besar menghasilkan lebih sedikit tabrakan antara nilai hash tetapi vektor keluaran dimensi yang lebih tinggi.

    Untuk mempelajari lebih lanjut tentang opsi ini, lihat dokumentasi Spark di [FeatureHasher](https://spark.apache.org/docs/latest/ml-features#featurehasher)
+ **Terapkan IDF** menerapkan transformasi IDF, yang mengalikan frekuensi istilah dengan frekuensi dokumen terbalik standar yang digunakan untuk penyematan TF-IDF. **Parameter IDF** meliputi: 
  + **Frekuensi dokumen minimum**: Jumlah minimum dokumen (baris) di mana istilah (token) harus muncul untuk disertakan. ****Jika **count\$1vectorize adalah vectorizer** yang dipilih, kami sarankan Anda menyimpan nilai default dan hanya memodifikasi bidang min\$1doc\$1freq dalam parameter Count vectorize.**** Default ke `5`.
+ **Format output:** Format output dari setiap baris. 
  + Pilih **Vektor** untuk menghasilkan satu kolom dengan vektor jarang. 
  + Pilih **Flattened** untuk membuat kolom untuk setiap kategori dengan variabel indikator apakah teks di kolom asli berisi nilai yang sama dengan kategori tersebut. **Anda hanya dapat memilih diratakan ketika **Vectorizer ditetapkan sebagai Count vectorizer**.**

## Mengubah Seri Waktu
<a name="data-wrangler-transform-time-series"></a>

Di Data Wrangler, Anda dapat mengubah data deret waktu. Nilai dalam kumpulan data deret waktu diindeks ke waktu tertentu. Misalnya, kumpulan data yang menunjukkan jumlah pelanggan di toko untuk setiap jam dalam sehari adalah kumpulan data deret waktu. Tabel berikut menunjukkan contoh dataset deret waktu.

Jumlah pelanggan per jam di toko


| Jumlah pelanggan | Waktu (jam) | 
| --- | --- | 
| 4 | 09:00 | 
| 10 | 10:00 | 
| 14 | 11:00 | 
| 25 | 12:00 | 
| 20 | 13:00 | 
| 18 | 14:00 | 

Untuk tabel sebelumnya, kolom **Jumlah Pelanggan** berisi data deret waktu. Data deret waktu diindeks pada data per jam di kolom **Waktu (jam)**.

Anda mungkin perlu melakukan serangkaian transformasi pada data Anda untuk mendapatkannya dalam format yang dapat Anda gunakan untuk analisis Anda. Gunakan grup transformasi **deret waktu** untuk mengubah data deret waktu Anda. Untuk informasi selengkapnya tentang transformasi yang dapat Anda lakukan, lihat bagian berikut.

**Topics**
+ [

### Kelompokkan berdasarkan Time Series
](#data-wrangler-group-by-time-series)
+ [

### Sampel Ulang Data Seri Waktu
](#data-wrangler-resample-time-series)
+ [

### Menangani Data Seri Waktu yang Hilang
](#data-wrangler-transform-handle-missing-time-series)
+ [

### Validasi Stempel Waktu Data Deret Waktu Anda
](#data-wrangler-transform-validate-timestamp)
+ [

### Standardisasi Panjang Deret Waktu
](#data-wrangler-transform-standardize-length)
+ [

### Ekstrak Fitur dari Data Seri Waktu Anda
](#data-wrangler-transform-extract-time-series-features)
+ [

### Gunakan Fitur Lagged dari Data Time Series Anda
](#data-wrangler-transform-lag-time-series)
+ [

### Buat Rentang Datetime Dalam Seri Waktu Anda
](#data-wrangler-transform-datetime-range)
+ [

### Gunakan Jendela Bergulir Dalam Seri Waktu Anda
](#data-wrangler-transform-rolling-window)

### Kelompokkan berdasarkan Time Series
<a name="data-wrangler-group-by-time-series"></a>

Anda dapat menggunakan grup berdasarkan operasi untuk mengelompokkan data deret waktu untuk nilai tertentu dalam kolom.

Misalnya, Anda memiliki tabel berikut yang melacak rata-rata penggunaan listrik harian dalam rumah tangga.

Rata-rata penggunaan listrik rumah tangga harian


| ID Rumah Tangga | Stempel waktu harian | Penggunaan listrik (kWh) | Jumlah penghuni rumah tangga | 
| --- | --- | --- | --- | 
| rumah tangga\$10 | 1/1/2020 | 30 | 2 | 
| rumah tangga\$10 | 1/2/2020 | 40 | 2 | 
| rumah tangga\$10 | 1/4/2020 | 35 | 3 | 
| rumah tangga\$11 | 1/2/2020 | 45 | 3 | 
| rumah tangga\$11 | 1/3/2020 | 55 | 4 | 

Jika Anda memilih untuk mengelompokkan berdasarkan ID, Anda mendapatkan tabel berikut.

Penggunaan listrik dikelompokkan berdasarkan ID rumah tangga


| ID Rumah Tangga | Seri penggunaan listrik (kWh) | Jumlah seri penghuni rumah tangga | 
| --- | --- | --- | 
| rumah tangga\$10 | [30, 40, 35] | [2, 2, 3] | 
| rumah tangga\$11 | [45, 55] | [3, 4] | 

Setiap entri dalam urutan deret waktu diurutkan oleh stempel waktu yang sesuai. Elemen pertama dari urutan sesuai dengan stempel waktu pertama dari seri. Untuk`household_0`, `30` adalah nilai pertama dari **Seri Penggunaan Listrik**. Nilai `30` sesuai dengan stempel waktu pertama. `1/1/2020`

Anda dapat menyertakan stempel waktu awal dan stempel waktu akhir. Tabel berikut menunjukkan bagaimana informasi itu muncul.

Penggunaan listrik dikelompokkan berdasarkan ID rumah tangga


| ID Rumah Tangga | Seri penggunaan listrik (kWh) | Jumlah seri penghuni rumah tangga | Mulai\$1waktu | Waktu\$1akhir | 
| --- | --- | --- | --- | --- | 
| rumah tangga\$10 | [30, 40, 35] | [2, 2, 3] | 1/1/2020 | 1/4/2020 | 
| rumah tangga\$11 | [45, 55] | [3, 4] | 1/2/2020 | 1/3/2020 | 

Anda dapat menggunakan prosedur berikut untuk mengelompokkan berdasarkan kolom deret waktu. 

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **Time Series**.

1. Di bawah **Transform**, pilih **Group by**.

1. Tentukan kolom di **Grup menurut kolom ini**.

1. Untuk **Terapkan ke kolom**, tentukan nilai.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Sampel Ulang Data Seri Waktu
<a name="data-wrangler-resample-time-series"></a>

Data deret waktu biasanya memiliki pengamatan yang tidak diambil secara berkala. Misalnya, kumpulan data dapat memiliki beberapa pengamatan yang direkam setiap jam dan pengamatan lain yang dicatat setiap dua jam.

Banyak analisis, seperti algoritma peramalan, memerlukan pengamatan yang harus dilakukan secara berkala. Resampling memberi Anda kemampuan untuk menetapkan interval reguler untuk pengamatan dalam kumpulan data Anda.

Anda dapat melakukan upsample atau downsample deret waktu. Downsampling meningkatkan interval antara pengamatan dalam dataset. Misalnya, jika Anda menurunkan sampel pengamatan yang diambil setiap jam atau setiap dua jam, setiap pengamatan dalam kumpulan data Anda dilakukan setiap dua jam. Pengamatan per jam dikumpulkan menjadi satu nilai menggunakan metode agregasi seperti mean atau median.

Upsampling mengurangi interval antara pengamatan dalam dataset. Misalnya, jika Anda mengambil sampel pengamatan yang dilakukan setiap dua jam ke dalam pengamatan per jam, Anda dapat menggunakan metode interpolasi untuk menyimpulkan pengamatan per jam dari pengamatan yang dilakukan setiap dua jam. [Untuk informasi tentang metode interpolasi, lihat panda. DataFrame.menginterpolasi](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html).

Anda dapat mengambil sampel ulang data numerik dan non-numerik.

Gunakan operasi **Sampel Ulang** untuk mengambil sampel ulang data deret waktu Anda. Jika Anda memiliki beberapa deret waktu dalam kumpulan data Anda, Data Wrangler menstandarisasi interval waktu untuk setiap deret waktu.

Tabel berikut menunjukkan contoh data deret waktu downsampling dengan menggunakan mean sebagai metode agregasi. Data di-downsample dari setiap dua jam menjadi setiap jam.

Pembacaan suhu per jam selama sehari sebelum downsampling


| Stempel waktu | Suhu (Celcius) | 
| --- | --- | 
| 12:00 | 30 | 
| 1:00 | 32 | 
| 2:00 | 35 | 
| 3:00 | 32 | 
| 4:00 | 30 | 

Pembacaan suhu diturunkan sampelnya menjadi setiap dua jam


| Stempel waktu | Suhu (Celcius) | 
| --- | --- | 
| 12:00 | 30 | 
| 2:00 | 33.5 | 
| 4:00 | 35 | 

Anda dapat menggunakan prosedur berikut untuk mengambil sampel ulang data deret waktu.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **Sampel Ulang**.

1. Untuk **Timestamp**, pilih kolom timestamp.

1. Untuk **unit Frekuensi**, tentukan frekuensi yang Anda resampling.

1. (Opsional) Tentukan nilai untuk **kuantitas Frekuensi**.

1. Konfigurasikan transformasi dengan menentukan bidang yang tersisa.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Menangani Data Seri Waktu yang Hilang
<a name="data-wrangler-transform-handle-missing-time-series"></a>

Jika Anda memiliki nilai yang hilang dalam kumpulan data Anda, Anda dapat melakukan salah satu hal berikut:
+ Untuk kumpulan data yang memiliki beberapa deret waktu, lepaskan deret waktu yang memiliki nilai hilang yang lebih besar dari ambang batas yang Anda tentukan.
+ Imputasi nilai yang hilang dalam deret waktu dengan menggunakan nilai lain dalam deret waktu.

Imputasi nilai yang hilang melibatkan penggantian data dengan menentukan nilai atau dengan menggunakan metode inferensial. Berikut ini adalah metode yang dapat Anda gunakan untuk imputasi:
+ Nilai konstan — Ganti semua data yang hilang dalam dataset Anda dengan nilai yang Anda tentukan.
+ Nilai paling umum — Ganti semua data yang hilang dengan nilai yang memiliki frekuensi tertinggi dalam kumpulan data.
+ Forward fill — Gunakan forward fill untuk mengganti nilai yang hilang dengan nilai yang tidak hilang yang mendahului nilai yang hilang. Untuk urutan: [2, 4, 7, NaN, NaN, NaN, 8], semua nilai yang hilang diganti dengan 7. Urutan yang dihasilkan dari penggunaan isian maju adalah [2, 4, 7, 7, 7, 7, 8].
+ Isi mundur - Gunakan pengisian mundur untuk mengganti nilai yang hilang dengan nilai yang tidak hilang yang mengikuti nilai yang hilang. Untuk urutan: [2, 4, 7, NaN, NaN, NaN, 8], semua nilai yang hilang diganti dengan 8. Urutan yang dihasilkan dari penggunaan pengisian mundur adalah [2, 4, 7, 8, 8, 8, 8]. 
+ Interpolasi — Menggunakan fungsi interpolasi untuk menghitung nilai yang hilang. [Untuk informasi lebih lanjut tentang fungsi yang dapat Anda gunakan untuk interpolasi, lihat panda. DataFrame.menginterpolasi](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html).

Beberapa metode imputasi mungkin tidak dapat memperhitungkan semua nilai yang hilang dalam kumpulan data Anda. Misalnya, **Forward fill** tidak dapat menyiratkan nilai yang hilang yang muncul di awal deret waktu. Anda dapat mengimputasi nilai dengan menggunakan isian maju atau pengisian mundur.

Anda dapat memasukkan nilai yang hilang di dalam sel atau di dalam kolom.

Contoh berikut menunjukkan bagaimana nilai-nilai yang diperhitungkan dalam sel.

Penggunaan listrik dengan nilai yang hilang


| ID Rumah Tangga | Seri penggunaan listrik (kWh) | 
| --- | --- | 
| rumah tangga\$10 | [30, 40, 35, NaN, NaN] | 
| rumah tangga\$11 | [45, NaN, 55] | 

Penggunaan listrik dengan nilai yang diperhitungkan menggunakan pengisian ke depan


| ID Rumah Tangga | Seri penggunaan listrik (kWh) | 
| --- | --- | 
| rumah tangga\$10 | [30, 40, 35, 35, 35] | 
| rumah tangga\$11 | [45, 45, 55] | 

Contoh berikut menunjukkan bagaimana nilai-nilai yang diperhitungkan dalam kolom.

Rata-rata penggunaan listrik rumah tangga harian dengan nilai yang hilang


| ID Rumah Tangga | Penggunaan listrik (kWh) | 
| --- | --- | 
| rumah tangga\$10 | 30 | 
| rumah tangga\$10 | 40 | 
| rumah tangga\$10 | NaN | 
| rumah tangga\$11 | NaN | 
| rumah tangga\$11 | NaN | 

Rata-rata penggunaan listrik rumah tangga harian dengan nilai yang diperhitungkan menggunakan pengisian ke depan


| ID Rumah Tangga | Penggunaan listrik (kWh) | 
| --- | --- | 
| rumah tangga\$10 | 30 | 
| rumah tangga\$10 | 40 | 
| rumah tangga\$10 | 40 | 
| rumah tangga\$11 | 40 | 
| rumah tangga\$11 | 40 | 

Anda dapat menggunakan prosedur berikut untuk menangani nilai yang hilang.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **Handle hilang**.

1. Untuk **jenis input deret waktu**, pilih apakah Anda ingin menangani nilai yang hilang di dalam sel atau di sepanjang kolom.

1. Untuk **Impute nilai yang hilang untuk kolom ini**, tentukan kolom yang memiliki nilai yang hilang.

1. Untuk **Metode untuk menghitung nilai**, pilih metode.

1. Konfigurasikan transformasi dengan menentukan bidang yang tersisa.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Jika Anda memiliki nilai yang hilang, Anda dapat menentukan metode untuk memasukkan mereka di bawah **Metode untuk memasukkan nilai.**

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Validasi Stempel Waktu Data Deret Waktu Anda
<a name="data-wrangler-transform-validate-timestamp"></a>

Anda mungkin memiliki data stempel waktu yang tidak valid. Anda dapat menggunakan fungsi **Validasi stempel waktu** untuk menentukan apakah stempel waktu dalam kumpulan data Anda valid. Stempel waktu Anda mungkin tidak valid karena satu atau beberapa alasan berikut:
+ Kolom stempel waktu Anda memiliki nilai yang hilang.
+ Nilai di kolom stempel waktu Anda tidak diformat dengan benar.

Jika Anda memiliki stempel waktu yang tidak valid dalam kumpulan data, Anda tidak dapat melakukan analisis dengan sukses. Anda dapat menggunakan Data Wrangler untuk mengidentifikasi stempel waktu yang tidak valid dan memahami di mana Anda perlu membersihkan data Anda.

Validasi deret waktu bekerja dalam salah satu dari dua cara:

Anda dapat mengonfigurasi Data Wrangler untuk melakukan salah satu hal berikut jika menemukan nilai yang hilang dalam kumpulan data Anda:
+ Jatuhkan baris yang memiliki nilai hilang atau tidak valid.
+ Identifikasi baris yang memiliki nilai hilang atau tidak valid.
+ Lempar kesalahan jika menemukan nilai yang hilang atau tidak valid di kumpulan data Anda.

Anda dapat memvalidasi stempel waktu pada kolom yang memiliki `timestamp` tipe atau jenisnya. `string` Jika kolom memiliki `string` tipe, Data Wrangler mengubah jenis kolom ke `timestamp` dan melakukan validasi.

Anda dapat menggunakan prosedur berikut untuk memvalidasi stempel waktu dalam kumpulan data Anda.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **Validasi stempel waktu**.

1. Untuk **Timestamp Column, pilih kolom** timestamp.

1. Untuk **Kebijakan**, pilih apakah Anda ingin menangani stempel waktu yang hilang.

1. (Opsional) Untuk **kolom Output**, tentukan nama untuk kolom output.

1. Jika kolom waktu tanggal diformat untuk jenis string, pilih **Cast to datetime**.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Standardisasi Panjang Deret Waktu
<a name="data-wrangler-transform-standardize-length"></a>

Jika Anda memiliki data deret waktu yang disimpan sebagai array, Anda dapat menstandarisasi setiap deret waktu dengan panjang yang sama. Standarisasi panjang array deret waktu mungkin memudahkan Anda untuk melakukan analisis pada data.

Anda dapat membakukan deret waktu Anda untuk transformasi data yang memerlukan panjang data Anda untuk diperbaiki.

Banyak algoritma ML mengharuskan Anda untuk meratakan data deret waktu Anda sebelum Anda menggunakannya. Meratakan data deret waktu memisahkan setiap nilai deret waktu menjadi kolomnya sendiri dalam kumpulan data. Jumlah kolom dalam kumpulan data tidak dapat berubah, sehingga panjang deret waktu perlu distandarisasi antara Anda meratakan setiap array menjadi satu set fitur.

Setiap deret waktu diatur ke panjang yang Anda tentukan sebagai kuantil atau persentil dari rangkaian deret waktu. Misalnya, Anda dapat memiliki tiga urutan yang memiliki panjang sebagai berikut:
+ 3
+ 4
+ 5

Anda dapat mengatur panjang semua urutan sebagai panjang urutan yang memiliki panjang persentil ke-50.

Array deret waktu yang lebih pendek dari panjang yang Anda tentukan memiliki nilai yang hilang ditambahkan. Berikut ini adalah contoh format standarisasi deret waktu ke panjang yang lebih panjang: [2, 4, 5, NaN, NaN, NaN].

Anda dapat menggunakan pendekatan yang berbeda untuk menangani nilai yang hilang. Untuk informasi tentang pendekatan tersebut, lihat[Menangani Data Seri Waktu yang Hilang](#data-wrangler-transform-handle-missing-time-series).

Array deret waktu yang lebih panjang dari panjang yang Anda tentukan terpotong.

Anda dapat menggunakan prosedur berikut untuk menstandarisasi panjang deret waktu.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **Standarisasi panjang.**

1. Untuk **Standarisasi panjang deret waktu untuk kolom**, pilih kolom.

1. (Opsional) Untuk **kolom Output**, tentukan nama untuk kolom output. Jika Anda tidak menentukan nama, transformasi dilakukan di tempat.

1. Jika kolom datetime diformat untuk jenis string, pilih **Cast** to datetime.

1. Pilih **Cutoff quantile** dan tentukan kuantil untuk mengatur panjang urutan.

1. Pilih **Ratakan output** untuk menampilkan nilai deret waktu ke dalam kolom terpisah.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Ekstrak Fitur dari Data Seri Waktu Anda
<a name="data-wrangler-transform-extract-time-series-features"></a>

Jika Anda menjalankan klasifikasi atau algoritma regresi pada data deret waktu Anda, sebaiknya ekstrak fitur dari deret waktu sebelum menjalankan algoritme. Mengekstrak fitur dapat meningkatkan kinerja algoritme Anda.

Gunakan opsi berikut untuk memilih bagaimana Anda ingin mengekstrak fitur dari data Anda:
+ Gunakan **subset Minimal** untuk menentukan ekstraksi 8 fitur yang Anda tahu berguna dalam analisis hilir. Anda dapat menggunakan subset minimal saat Anda perlu melakukan perhitungan dengan cepat. Anda juga dapat menggunakannya ketika algoritme ML Anda memiliki risiko overfitting yang tinggi dan Anda ingin menyediakannya dengan lebih sedikit fitur.
+ Gunakan **subset Efisien** untuk menentukan penggalian fitur sebanyak mungkin tanpa mengekstraksi fitur yang intensif secara komputasi dalam analisis Anda.
+ Gunakan **Semua fitur** untuk menentukan ekstraksi semua fitur dari seri lagu.
+ Gunakan **subset Manual** untuk memilih daftar fitur yang menurut Anda menjelaskan variasi data Anda dengan baik.

Gunakan prosedur berikut ini untuk mengekstrak fitur dari data deret waktu Anda.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **fitur Ekstrak**.

1. Untuk **fitur Ekstrak untuk kolom ini**, pilih kolom.

1. (Opsional) Pilih **Ratakan** untuk menampilkan fitur ke dalam kolom terpisah.

1. Untuk **Strategi**, pilih strategi untuk mengekstrak fitur.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Gunakan Fitur Lagged dari Data Time Series Anda
<a name="data-wrangler-transform-lag-time-series"></a>

Untuk banyak kasus penggunaan, cara terbaik untuk memprediksi perilaku future dari time series Anda adalah dengan menggunakan perilaku terbarunya.

Penggunaan paling umum dari fitur lagged adalah sebagai berikut:
+ Mengumpulkan beberapa nilai masa lalu. Misalnya, untuk waktu, t \$1 1, Anda mengumpulkan t, t - 1, t - 2, dan t - 3.
+ Mengumpulkan nilai-nilai yang sesuai dengan perilaku musiman dalam data. Misalnya, untuk memprediksi hunian di restoran pada pukul 13:00, Anda mungkin ingin menggunakan fitur mulai pukul 13.00 pada hari sebelumnya. Menggunakan fitur dari 12:00 PM atau 11:00 AM pada hari yang sama mungkin tidak prediktif seperti menggunakan fitur dari hari-hari sebelumnya.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **fitur Lag**.

1. Untuk **Menghasilkan fitur lag untuk kolom ini**, pilih kolom.

1. Untuk **Timestamp Column, pilih kolom** yang berisi stempel waktu.

1. Untuk **Lag**, tentukan durasi lag.

1. (Opsional) Konfigurasikan output menggunakan salah satu opsi berikut:
   + **Sertakan seluruh jendela lag**
   + **Ratakan output**
   + **Jatuhkan baris tanpa riwayat**

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Buat Rentang Datetime Dalam Seri Waktu Anda
<a name="data-wrangler-transform-datetime-range"></a>

Anda mungkin memiliki data deret waktu yang tidak memiliki stempel waktu. Jika Anda tahu bahwa pengamatan dilakukan secara berkala, Anda dapat menghasilkan stempel waktu untuk deret waktu di kolom terpisah. Untuk menghasilkan stempel waktu, Anda menentukan nilai untuk stempel waktu awal dan frekuensi stempel waktu.

Misalnya, Anda mungkin memiliki data deret waktu berikut untuk jumlah pelanggan di restoran.

Data deret waktu tentang jumlah pelanggan di restoran


| Jumlah pelanggan | 
| --- | 
| 10 | 
| 14 | 
| 24 | 
| 40 | 
| 30 | 
| 20 | 

Jika Anda tahu bahwa restoran dibuka pada pukul 17:00 dan pengamatan dilakukan setiap jam, Anda dapat menambahkan kolom stempel waktu yang sesuai dengan data deret waktu. Anda dapat melihat kolom timestamp pada tabel berikut.

Data deret waktu tentang jumlah pelanggan di restoran


| Jumlah pelanggan | Stempel waktu | 
| --- | --- | 
| 10 | 1:00PM | 
| 14 | 14:00 | 
| 24 | 15:00 SORE | 
| 40 | 16:00 SORE | 
| 30 | 17:00 | 
| 20 | 6:00 SORE | 

Gunakan prosedur berikut untuk menambahkan rentang datetime ke data Anda.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih rentang **Datetime**.

1. Untuk **tipe Frekuensi**, pilih unit yang digunakan untuk mengukur frekuensi stempel waktu.

1. Untuk **Memulai stempel waktu**, tentukan stempel waktu mulai.

1. Untuk **kolom Output**, tentukan nama untuk kolom output.

1. (Opsional) Konfigurasikan output menggunakan bidang yang tersisa.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

### Gunakan Jendela Bergulir Dalam Seri Waktu Anda
<a name="data-wrangler-transform-rolling-window"></a>

Anda dapat mengekstrak fitur selama periode waktu tertentu. *Misalnya, untuk waktu, *t*, dan panjang jendela waktu 3, dan untuk baris yang menunjukkan stempel waktu *t* th, kami menambahkan fitur yang diekstraksi dari deret waktu pada waktu *t - 3, t* -2, dan *t* - 1.* Untuk informasi tentang mengekstraksi fitur, lihat[Ekstrak Fitur dari Data Seri Waktu Anda](#data-wrangler-transform-extract-time-series-features). 

Anda dapat menggunakan prosedur berikut untuk mengekstrak fitur selama periode waktu tertentu.

1. Buka aliran data Wrangler Data Anda.

1. Jika Anda belum mengimpor dataset Anda, impor di bawah tab **Impor data**.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **fitur jendela bergulir**.

1. Untuk **Menghasilkan fitur jendela bergulir untuk kolom ini**, pilih kolom.

1. Untuk **Timestamp Column, pilih kolom** yang berisi stempel waktu.

1. (Opsional) Untuk **Kolom Keluaran**, tentukan nama kolom output.

1. Untuk **ukuran jendela**, tentukan ukuran jendela.

1. Untuk **Strategi**, pilih strategi ekstraksi.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau transformasi.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

## Featurize Datetime
<a name="data-wrangler-transform-datetime-embed"></a>

Gunakan **Featurize tanggal/waktu** untuk membuat embedding vektor yang mewakili bidang datetime. Untuk menggunakan transformasi ini, data datetime Anda harus dalam salah satu format berikut: 
+ String yang menjelaskan datetime: Misalnya,. `"January 1st, 2020, 12:44pm"` 
+ Stempel waktu Unix: Stempel waktu Unix menggambarkan jumlah detik, milidetik, mikrodetik, atau nanodetik dari 1/1/1970. 

**Anda dapat memilih untuk **Menyimpulkan format datetime dan menyediakan format** Datetime.** [Jika Anda menyediakan format datetime, Anda harus menggunakan kode yang dijelaskan dalam dokumentasi Python.](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes) Opsi yang Anda pilih untuk dua konfigurasi ini memiliki implikasi untuk kecepatan operasi dan hasil akhir.
+ **Opsi paling manual dan tercepat secara komputasi adalah menentukan format Datetime dan pilih **No** for Infer **datetime format**.**
+ Untuk mengurangi tenaga kerja manual, Anda dapat memilih format **Infer datetime dan tidak menentukan format** datetime. Ini juga merupakan operasi komputasi cepat; Namun, format datetime pertama yang ditemui di kolom input diasumsikan sebagai format untuk seluruh kolom. Jika ada format lain di kolom, nilai-nilai ini adalah NaN di output akhir. Menyimpulkan format datetime dapat memberi Anda string yang tidak diurai. 
+ Jika Anda tidak menentukan format dan memilih **No** for **Infer datetime format**, Anda mendapatkan hasil yang paling kuat. Semua string datetime yang valid diuraikan. Namun, operasi ini bisa menjadi urutan besarnya lebih lambat dari dua opsi pertama dalam daftar ini. 

Bila Anda menggunakan transformasi ini, Anda menentukan **kolom Input** yang berisi data datetime dalam salah satu format yang tercantum di atas. Transformasi menciptakan kolom output bernama **Output nama kolom**. Format kolom output tergantung pada konfigurasi Anda menggunakan yang berikut ini:
+ **Vektor**: Mengeluarkan satu kolom sebagai vektor. 
+ **Kolom**: Membuat kolom baru untuk setiap fitur. Misalnya, jika output berisi tahun, bulan, dan hari, tiga kolom terpisah dibuat untuk tahun, bulan, dan hari. 

Selain itu, Anda harus memilih **mode Embedding**. Untuk model linier dan jaringan dalam, kami sarankan memilih **siklik**. **Untuk algoritma berbasis pohon, kami sarankan memilih ordinal.**

## Format String
<a name="data-wrangler-transform-format-string"></a>

Transformasi **string Format** berisi operasi pemformatan string standar. Misalnya, Anda dapat menggunakan operasi ini untuk menghapus karakter khusus, menormalkan panjang string, dan memperbarui casing string.

Grup fitur ini berisi transformasi berikut. Semua transformasi mengembalikan salinan string di **kolom Input** dan menambahkan hasilnya ke kolom keluaran baru.


| Nama | Fungsi | 
| --- | --- | 
| Pad kiri |  **Left-pad string dengan **karakter Fill** yang diberikan ke lebar yang diberikan.** Jika string lebih panjang dari **lebar**, nilai kembali disingkat menjadi karakter **lebar**.  | 
| Pad kanan |  Right-pad string dengan **karakter Fill** yang diberikan ke **lebar** yang diberikan. Jika string lebih panjang dari **lebar**, nilai kembali disingkat menjadi karakter **lebar**.  | 
| Tengah (pad di kedua sisi) |  **Tengah-pad string (tambahkan padding di kedua sisi string) dengan **karakter Fill** yang diberikan ke lebar yang diberikan.** Jika string lebih panjang dari **lebar**, nilai kembali disingkat menjadi karakter **lebar**.  | 
| Menambah nol |  **Isi kiri string numerik dengan nol, hingga lebar yang diberikan.** Jika string lebih panjang dari **lebar**, nilai kembali disingkat menjadi karakter **lebar**.  | 
| Strip kiri dan kanan |  Mengembalikan salinan string dengan karakter utama dan trailing dihapus.  | 
| Strip karakter dari kiri |  Mengembalikan salinan string dengan karakter utama dihapus.  | 
| Strip karakter dari kanan |  Mengembalikan salinan string dengan karakter trailing dihapus.  | 
| Huruf kecil |  Ubah semua huruf dalam teks menjadi huruf kecil.  | 
| Kasus besar |  Ubah semua huruf dalam teks menjadi huruf besar.  | 
| Kapitalisasi |  Kapitalisasi huruf pertama di setiap kalimat.   | 
| Swap kasus | Mengkonversi semua karakter huruf besar ke huruf kecil dan semua karakter huruf kecil untuk karakter huruf besar dari string yang diberikan, dan mengembalikannya. | 
| Tambahkan awalan atau akhiran |  Menambahkan awalan dan akhiran kolom string. Anda harus menentukan setidaknya satu dari **Awalan** dan **Akhiran**.   | 
| Hapus simbol |  Menghapus simbol yang diberikan dari string. Semua karakter yang terdaftar dihapus. Default ke ruang putih.   | 

## Tangani Outlier
<a name="data-wrangler-transform-handle-outlier"></a>

Model pembelajaran mesin sensitif terhadap distribusi dan jangkauan nilai fitur Anda. Pencilan, atau nilai langka, dapat berdampak negatif pada akurasi model dan menyebabkan waktu pelatihan yang lebih lama. Gunakan grup fitur ini untuk mendeteksi dan memperbarui outlier dalam kumpulan data Anda. 

Saat Anda menentukan langkah transformasi **Handle outlier**, statistik yang digunakan untuk mendeteksi outlier dihasilkan pada data yang tersedia di Data Wrangler saat mendefinisikan langkah ini. Statistik yang sama ini digunakan saat menjalankan pekerjaan Data Wrangler. 

Gunakan bagian berikut untuk mempelajari lebih lanjut tentang transformasi yang terkandung dalam grup ini. Anda menentukan **nama Output** dan masing-masing transformasi ini menghasilkan kolom output dengan data yang dihasilkan. 

### Outlier numerik deviasi standar yang kuat
<a name="data-wrangler-transform-handle-outlier-rstdev"></a>

Transformasi ini mendeteksi dan memperbaiki outlier dalam fitur numerik menggunakan statistik yang kuat untuk outlier.

Anda harus menentukan **kuantil Atas dan kuantil** **Bawah untuk statistik yang digunakan untuk menghitung** outlier. Anda juga harus menentukan jumlah **Standar deviasi** dari mana nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3 untuk **Standar deviasi**, nilai harus jatuh lebih dari 3 standar deviasi dari rata-rata untuk dianggap sebagai outlier. 

**Metode Fix** adalah metode yang digunakan untuk menangani outlier ketika terdeteksi. Anda dapat memilih dari opsi berikut:
+ **Klip**: Gunakan opsi ini untuk memotong outlier ke terikat deteksi outlier yang sesuai.
+ **Hapus**: Gunakan opsi ini untuk menghapus baris dengan outlier dari kerangka data.
+ **Tidak valid**: Gunakan opsi ini untuk mengganti outlier dengan nilai yang tidak valid.

### Pencilan Numerik Deviasi Standar
<a name="data-wrangler-transform-handle-outlier-sstdev"></a>

Transformasi ini mendeteksi dan memperbaiki outlier dalam fitur numerik menggunakan mean dan standar deviasi.

Anda menentukan jumlah **Standar deviasi** suatu nilai harus bervariasi dari rata-rata untuk dianggap sebagai outlier. Misalnya, jika Anda menentukan 3 untuk **Standar deviasi**, nilai harus jatuh lebih dari 3 standar deviasi dari rata-rata untuk dianggap sebagai outlier. 

**Metode Fix** adalah metode yang digunakan untuk menangani outlier ketika terdeteksi. Anda dapat memilih dari opsi berikut:
+ **Klip**: Gunakan opsi ini untuk memotong outlier ke terikat deteksi outlier yang sesuai.
+ **Hapus**: Gunakan opsi ini untuk menghapus baris dengan outlier dari kerangka data.
+ **Tidak valid**: Gunakan opsi ini untuk mengganti outlier dengan nilai yang tidak valid.

### Pencilan Numerik Kuantil
<a name="data-wrangler-transform-handle-outlier-quantile-numeric"></a>

Gunakan transformasi ini untuk mendeteksi dan memperbaiki outlier dalam fitur numerik menggunakan kuantil. Anda dapat menentukan **kuantil Atas dan kuantil** **Bawah**. Semua nilai yang berada di atas kuantil atas atau di bawah kuantil bawah dianggap outlier. 

**Metode Fix** adalah metode yang digunakan untuk menangani outlier ketika terdeteksi. Anda dapat memilih dari opsi berikut:
+ **Klip**: Gunakan opsi ini untuk memotong outlier ke terikat deteksi outlier yang sesuai.
+ **Hapus**: Gunakan opsi ini untuk menghapus baris dengan outlier dari kerangka data.
+ **Tidak valid**: Gunakan opsi ini untuk mengganti outlier dengan nilai yang tidak valid. 

### Pencilan Numerik Min-Max
<a name="data-wrangler-transform-handle-outlier-minmax-numeric"></a>

Transformasi ini mendeteksi dan memperbaiki outlier dalam fitur numerik menggunakan ambang batas atas dan bawah. Gunakan metode ini jika Anda mengetahui nilai ambang batas yang mendemark outlier.

Anda menentukan **ambang atas dan ambang** **bawah**, dan jika nilai jatuh di atas atau di bawah ambang tersebut masing-masing, mereka dianggap outlier. 

**Metode Fix** adalah metode yang digunakan untuk menangani outlier ketika terdeteksi. Anda dapat memilih dari opsi berikut:
+ **Klip**: Gunakan opsi ini untuk memotong outlier ke terikat deteksi outlier yang sesuai.
+ **Hapus**: Gunakan opsi ini untuk menghapus baris dengan outlier dari kerangka data.
+ **Tidak valid**: Gunakan opsi ini untuk mengganti outlier dengan nilai yang tidak valid. 

### Ganti Rare
<a name="data-wrangler-transform-handle-outlier-replace-rare"></a>

Saat Anda menggunakan **Ganti transformasi langka**, Anda menentukan ambang batas dan Data Wrangler menemukan semua nilai yang memenuhi ambang batas tersebut dan menggantinya dengan string yang Anda tentukan. Misalnya, Anda mungkin ingin menggunakan transformasi ini untuk mengkategorikan semua outlier dalam kolom ke dalam kategori “Lainnya”. 
+ **String pengganti**: String yang digunakan untuk mengganti outlier.
+ **Ambang batas absolut**: Kategori jarang terjadi jika jumlah instance kurang dari atau sama dengan ambang absolut ini.
+ **Ambang pecahan**: Kategori jarang terjadi jika jumlah instance kurang dari atau sama dengan ambang fraksi ini dikalikan dengan jumlah baris.
+ **Kategori umum maksimum: Kategori** maksimum yang tidak langka yang tersisa setelah operasi. Jika ambang batas tidak menyaring kategori yang cukup, mereka yang memiliki jumlah penampilan teratas diklasifikasikan sebagai tidak jarang. Jika disetel ke 0 (default), tidak ada batasan keras untuk jumlah kategori.

## Tangani Nilai yang Hilang
<a name="data-wrangler-transform-handle-missing"></a>

Nilai yang hilang adalah kejadian umum dalam kumpulan data pembelajaran mesin. Dalam beberapa situasi, adalah tepat untuk menghitung data yang hilang dengan nilai yang dihitung, seperti nilai rata-rata atau kategoris umum. Anda dapat memproses nilai yang hilang menggunakan grup transformasi **nilai Handle yang hilang**. Grup ini berisi transformasi berikut. 

### Isi Hilang
<a name="data-wrangler-transform-fill-missing"></a>

Gunakan **Fill missing** transform untuk mengganti nilai yang hilang dengan **nilai Fill** yang Anda tentukan. 

### Impute Hilang
<a name="data-wrangler-transform-impute"></a>

Gunakan transformasi yang **hilang Impute** untuk membuat kolom baru yang berisi nilai yang diperhitungkan di mana nilai yang hilang ditemukan dalam data kategoris dan numerik input. Konfigurasi tergantung pada tipe data Anda.

Untuk data numerik, pilih strategi imputing, strategi yang digunakan untuk menentukan nilai baru yang akan diperhitungkan. Anda dapat memilih untuk menghitung mean atau median atas nilai yang ada dalam kumpulan data Anda. Data Wrangler menggunakan nilai yang dihitung untuk menghitung nilai yang hilang.

Untuk data kategoris, Data Wrangler menyiratkan nilai yang hilang menggunakan nilai yang paling sering di kolom. Untuk memasukkan string kustom, gunakan **Fill missing** transform sebagai gantinya.

### Tambahkan Indikator untuk Hilang
<a name="data-wrangler-transform-missing-add-indicator"></a>

Gunakan **indikator Tambah untuk transformasi yang hilang** untuk membuat kolom indikator baru, yang berisi Boolean `"false"` jika baris berisi nilai, dan `"true"` jika baris berisi nilai yang hilang. 

### Jatuhkan Hilang
<a name="data-wrangler-transform-drop-missing"></a>

Gunakan opsi **Drop missing** untuk menjatuhkan baris yang berisi nilai yang hilang dari **kolom Input**.

## Kelola Kolom
<a name="data-wrangler-manage-columns"></a>

Anda dapat menggunakan transformasi berikut untuk memperbarui dan mengelola kolom dengan cepat di kumpulan data Anda: 


| Nama | Fungsi | 
| --- | --- | 
| Jatuhkan Kolom | Hapus kolom.  | 
| Kolom Duplikat | Duplikat kolom. | 
| Ganti Nama Kolom | Ganti nama kolom. | 
| Pindahkan Kolom |  Pindahkan lokasi kolom dalam kumpulan data. Pilih untuk memindahkan kolom Anda ke awal atau akhir kumpulan data, sebelum atau sesudah kolom referensi, atau ke indeks tertentu.   | 

## Kelola Baris
<a name="data-wrangler-transform-manage-rows"></a>

Gunakan grup transformasi ini untuk dengan cepat melakukan operasi pengurutan dan pengocokan pada baris. Grup ini berisi yang berikut:
+ **Urutkan**: Urutkan seluruh kerangka data dengan kolom tertentu. Pilih kotak centang di sebelah **Urutan naik** untuk opsi ini; jika tidak, batalkan centang kotak dan urutan menurun digunakan untuk pengurutan. 
+ **Shuffle**: Aduk semua baris dalam kumpulan data secara acak. 

## Kelola Vektor
<a name="data-wrangler-transform-manage-vectors"></a>

Gunakan grup transformasi ini untuk menggabungkan atau meratakan kolom vektor. Grup ini berisi transformasi berikut. 
+ **Merakit**: Gunakan transformasi ini untuk menggabungkan vektor Spark dan data numerik menjadi satu kolom. Misalnya, Anda dapat menggabungkan tiga kolom: dua berisi data numerik dan satu berisi vektor. Tambahkan semua kolom yang ingin Anda gabungkan **Kolom input** dan tentukan **nama kolom Output** untuk data gabungan. 
+ **Flatten**: Gunakan transformasi ini untuk meratakan satu kolom yang berisi data vektor. Kolom input harus berisi PySpark vektor atau objek seperti array. Anda dapat mengontrol jumlah kolom yang dibuat dengan menentukan **Metode untuk mendeteksi jumlah output**. Misalnya, jika Anda memilih **Panjang vektor pertama**, jumlah elemen dalam vektor atau larik valid pertama yang ditemukan di kolom menentukan jumlah kolom keluaran yang dibuat. Semua vektor input lainnya dengan terlalu banyak item terpotong. Masukan dengan terlalu sedikit item diisi dengan NaNs.

  Anda juga menentukan **awalan Output**, yang digunakan sebagai awalan untuk setiap kolom output. 

## Proses Numerik
<a name="data-wrangler-transform-process-numeric"></a>

Gunakan grup fitur **Process Numeric** untuk memproses data numerik. Setiap skalar dalam grup ini didefinisikan menggunakan perpustakaan Spark. Skalar berikut didukung:
+ **Standard Scaler**: Standarisasi kolom input dengan mengurangi rata-rata dari setiap nilai dan penskalaan ke varians unit. Untuk mempelajari lebih lanjut, lihat dokumentasi Spark untuk [StandardScaler](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html).
+ **Robust Scaler**: Skala kolom input menggunakan statistik yang kuat untuk outlier. Untuk mempelajari lebih lanjut, lihat dokumentasi Spark untuk [RobustScaler](https://spark.apache.org/docs/latest/ml-features#robustscaler).
+ **Min Max Scaler**: Ubah kolom input dengan menskalakan setiap fitur ke rentang tertentu. Untuk mempelajari lebih lanjut, lihat dokumentasi Spark untuk [MinMaxScaler](https://spark.apache.org/docs/latest/ml-features#minmaxscaler).
+ **Max Absolute Scaler**: Skala kolom input dengan membagi setiap nilai dengan nilai absolut maksimum. Untuk mempelajari lebih lanjut, lihat dokumentasi Spark untuk [MaxAbsScaler](https://spark.apache.org/docs/latest/ml-features#maxabsscaler).

## Pengambilan sampel
<a name="data-wrangler-transform-sampling"></a>

Setelah mengimpor data, Anda dapat menggunakan transformator **Sampling** untuk mengambil satu atau lebih sampelnya. Saat Anda menggunakan transformator sampling, Data Wrangler mengambil sampel kumpulan data asli Anda.

Anda dapat memilih salah satu metode sampel berikut:
+ **Batas**: Sampel kumpulan data mulai dari baris pertama hingga batas yang Anda tentukan.
+ **Acak**: Mengambil sampel acak dari ukuran yang Anda tentukan.
+ **Bertingkat**: Mengambil sampel acak bertingkat.

Anda dapat membuat stratifikasi sampel acak untuk memastikan bahwa sampel tersebut mewakili distribusi asli kumpulan data.

Anda mungkin melakukan persiapan data untuk beberapa kasus penggunaan. Untuk setiap kasus penggunaan, Anda dapat mengambil sampel yang berbeda dan menerapkan serangkaian transformasi yang berbeda.

Prosedur berikut menjelaskan proses pembuatan sampel acak. 

Untuk mengambil sampel acak dari data Anda.

1. Pilih **\$1** di sebelah kanan kumpulan data yang telah Anda impor. Nama dataset Anda terletak di bawah **\$1**.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Pengambilan sampel**.

1. Untuk **metode Sampling**, pilih metode sampling.

1. Untuk **Perkiraan ukuran sampel**, pilih perkiraan jumlah pengamatan yang Anda inginkan dalam sampel Anda.

1. (Opsional) Tentukan bilangan bulat untuk **benih Acak** untuk membuat sampel yang dapat direproduksi.

Prosedur berikut menjelaskan proses pembuatan sampel bertingkat.

Untuk mengambil sampel bertingkat dari data Anda.

1. Pilih **\$1** di sebelah kanan kumpulan data yang telah Anda impor. Nama dataset Anda terletak di bawah **\$1**.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Pengambilan sampel**.

1. Untuk **metode Sampling**, pilih metode sampling.

1. Untuk **Perkiraan ukuran sampel**, pilih perkiraan jumlah pengamatan yang Anda inginkan dalam sampel Anda.

1. Untuk **kolom Stratify**, tentukan nama kolom yang ingin Anda stratifikasi.

1. (Opsional) Tentukan bilangan bulat untuk **benih Acak** untuk membuat sampel yang dapat direproduksi.

## Cari dan Edit
<a name="data-wrangler-transform-search-edit"></a>

Gunakan bagian ini untuk mencari dan mengedit pola tertentu dalam string. Misalnya, Anda dapat menemukan dan memperbarui string dalam kalimat atau dokumen, membagi string dengan pembatas, dan menemukan kemunculan string tertentu. 

Transformasi berikut didukung di bawah **Cari dan edit**. Semua transformasi mengembalikan salinan string di kolom **Input dan menambahkan hasilnya ke kolom** output baru.


| Nama | Fungsi | 
| --- | --- | 
|  Temukan substring  |  Mengembalikan indeks kejadian pertama dari **Substring** yang Anda cari, Anda dapat memulai dan mengakhiri pencarian di **Mulai** dan **Akhir** masing-masing.   | 
|  Temukan substring (dari kanan)  |  Mengembalikan indeks kejadian terakhir dari **Substring** yang Anda cari. Anda dapat memulai dan mengakhiri pencarian di **Start** dan **End** masing-masing.   | 
|  Awalan kecocokan  |  Mengembalikan nilai Boolean jika string berisi **Pola** yang diberikan. Sebuah pola dapat berupa urutan karakter atau ekspresi reguler. Secara opsional, Anda dapat membuat pola peka huruf besar/huruf besar.   | 
|  Temukan semua kejadian  |  Mengembalikan array dengan semua kejadian dari pola yang diberikan. Sebuah pola dapat berupa urutan karakter atau ekspresi reguler.   | 
|  Ekstrak menggunakan regex  |  Mengembalikan string yang cocok dengan pola Regex tertentu.  | 
|  Ekstrak antara pembatas  |  Mengembalikan string dengan semua karakter ditemukan antara pembatas **Kiri dan pembatas** **Kanan**.   | 
|  Ekstrak dari posisi  |  Mengembalikan string, **mulai dari posisi Mulai** dalam string input, yang berisi semua karakter hingga posisi awal ditambah **Panjang**.   | 
|  Temukan dan ganti substring  |  Mengembalikan string dengan semua kecocokan dari **Pola** tertentu (ekspresi reguler) digantikan oleh **string Penggantian**.  | 
|  Ganti antara pembatas  |  **Mengembalikan string dengan substring ditemukan antara penampilan pertama **pembatas Kiri dan penampilan terakhir dari pembatas** **Kanan digantikan oleh string Penggantian**.** Jika tidak ada kecocokan yang ditemukan, tidak ada yang diganti.   | 
|  Ganti dari posisi  |  Mengembalikan string dengan substring antara **posisi Mulai dan posisi** **Mulai** ditambah **Panjang** diganti dengan **string Penggantian**. Jika **posisi Mulai** ditambah **Panjang** lebih besar dari panjang string pengganti, output berisi**...**.  | 
|  Konversi regex menjadi hilang  |  Mengkonversi string ke `None` jika tidak valid dan mengembalikan hasilnya. Validitas didefinisikan dengan ekspresi reguler dalam **Pola**.  | 
|  Pisahkan string dengan pembatas  |  Mengembalikan array string dari string input, dibagi dengan **Delimiter**, dengan sampai **jumlah Max split (opsional**). Delimiter default ke spasi putih.   | 

## Membagi data
<a name="data-wrangler-transform-split-data"></a>

Gunakan transformasi **data Split** untuk membagi kumpulan data Anda menjadi dua atau tiga kumpulan data. Misalnya, Anda dapat membagi kumpulan data menjadi kumpulan data yang digunakan untuk melatih model dan kumpulan data yang digunakan untuk mengujinya. Anda dapat menentukan proporsi dataset yang masuk ke setiap split. Misalnya, jika Anda membagi satu kumpulan data menjadi dua kumpulan data, kumpulan data pelatihan dapat memiliki 80% data sementara kumpulan data pengujian memiliki 20%.

Memisahkan data Anda menjadi tiga kumpulan data memberi Anda kemampuan untuk membuat kumpulan data pelatihan, validasi, dan pengujian. Anda dapat melihat seberapa baik kinerja model pada kumpulan data pengujian dengan menjatuhkan kolom target.

Kasus penggunaan Anda menentukan berapa banyak kumpulan data asli yang didapat masing-masing kumpulan data Anda dan metode yang Anda gunakan untuk membagi data. Misalnya, Anda mungkin ingin menggunakan pemisahan bertingkat untuk memastikan bahwa distribusi pengamatan di kolom target sama di seluruh kumpulan data. Anda dapat menggunakan transformasi split berikut:
+ Pemisahan acak - Setiap pemisahan adalah sampel acak dan tidak tumpang tindih dari kumpulan data asli. Untuk kumpulan data yang lebih besar, menggunakan pemisahan acak mungkin mahal secara komputasi dan membutuhkan waktu lebih lama daripada pemisahan yang dipesan.
+ Pemisahan berurutan — Membagi kumpulan data berdasarkan urutan pengamatan yang berurutan. Misalnya, untuk pemisahan uji kereta 80/20, pengamatan pertama yang membentuk 80% dari kumpulan data masuk ke kumpulan data pelatihan. 20% terakhir dari pengamatan pergi ke dataset pengujian. Pemisahan yang dipesan efektif dalam menjaga urutan data yang ada di antara pemisahan.
+ Pemisahan bertingkat — Membagi kumpulan data untuk memastikan bahwa jumlah pengamatan di kolom input memiliki representasi proporsional. Untuk kolom input yang memiliki pengamatan 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, pemisahan 80/20 pada kolom berarti bahwa sekitar 80% dari 1s, 80% dari 2s, dan 80% dari 3s pergi ke set pelatihan. Sekitar 20% dari setiap jenis pengamatan pergi ke set pengujian.
+ Split by key — Menghindari data dengan kunci yang sama terjadi di lebih dari satu split. Misalnya, jika Anda memiliki kumpulan data dengan kolom 'customer\$1id' dan Anda menggunakannya sebagai kunci, tidak ada id pelanggan di lebih dari satu split.

Setelah Anda membagi data, Anda dapat menerapkan transformasi tambahan ke setiap kumpulan data. Untuk sebagian besar kasus penggunaan, mereka tidak diperlukan.

Data Wrangler menghitung proporsi perpecahan untuk kinerja. Anda dapat memilih ambang kesalahan untuk mengatur keakuratan pemisahan. Ambang kesalahan yang lebih rendah lebih akurat mencerminkan proporsi yang Anda tentukan untuk pemisahan. Jika Anda menetapkan ambang kesalahan yang lebih tinggi, Anda mendapatkan kinerja yang lebih baik, tetapi akurasi yang lebih rendah.

Untuk membagi data dengan sempurna, atur ambang kesalahan ke 0. Anda dapat menentukan ambang batas antara 0 dan 1 untuk kinerja yang lebih baik. Jika Anda menentukan nilai yang lebih besar dari 1, Data Wrangler menafsirkan nilai itu sebagai 1.

Jika Anda memiliki 10000 baris dalam kumpulan data Anda dan Anda menentukan pemisahan 80/20 dengan kesalahan 0,001, Anda akan mendapatkan pengamatan yang mendekati salah satu hasil berikut:
+ 8010 pengamatan di set pelatihan dan 1990 di set pengujian
+ 7990 pengamatan di set pelatihan dan 2010 di set pengujian

Jumlah pengamatan untuk pengujian yang ditetapkan dalam contoh sebelumnya adalah dalam interval antara 8010 dan 7990.

Secara default, Data Wrangler menggunakan seed acak untuk membuat split dapat direproduksi. Anda dapat menentukan nilai yang berbeda untuk benih untuk membuat pemisahan yang dapat direproduksi yang berbeda.

------
#### [ Randomized split ]

Gunakan prosedur berikut untuk melakukan pemisahan acak pada kumpulan data Anda.

Untuk membagi kumpulan data Anda secara acak, lakukan hal berikut

1. Pilih **\$1** di sebelah node yang berisi kumpulan data yang Anda pisahkan.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Pisahkan data**.

1. (Opsional) Untuk **Splits**, tentukan nama dan proporsi setiap split. Proporsi harus berjumlah 1.

1. (Opsional) Pilih **\$1** untuk membuat split tambahan.

   1. Tentukan nama dan proporsi semua perpecahan. Proporsi harus berjumlah 1.

1. (Opsional) Tentukan nilai untuk **ambang kesalahan** selain nilai default.

1. (Opsional) Tentukan nilai untuk **benih Acak**.

1. Pilih **Pratinjau**.

1. Pilih **Tambahkan**.

------
#### [ Ordered split ]

Gunakan prosedur berikut untuk melakukan pemisahan berurutan pada kumpulan data Anda.

Untuk membuat pemisahan berurutan dalam kumpulan data Anda, lakukan hal berikut.

1. Pilih **\$1** di sebelah node yang berisi kumpulan data yang Anda pisahkan.

1. Pilih **Tambahkan transformasi**.

1. Untuk **Transform**, pilih **Pemisahan yang dipesan**.

1. Pilih **Pisahkan data**.

1. (Opsional) Untuk **Splits**, tentukan nama dan proporsi setiap split. Proporsi harus berjumlah 1.

1. (Opsional) Pilih **\$1** untuk membuat split tambahan.

   1. Tentukan nama dan proporsi semua perpecahan. Proporsi harus berjumlah 1.

1. (Opsional) Tentukan nilai untuk **ambang kesalahan** selain nilai default.

1. (Opsional) Untuk **kolom Input**, tentukan kolom dengan nilai numerik. Menggunakan nilai kolom untuk menyimpulkan catatan mana yang ada di setiap split. Nilai yang lebih kecil berada dalam satu split dengan nilai yang lebih besar di split lainnya.

1. (Opsional) Pilih **Tangani duplikat** untuk menambahkan noise ke nilai duplikat dan buat kumpulan data dengan nilai yang sepenuhnya unik.

1. (Opsional) Tentukan nilai untuk **benih Acak**.

1. Pilih **Pratinjau**.

1. Pilih **Tambahkan**.

------
#### [ Stratified split ]

Gunakan prosedur berikut untuk melakukan pemisahan bertingkat pada kumpulan data Anda.

Untuk membuat pemisahan bertingkat dalam kumpulan data Anda, lakukan hal berikut.

1. Pilih **\$1** di sebelah node yang berisi kumpulan data yang Anda pisahkan.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Pisahkan data**.

1. Untuk **Transform**, pilih **Stratified split**.

1. (Opsional) Untuk **Splits**, tentukan nama dan proporsi setiap split. Proporsi harus berjumlah 1.

1. (Opsional) Pilih **\$1** untuk membuat split tambahan.

   1. Tentukan nama dan proporsi semua perpecahan. Proporsi harus berjumlah 1.

1. Untuk **kolom Input**, tentukan kolom dengan hingga 100 nilai unik. Data Wrangler tidak dapat membuat stratifikasi kolom dengan lebih dari 100 nilai unik.

1. (Opsional) Tentukan nilai untuk **ambang kesalahan** selain nilai default.

1. (Opsional) Tentukan nilai untuk **benih acak** untuk menentukan benih yang berbeda.

1. Pilih **Pratinjau**.

1. Pilih **Tambahkan**.

------
#### [ Split by column keys ]

Gunakan prosedur berikut untuk membagi dengan kunci kolom dalam dataset Anda.

Untuk membagi dengan kunci kolom dalam kumpulan data Anda, lakukan hal berikut.

1. Pilih **\$1** di sebelah node yang berisi kumpulan data yang Anda pisahkan.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Pisahkan data**.

1. Untuk **Transform**, pilih **Split by key**.

1. (Opsional) Untuk **Splits**, tentukan nama dan proporsi setiap split. Proporsi harus berjumlah 1.

1. (Opsional) Pilih **\$1** untuk membuat split tambahan.

   1. Tentukan nama dan proporsi semua perpecahan. Proporsi harus berjumlah 1.

1. Untuk **kolom Kunci**, tentukan kolom dengan nilai yang tidak ingin Anda tampilkan di kedua kumpulan data.

1. (Opsional) Tentukan nilai untuk **ambang kesalahan** selain nilai default.

1. Pilih **Pratinjau**.

1. Pilih **Tambahkan**.

------

## Parse Nilai sebagai Tipe
<a name="data-wrangler-transform-cast-type"></a>

Gunakan transformasi ini untuk mentransmisikan kolom ke tipe baru. Tipe data Data Wrangler yang didukung adalah:
+ Panjang
+ Desimal
+ Boolean
+ Tanggal, dalam format dd-MM-yyyy, masing-masing mewakili hari, bulan, dan tahun. 
+ String

## Validasi String
<a name="data-wrangler-transform-validate-string"></a>

Gunakan transformasi **string Validasi** untuk membuat kolom baru yang menunjukkan bahwa baris data teks memenuhi kondisi tertentu. Misalnya, Anda dapat menggunakan transformasi **string Validasi** untuk memverifikasi bahwa string hanya berisi karakter huruf kecil. Transformasi berikut didukung di bawah **Validasi string**. 

Transformasi berikut termasuk dalam grup transformasi ini. Jika transformasi menghasilkan nilai Boolean, `True` diwakili dengan a `1` dan `False` diwakili dengan a. `0`


| Nama | Fungsi | 
| --- | --- | 
|  Panjang tali  |  Mengembalikan `True` jika panjang string sama dengan panjang tertentu. Jika tidak, mengembalikan `False`.   | 
|  Starts with  |  Mengembalikan `True` jika string dimulai akan awalan tertentu. Jika tidak, mengembalikan `False`.  | 
|  Ends with  |  Mengembalikan `True` jika panjang string sama dengan panjang tertentu. Jika tidak, mengembalikan `False`.  | 
|  Apakah alfanumerik  |  Mengembalikan `True` jika string hanya berisi angka dan huruf. Jika tidak, mengembalikan `False`.  | 
|  Apakah alfa (huruf)  |  Mengembalikan `True` jika string hanya berisi huruf. Jika tidak, mengembalikan `False`.  | 
|  Adalah digit  |  Mengembalikan `True` jika string hanya berisi digit. Jika tidak, mengembalikan `False`.  | 
|  Adalah ruang  |  Mengembalikan `True` jika string hanya berisi angka dan huruf. Jika tidak, mengembalikan `False`.  | 
|  Adalah judul  |  Mengembalikan `True` jika string berisi spasi putih. Jika tidak, mengembalikan `False`.  | 
|  Adalah huruf kecil  |  Mengembalikan `True` jika string hanya berisi huruf kecil. Jika tidak, mengembalikan `False`.  | 
|  Adalah huruf besar  |  Mengembalikan `True` jika string hanya berisi huruf besar. Jika tidak, mengembalikan `False`.  | 
|  Adalah numerik  |  Mengembalikan `True` jika string hanya berisi angka. Jika tidak, mengembalikan `False`.  | 
|  Adalah desimal  |  Mengembalikan `True` jika string hanya berisi angka desimal. Jika tidak, mengembalikan `False`.  | 

## Data JSON Unnest
<a name="data-wrangler-transform-flatten-column"></a>

Jika Anda memiliki file.csv, Anda mungkin memiliki nilai dalam kumpulan data Anda yang merupakan string JSON. Demikian pula, Anda mungkin memiliki data bersarang di kolom file Parket atau dokumen JSON.

Gunakan operator **terstruktur Flatten** untuk memisahkan kunci tingkat pertama menjadi kolom terpisah. Kunci tingkat pertama adalah kunci yang tidak bersarang dalam nilai.

Misalnya, Anda mungkin memiliki kumpulan data yang memiliki kolom *orang* dengan informasi demografis pada setiap orang yang disimpan sebagai string JSON. String JSON mungkin terlihat seperti berikut ini.

```
 "{"seq": 1,"name": {"first": "Nathaniel","last": "Ferguson"},"age": 59,"city": "Posbotno","state": "WV"}"
```

Operator **terstruktur Flatten** mengonversi kunci tingkat pertama berikut menjadi kolom tambahan dalam kumpulan data Anda:
+ seq
+ name
+ usia
+ kota
+ status

Data Wrangler menempatkan nilai-nilai kunci sebagai nilai di bawah kolom. Berikut ini menunjukkan nama kolom dan nilai-nilai JSON.

```
seq, name,                                    age, city, state
1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV
```

Untuk setiap nilai dalam kumpulan data Anda yang berisi JSON, operator **terstruktur Flatten** membuat kolom untuk kunci tingkat pertama. Untuk membuat kolom untuk kunci bersarang, panggil operator lagi. Untuk contoh sebelumnya, memanggil operator membuat kolom:
+ name\$1first
+ name\$1last

Contoh berikut menunjukkan kumpulan data yang dihasilkan dari pemanggilan operasi lagi.

```
seq, name,                                    age, city, state, name_first, name_last
1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV, Nathaniel, Ferguson
```

Pilih **Kunci untuk diratakan** untuk menentukan kunci tingkat pertama yang ingin diekstrak sebagai kolom terpisah. Jika Anda tidak menentukan kunci apa pun, Data Wrangler mengekstrak semua kunci secara default.

## Meledak Array
<a name="data-wrangler-transform-explode-array"></a>

Gunakan **Explode array** untuk memperluas nilai array menjadi baris output terpisah. Misalnya, operasi dapat mengambil setiap nilai dalam array, [[1, 2, 3,], [4, 5, 6], [7, 8, 9]] dan membuat kolom baru dengan baris berikut:

```
                [1, 2, 3]
                [4, 5, 6]
                [7, 8, 9]
```

Data Wrangler menamai kolom baru, input\$1column\$1name\$1flatten.

Anda dapat memanggil operasi **array Explode** beberapa kali untuk mendapatkan nilai bersarang dari array ke dalam kolom output terpisah. Contoh berikut menunjukkan hasil pemanggilan operasi beberapa kali pada dataset dengan array bersarang.

Menempatkan nilai-nilai array bersarang ke dalam kolom terpisah


| id | array | id | array\$1item | id | array\$1items\$1items | 
| --- | --- | --- | --- | --- | --- | 
| 1 | [[kucing, anjingnya], [kelelawar, katak]] | 1 | [kucing, anjingnya] | 1 | kucing | 
| 2 |  [[mawar, petunia], [lily, daisy]]  | 1 | [kelelawar, katak] | 1 | anjingnya | 
|  |  | 2 | [mawar, petunia] | 1 | kelelawar | 
|  |  | 2 | [bunga bakung, daisy] | 1 | katak | 
|  |  |  | 2 | 2 | mawar | 
|  |  |  | 2 | 2 | petunia | 
|  |  |  | 2 | 2 | bunga bakung | 
|  |  |  | 2 | 2 | daisy | 

## Mengubah Data Gambar
<a name="data-wrangler-transform-image"></a>

Gunakan Data Wrangler untuk mengimpor dan mengubah gambar yang Anda gunakan untuk pipeline machine learning (ML) Anda. Setelah menyiapkan data gambar, Anda dapat mengekspornya dari aliran Data Wrangler ke pipeline MLmu.

Anda dapat menggunakan informasi yang disediakan di sini untuk membiasakan diri dengan mengimpor dan mengubah data gambar di Data Wrangler. Data Wrangler menggunakan OpenCV untuk mengimpor gambar. Untuk informasi selengkapnya tentang format gambar yang didukung, lihat [Membaca dan menulis file gambar](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Setelah Anda membiasakan diri dengan konsep mengubah data gambar Anda, ikuti tutorial berikut, [Siapkan data gambar dengan Amazon SageMaker Data](https://aws.amazon.com/blogs/machine-learning/prepare-image-data-with-amazon-sagemaker-data-wrangler/) Wrangler.

Industri dan kasus penggunaan berikut adalah contoh di mana menerapkan pembelajaran mesin ke data gambar yang diubah dapat berguna:
+ Manufaktur - Mengidentifikasi cacat pada item dari jalur perakitan
+ Makanan — Mengidentifikasi makanan busuk atau busuk
+ Kedokteran — Mengidentifikasi lesi pada jaringan

Saat Anda bekerja dengan data gambar di Data Wrangler, Anda melalui proses berikut:

1. Impor - Pilih gambar dengan memilih direktori yang berisi mereka di bucket Amazon S3 Anda.

1. Transform - Gunakan transformasi bawaan untuk menyiapkan gambar untuk pipeline pembelajaran mesin Anda.

1. Ekspor - Ekspor gambar yang telah Anda ubah ke lokasi yang dapat diakses dari pipeline.

Gunakan prosedur berikut untuk mengimpor data gambar Anda.

**Untuk mengimpor data gambar Anda**

1. Arahkan ke halaman **Buat koneksi**.

1. Pilih **Amazon S3**.

1. Tentukan jalur file Amazon S3 yang berisi data gambar.

1. Untuk **jenis File**, pilih **Gambar**.

1. (Opsional) Pilih **Impor direktori bersarang** untuk mengimpor gambar dari beberapa jalur Amazon S3.

1. Pilih **Impor**.

Data Wrangler menggunakan pustaka [imgaug](https://imgaug.readthedocs.io/en/latest/) sumber terbuka untuk transformasi gambar bawaannya. Anda dapat menggunakan transformasi bawaan berikut:
+ **ResizeImage**
+ **EnhanceImage**
+ **CorruptImage**
+ **SplitImage**
+ **DropCorruptedImages**
+ **DropImageDuplicates**
+ **Kecerahan**
+ **ColorChannels**
+ **Skala Abu-abu**
+ **Putar**

Gunakan prosedur berikut untuk mengubah gambar Anda tanpa menulis kode.

**Untuk mengubah data gambar tanpa menulis kode**

1. Dari alur Data Wrangler Anda, pilih **\$1** di sebelah node yang mewakili gambar yang telah Anda impor.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih transformasi dan konfigurasikan.

1. Pilih **Pratinjau**.

1. Pilih **Tambahkan**.

Selain menggunakan transformasi yang disediakan Data Wrangler, Anda juga dapat menggunakan cuplikan kode kustom Anda sendiri. Untuk informasi selengkapnya tentang menggunakan cuplikan kode kustom, lihat. [Transformasi Kustom](#data-wrangler-transform-custom) Anda dapat mengimpor pustaka OpenCV dan imgaug dalam cuplikan kode Anda dan menggunakan transformasi yang terkait dengannya. Berikut ini adalah contoh cuplikan kode yang mendeteksi tepi dalam gambar.

```
# A table with your image data is stored in the `df` variable
import cv2
import numpy as np
from pyspark.sql.functions import column

from sagemaker_dataprep.compute.operators.transforms.image.constants import DEFAULT_IMAGE_COLUMN, IMAGE_COLUMN_TYPE
from sagemaker_dataprep.compute.operators.transforms.image.decorators import BasicImageOperationDecorator, PandasUDFOperationDecorator


@BasicImageOperationDecorator
def my_transform(image: np.ndarray) -> np.ndarray:
  # To use the code snippet on your image data, modify the following lines within the function
    HYST_THRLD_1, HYST_THRLD_2 = 100, 200
    edges = cv2.Canny(image,HYST_THRLD_1,HYST_THRLD_2)
    return edges
    

@PandasUDFOperationDecorator(IMAGE_COLUMN_TYPE)
def custom_image_udf(image_row):
    return my_transform(image_row)
    

df = df.withColumn(DEFAULT_IMAGE_COLUMN, custom_image_udf(column(DEFAULT_IMAGE_COLUMN)))
```

Saat menerapkan transformasi dalam alur Data Wrangler Anda, Data Wrangler hanya menerapkannya pada sampel gambar dalam kumpulan data Anda. Untuk mengoptimalkan pengalaman Anda dengan aplikasi, Data Wrangler tidak menerapkan transformasi ke semua gambar Anda.

Untuk menerapkan transformasi ke semua gambar Anda, ekspor alur Data Wrangler Anda ke lokasi Amazon S3. Anda dapat menggunakan gambar yang telah Anda ekspor dalam jalur pelatihan atau inferensi Anda. Gunakan node tujuan atau Notebook Jupyter untuk mengekspor data Anda. Anda dapat mengakses salah satu metode untuk mengekspor data Anda dari aliran Data Wrangler. Untuk informasi tentang menggunakan metode ini, lihat[Ekspor ke Amazon S3](data-wrangler-data-export.md#data-wrangler-data-export-s3).

## Filter data
<a name="data-wrangler-transform-filter-data"></a>

Gunakan Data Wrangler untuk memfilter data di kolom Anda. Saat Anda memfilter data dalam kolom, Anda menentukan bidang berikut:
+ **Nama kolom** — Nama kolom yang Anda gunakan untuk memfilter data.
+ **Kondisi** - Jenis filter yang Anda terapkan pada nilai di kolom.
+ **Nilai** - Nilai atau kategori di kolom tempat Anda menerapkan filter.

Anda dapat memfilter pada kondisi berikut:
+ **=** — Mengembalikan nilai yang cocok dengan nilai atau kategori yang Anda tentukan.
+ **\$1 **= — Mengembalikan nilai yang tidak cocok dengan nilai atau kategori yang Anda tentukan.
+ **>=** — Untuk data **Long** atau **Float**, filter untuk nilai yang lebih besar dari atau sama dengan nilai yang Anda tentukan.
+ **<=** — Untuk data **Long** atau **Float**, filter untuk nilai yang kurang dari atau sama dengan nilai yang Anda tentukan.
+ **>** — Untuk data **Long** atau **Float**, filter untuk nilai yang lebih besar dari nilai yang Anda tentukan.
+ **<** — Untuk data **Long** atau **Float**, filter untuk nilai yang kurang dari nilai yang Anda tentukan.

Untuk kolom yang memiliki kategori, `male` dan`female`, Anda dapat memfilter semua `male` nilai. Anda juga dapat memfilter untuk semua `female` nilai. Karena hanya ada `male` dan `female` nilai di kolom, filter mengembalikan kolom yang hanya memiliki `female` nilai.

Anda juga dapat menambahkan beberapa filter. Filter dapat diterapkan di beberapa kolom atau kolom yang sama. Misalnya, jika Anda membuat kolom yang hanya memiliki nilai dalam rentang tertentu, Anda menambahkan dua filter berbeda. Satu filter menentukan bahwa kolom harus memiliki nilai yang lebih besar dari nilai yang Anda berikan. Filter lain menentukan bahwa kolom harus memiliki nilai kurang dari nilai yang Anda berikan.

Gunakan prosedur berikut untuk menambahkan transformasi filter ke data Anda.

**Untuk memfilter data Anda**

1. Dari alur Data Wrangler Anda, pilih **\$1** di sebelah node dengan data yang Anda filter.

1. Pilih **Tambahkan transformasi**.

1. Pilih **Tambahkan langkah**.

1. Pilih **Filter data**.

1. Tentukan bidang berikut:
   + **Nama kolom** - Kolom yang Anda filter.
   + **Kondisi** — Kondisi filter.
   + **Nilai** - Nilai atau kategori di kolom tempat Anda menerapkan filter.

1. (Opsional) Pilih **\$1** mengikuti filter yang telah Anda buat.

1. Konfigurasikan filter.

1. Pilih **Pratinjau**.

1. Pilih **Tambahkan**.

## Kolom Peta untuk Amazon Personalisasi
<a name="data-wrangler-transform-personalize"></a>

Data Wrangler terintegrasi dengan Amazon Personalize, layanan pembelajaran mesin terkelola penuh yang menghasilkan rekomendasi item dan segmen pengguna. Anda dapat menggunakan **kolom Peta untuk transformasi Amazon Personalize** untuk memasukkan data Anda ke dalam format yang dapat ditafsirkan oleh Amazon Personalize. Untuk informasi selengkapnya tentang transformasi khusus untuk Amazon Personalize, [lihat Mengimpor data menggunakan Amazon SageMaker Data](https://docs.aws.amazon.com/personalize/latest/dg/preparing-importing-with-data-wrangler.html#dw-transform-data) Wrangler. Untuk informasi selengkapnya tentang Amazon Personalize, lihat [Apa itu Amazon Personalize?](https://docs.aws.amazon.com/personalize/latest/dg/what-is-personalize.html)

# Analisis dan Visualisasikan
<a name="data-wrangler-analyses"></a>

Amazon SageMaker Data Wrangler menyertakan analisis bawaan yang membantu Anda menghasilkan visualisasi dan analisis data dalam beberapa klik. Anda juga dapat membuat analisis kustom menggunakan kode Anda sendiri. 

**Anda menambahkan analisis ke kerangka data dengan memilih langkah dalam aliran data Anda, lalu memilih Tambahkan analisis.** Untuk mengakses analisis yang telah Anda buat, pilih langkah yang berisi analisis, dan pilih analisisnya. 

Semua analisis dihasilkan menggunakan 100.000 baris dataset Anda. 

Anda dapat menambahkan analisis berikut ke kerangka data:
+ Visualisasi data, termasuk histogram dan plot pencar. 
+ Ringkasan singkat kumpulan data Anda, termasuk jumlah entri, nilai minimum dan maksimum (untuk data numerik), dan kategori yang paling sering dan paling jarang (untuk data kategoris).
+ Model cepat kumpulan data, yang dapat digunakan untuk menghasilkan skor penting untuk setiap fitur. 
+ Laporan kebocoran target, yang dapat Anda gunakan untuk menentukan apakah satu atau lebih fitur berkorelasi kuat dengan fitur target Anda.
+ Visualisasi khusus menggunakan kode Anda sendiri. 

Gunakan bagian berikut untuk mempelajari lebih lanjut tentang opsi ini. 

## Histogram
<a name="data-wrangler-visualize-histogram"></a>

Gunakan histogram untuk melihat jumlah nilai fitur untuk fitur tertentu. Anda dapat memeriksa hubungan antar fitur menggunakan opsi **Color by**. Misalnya, histogram berikut memetakan distribusi peringkat pengguna buku terlaris di Amazon dari 2009-2019, diwarnai berdasarkan genre. 

![\[Contoh bagan histogram di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/histogram.png)


Anda dapat menggunakan fitur **Facet by** untuk membuat histogram dari satu kolom, untuk setiap nilai di kolom lain. Misalnya, diagram berikut menunjukkan histogram ulasan pengguna buku terlaris di Amazon jika dilihat berdasarkan tahun. 

![\[Contoh histogram di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/review_by_year.png)


## Plot Pencar
<a name="data-wrangler-visualize-scatter-plot"></a>

Gunakan fitur **Scatter Plot** untuk memeriksa hubungan antar fitur. Untuk membuat plot pencar, pilih fitur untuk diplot pada **sumbu X dan sumbu** **Y**. Kedua kolom ini harus berupa kolom yang diketik numerik. 

Anda dapat mewarnai plot pencar dengan kolom tambahan. Misalnya, contoh berikut menunjukkan plot pencar yang membandingkan jumlah ulasan terhadap peringkat pengguna buku terlaris di Amazon antara 2009 dan 2019. Plot pencar diwarnai oleh genre buku. 

![\[Contoh plot pencar di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/scatter-plot.png)


Selain itu, Anda dapat membagi plot pencar berdasarkan fitur. Misalnya, gambar berikut menunjukkan contoh plot pencar ulasan yang sama versus peringkat pengguna, berdasarkan tahun. 

![\[Contoh plot sebar segi di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/scatter-plot-facet.png)


## Ringkasan Tabel
<a name="data-wrangler-table-summary"></a>

Gunakan analisis **Ringkasan Tabel** untuk meringkas data Anda dengan cepat.

Untuk kolom dengan data numerik, termasuk data log dan float, ringkasan tabel melaporkan jumlah entri (hitungan), minimum (min), maksimum (maks), rata-rata, dan standar deviasi (stddev) untuk setiap kolom.

Untuk kolom dengan data non-numerik, termasuk kolom dengan string, Boolean, atau date/time data, ringkasan tabel melaporkan jumlah entri (hitungan), nilai paling sering (min), dan nilai paling sering (maks). 

## Model Cepat
<a name="data-wrangler-quick-model"></a>

Gunakan visualisasi **Model Cepat** untuk mengevaluasi data Anda dengan cepat dan menghasilkan skor penting untuk setiap fitur. [Skor nilai kepentingan fitur](http://spark.apache.org/docs/2.1.0/api/python/pyspark.ml.html#pyspark.ml.classification.DecisionTreeClassificationModel.featureImportances) menunjukkan seberapa berguna fitur dalam memprediksi label target. Skor kepentingan fitur adalah antara [0, 1] dan angka yang lebih tinggi menunjukkan bahwa fitur tersebut lebih penting untuk seluruh kumpulan data. Di bagian atas bagan model cepat, ada skor model. Masalah klasifikasi menunjukkan skor F1. Masalah regresi memiliki skor mean squared error (MSE).

Saat Anda membuat bagan model cepat, Anda memilih kumpulan data yang ingin dievaluasi, dan label target yang ingin Anda bandingkan dengan kepentingan fitur. Data Wrangler melakukan hal berikut:
+ Menyimpulkan tipe data untuk label target dan setiap fitur dalam kumpulan data yang dipilih. 
+ Menentukan jenis masalah. Berdasarkan jumlah nilai yang berbeda di kolom label, Data Wrangler menentukan apakah ini adalah jenis masalah regresi atau klasifikasi. Data Wrangler menetapkan ambang kategoris ke 100. Jika ada lebih dari 100 nilai yang berbeda di kolom label, Data Wrangler mengklasifikasikannya sebagai masalah regresi; jika tidak, itu diklasifikasikan sebagai masalah klasifikasi. 
+ Fitur pra-proses dan data label untuk pelatihan. Algoritma yang digunakan membutuhkan fitur pengkodean untuk jenis vektor dan label pengkodean untuk tipe ganda. 
+ Melatih algoritma hutan acak dengan 70% data. Spark [RandomForestRegressor](https://spark.apache.org/docs/latest/ml-classification-regression.html#random-forest-regression)digunakan untuk melatih model untuk masalah regresi. [RandomForestClassifier](https://spark.apache.org/docs/latest/ml-classification-regression.html#random-forest-classifier)Ini digunakan untuk melatih model untuk masalah klasifikasi.
+ Mengevaluasi model hutan acak dengan sisa 30% data. Data Wrangler mengevaluasi model klasifikasi menggunakan skor F1 dan mengevaluasi model regresi menggunakan skor MSE.
+ Menghitung pentingnya fitur untuk setiap fitur menggunakan metode kepentingan Gini. 

Gambar berikut menunjukkan antarmuka pengguna untuk fitur model cepat. 

![\[Contoh UI fitur model cepat di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/quick-model.png)


## Kebocoran Target
<a name="data-wrangler-analysis-target-leakage"></a>

Kebocoran target terjadi ketika ada data dalam kumpulan data pelatihan pembelajaran mesin yang sangat berkorelasi dengan label target, tetapi tidak tersedia dalam data dunia nyata. Misalnya, Anda mungkin memiliki kolom dalam kumpulan data yang berfungsi sebagai proxy untuk kolom yang ingin Anda prediksi dengan model Anda. 

Saat Anda menggunakan analisis **Kebocoran Target**, Anda menentukan yang berikut ini:
+ **Target**: Ini adalah fitur yang Anda inginkan agar model ML Anda dapat membuat prediksi.
+ **Jenis masalah**: Ini adalah jenis masalah ML tempat Anda bekerja. Jenis masalah dapat berupa **klasifikasi** atau **regresi**. 
+  (Opsional) **Fitur maks**: Ini adalah jumlah maksimum fitur untuk hadir dalam visualisasi, yang menunjukkan fitur yang diberi peringkat berdasarkan risiko kebocoran target.

**Untuk klasifikasi, analisis kebocoran target menggunakan area di bawah karakteristik operasi penerima, atau kurva AUC - ROC untuk setiap kolom, hingga fitur Max.** Untuk regresi, ia menggunakan koefisien determinasi, atau metrik R2.

Kurva AUC - ROC menyediakan metrik prediktif, dihitung secara individual untuk setiap kolom menggunakan validasi silang, pada sampel hingga sekitar 1000 baris. Skor 1 menunjukkan kemampuan prediksi sempurna, yang sering menunjukkan kebocoran target. Skor 0,5 atau lebih rendah menunjukkan bahwa informasi pada kolom tidak dapat memberikan, dengan sendirinya, informasi yang berguna untuk memprediksi target. Meskipun dapat terjadi bahwa kolom tidak informatif dengan sendirinya tetapi berguna dalam memprediksi target ketika digunakan bersama-sama dengan fitur lain, skor rendah dapat menunjukkan fitur tersebut berlebihan.

Misalnya, gambar berikut menunjukkan laporan kebocoran target untuk masalah klasifikasi diabetes, yaitu memprediksi apakah seseorang menderita diabetes atau tidak. Kurva AUC - ROC digunakan untuk menghitung kemampuan prediksi dari lima fitur, dan semuanya ditentukan untuk aman dari kebocoran target.

![\[Contoh laporan kebocoran target di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/target-leakage.png)


## Multikolinieritas
<a name="data-wrangler-multicollinearity"></a>

Multikolinearitas adalah keadaan di mana dua atau lebih variabel prediktor terkait satu sama lain. Variabel prediktor adalah fitur dalam kumpulan data Anda yang Anda gunakan untuk memprediksi variabel target. Ketika Anda memiliki multikolinieritas, variabel prediktor tidak hanya memprediksi variabel target, tetapi juga prediktif satu sama lain.

Anda dapat menggunakan **Variance Inflation Factor (VIF)**, **Principal Component Analysis (PCA)**, atau **pemilihan fitur Lasso** sebagai ukuran multikolinearitas dalam data Anda. Untuk informasi selengkapnya, lihat hal berikut.

------
#### [ Variance Inflation Factor (VIF) ]

Faktor Inflasi Varians (VIF) adalah ukuran kolinearitas di antara pasangan variabel. Data Wrangler mengembalikan skor VIF sebagai ukuran seberapa dekat variabel terkait satu sama lain. Skor VIF adalah angka positif yang lebih besar dari atau sama dengan 1.

Skor 1 berarti bahwa variabel tidak berkorelasi dengan variabel lainnya. Skor lebih besar dari 1 menunjukkan korelasi yang lebih tinggi.

Secara teoritis, Anda dapat memiliki skor VIF dengan nilai tak terhingga. Data Wrangler klip skor tinggi menjadi 50. Jika Anda memiliki skor VIF lebih besar dari 50, Data Wrangler menetapkan skor menjadi 50.

Anda dapat menggunakan panduan berikut untuk menafsirkan skor VIF Anda:
+ Skor VIF kurang dari atau sama dengan 5 menunjukkan bahwa variabel cukup berkorelasi dengan variabel lainnya.
+ Skor VIF lebih besar dari atau sama dengan 5 menunjukkan bahwa variabel sangat berkorelasi dengan variabel lainnya.

------
#### [ Principle Component Analysis (PCA) ]

Principal Component Analysis (PCA) mengukur varians data di sepanjang arah yang berbeda di ruang fitur. Ruang fitur terdiri dari semua variabel prediktor yang Anda gunakan untuk memprediksi variabel target dalam kumpulan data Anda.

Misalnya, jika Anda mencoba memprediksi siapa yang selamat di *RMS Titanic* setelah menabrak gunung es, ruang fitur Anda dapat mencakup usia penumpang, jenis kelamin, dan tarif yang mereka bayar.

Dari ruang fitur, PCA menghasilkan daftar varians yang diurutkan. Varians ini juga dikenal sebagai nilai tunggal. Nilai dalam daftar varians lebih besar dari atau sama dengan 0. Kita dapat menggunakannya untuk menentukan berapa banyak multikolinearitas yang ada dalam data kita.

Ketika angka-angkanya kira-kira seragam, data memiliki sangat sedikit contoh multikolinieritas. Ketika ada banyak variabilitas di antara nilai-nilai, kami memiliki banyak contoh multikolinieritas. Sebelum melakukan PCA, Data Wrangler menormalkan setiap fitur untuk memiliki rata-rata 0 dan standar deviasi 1.

**catatan**  
PCA dalam keadaan ini juga dapat disebut sebagai Singular Value Decomposition (SVD).

------
#### [ Lasso feature selection ]

Pemilihan fitur laso menggunakan teknik regularisasi L1 untuk hanya menyertakan fitur paling prediktif dalam kumpulan data Anda.

Untuk klasifikasi dan regresi, teknik regularisasi menghasilkan koefisien untuk setiap fitur. Nilai absolut koefisien memberikan skor penting untuk fitur tersebut. Skor kepentingan yang lebih tinggi menunjukkan bahwa itu lebih memprediksi variabel target. Metode pemilihan fitur yang umum adalah dengan menggunakan semua fitur yang memiliki koefisien laso bukan nol.

------

## Mendeteksi Anomali Dalam Data Deret Waktu
<a name="data-wrangler-time-series-anomaly-detection"></a>

Anda dapat menggunakan visualisasi deteksi anomali untuk melihat outlier dalam data deret waktu Anda. Untuk memahami apa yang menentukan anomali, Anda perlu memahami bahwa kami menguraikan deret waktu menjadi istilah yang diprediksi dan istilah kesalahan. Kami memperlakukan musiman dan tren deret waktu sebagai istilah yang diprediksi. Kami memperlakukan residu sebagai istilah kesalahan.

Untuk istilah kesalahan, Anda menentukan ambang batas sebagai jumlah standar deviasi, residu dapat jauh dari rata-rata agar dianggap sebagai anomali. Misalnya, Anda dapat menentukan ambang batas sebagai 3 standar deviasi. Setiap residu yang lebih besar dari 3 standar deviasi dari mean adalah anomali.

Anda dapat menggunakan prosedur berikut untuk melakukan analisis **deteksi anomali**.

1. Buka aliran data Wrangler Data Anda.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan analisis**.

1. Untuk **jenis Analisis**, pilih **Time Series**.

1. Untuk **Visualisasi**, pilih Deteksi **anomali**.

1. Untuk **ambang anomali**, pilih ambang batas bahwa nilai dianggap anomali.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau analisis.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

## Dekomposisi Tren Musiman Dalam Data Deret Waktu
<a name="data-wrangler-seasonal-trend-decomposition"></a>

Anda dapat menentukan apakah ada musim dalam data deret waktu Anda dengan menggunakan visualisasi Seasonal Trend Decomposition. Kami menggunakan metode STL (Seasonal Trend decomposition using LOESS) untuk melakukan dekomposisi. Kami menguraikan deret waktu menjadi komponen musiman, tren, dan sisa. Tren ini mencerminkan perkembangan jangka panjang dari seri ini. Komponen musiman adalah sinyal yang berulang dalam periode waktu tertentu. Setelah menghapus tren dan komponen musiman dari deret waktu, Anda memiliki sisa.

Anda dapat menggunakan prosedur berikut untuk melakukan analisis dekomposisi **Seasonal-Trend**.

1. Buka aliran data Wrangler Data Anda.

1. Dalam aliran data Anda, di bawah **Tipe data**, pilih **\$1**, dan pilih **Tambahkan analisis**.

1. Untuk **jenis Analisis**, pilih **Time Series**.

1. Untuk **Visualisasi**, pilih dekomposisi **Seasonal-Trend**.

1. Untuk **ambang anomali**, pilih ambang batas bahwa nilai dianggap anomali.

1. Pilih **Pratinjau** untuk menghasilkan pratinjau analisis.

1. Pilih **Tambah** untuk menambahkan transformasi ke aliran data Data Wrangler.

## Laporan Bias
<a name="data-wrangler-bias-report"></a>

Anda dapat menggunakan laporan bias di Data Wrangler untuk mengungkap potensi bias dalam data Anda. Untuk menghasilkan laporan bias, Anda harus menentukan kolom target, atau **Label**, yang ingin Anda prediksi dan **Facet**, atau kolom yang ingin Anda periksa untuk bias.

**Label**: Fitur yang Anda inginkan model untuk membuat prediksi. Misalnya, jika Anda memprediksi konversi pelanggan, Anda dapat memilih kolom yang berisi data tentang apakah pelanggan telah melakukan pemesanan atau tidak. Anda juga harus menentukan apakah fitur ini adalah label atau ambang batas. Jika Anda menentukan label, Anda harus menentukan seperti apa *hasil positif* dalam data Anda. Dalam contoh konversi pelanggan, hasil positif mungkin 1 di kolom pesanan, mewakili hasil positif dari pelanggan yang melakukan pemesanan dalam tiga bulan terakhir. Jika Anda menentukan ambang batas, Anda harus menentukan batas bawah yang menentukan hasil positif. Misalnya, jika kolom pesanan pelanggan Anda berisi jumlah pesanan yang ditempatkan pada tahun lalu, Anda mungkin ingin menentukan 1.

**Facet**: Kolom yang ingin Anda periksa untuk bias. Misalnya, jika Anda mencoba memprediksi konversi pelanggan, aspek Anda mungkin adalah usia pelanggan. Anda dapat memilih aspek ini karena Anda percaya bahwa data Anda bias terhadap kelompok usia tertentu. Anda harus mengidentifikasi apakah faset diukur sebagai nilai atau ambang batas. Misalnya, jika Anda ingin memeriksa satu atau lebih usia tertentu, Anda memilih **Nilai** dan menentukan usia tersebut. Jika Anda ingin melihat kelompok usia, pilih **Ambang batas** dan tentukan ambang usia yang ingin Anda periksa.

Setelah Anda memilih fitur dan label, Anda memilih jenis metrik bias yang ingin Anda hitung.

Untuk mempelajari lebih lanjut, lihat [Menghasilkan laporan untuk bias dalam data pra-pelatihan](https://docs.aws.amazon.com/sagemaker/latest/dg/data-bias-reports.html). 

## Buat Visualisasi Kustom
<a name="data-wrangler-visualize-custom"></a>

Anda dapat menambahkan analisis ke alur Data Wrangler Anda untuk membuat visualisasi kustom. [Dataset Anda, dengan semua transformasi yang Anda terapkan, tersedia sebagai Panda. DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) Data Wrangler menggunakan `df` variabel untuk menyimpan kerangka data. Anda mengakses kerangka data dengan memanggil variabel.

Anda harus memberikan variabel output,`chart`, untuk menyimpan bagan output [Altair](https://altair-viz.github.io/). Misalnya, Anda dapat menggunakan blok kode berikut untuk membuat histogram khusus menggunakan dataset Titanic.

```
import altair as alt
df = df.iloc[:30]
df = df.rename(columns={"Age": "value"})
df = df.assign(count=df.groupby('value').value.transform('count'))
df = df[["value", "count"]]
base = alt.Chart(df)
bar = base.mark_bar().encode(x=alt.X('value', bin=True, axis=None), y=alt.Y('count'))
rule = base.mark_rule(color='red').encode(
    x='mean(value):Q',
    size=alt.value(5))
chart = bar + rule
```

**Untuk membuat visualisasi kustom:**

1. Di samping node yang berisi transformasi yang ingin Anda visualisasikan, pilih **\$1**.

1. Pilih **Tambahkan analisis**.

1. Untuk **jenis Analisis**, pilih **Visualisasi Kustom**.

1. Untuk **nama Analisis**, tentukan nama.

1. Masukkan kode Anda di kotak kode. 

1. Pilih **Pratinjau** untuk melihat visualisasi Anda.

1. Pilih **Simpan** untuk menambahkan visualisasi Anda.

![\[Contoh tentang cara menambahkan visualisasi Anda di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/custom-visualization.png)


Jika Anda tidak tahu cara menggunakan paket visualisasi Altair dengan Python, Anda dapat menggunakan cuplikan kode khusus untuk membantu Anda memulai.

Data Wrangler memiliki koleksi cuplikan visualisasi yang dapat dicari. Untuk menggunakan cuplikan visualisasi, pilih **Cari contoh cuplikan** dan tentukan kueri di bilah pencarian.

Contoh berikut menggunakan cuplikan kode **scatterplot Binned**. Ini memplot histogram untuk 2 dimensi.

Cuplikan memiliki komentar untuk membantu Anda memahami perubahan yang perlu Anda buat pada kode. Anda biasanya perlu menentukan nama kolom dataset Anda dalam kode.

```
import altair as alt

# Specify the number of top rows for plotting
rows_number = 1000
df = df.head(rows_number)  
# You can also choose bottom rows or randomly sampled rows
# df = df.tail(rows_number)
# df = df.sample(rows_number)


chart = (
    alt.Chart(df)
    .mark_circle()
    .encode(
        # Specify the column names for binning and number of bins for X and Y axis
        x=alt.X("col1:Q", bin=alt.Bin(maxbins=20)),
        y=alt.Y("col2:Q", bin=alt.Bin(maxbins=20)),
        size="count()",
    )
)

# :Q specifies that label column has quantitative type.
# For more details on Altair typing refer to
# https://altair-viz.github.io/user_guide/encoding.html#encoding-data-types
```

# Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda
<a name="data-wrangler-parameterize"></a>

Untuk sumber data Amazon Simple Storage Service (Amazon S3), Anda dapat membuat dan menggunakan parameter. Parameter adalah variabel yang telah Anda simpan dalam aliran Data Wrangler Anda. Nilainya dapat berupa bagian mana pun dari jalur Amazon S3 sumber data. Gunakan parameter untuk dengan cepat mengubah data yang Anda impor ke dalam aliran Data Wrangler atau mengekspor ke pekerjaan pemrosesan. Anda juga dapat menggunakan parameter untuk memilih dan mengimpor subset tertentu dari data Anda.

Setelah Anda membuat alur Data Wrangler, Anda mungkin telah melatih model pada data yang telah Anda ubah. Untuk kumpulan data yang memiliki skema yang sama, Anda dapat menggunakan parameter untuk menerapkan transformasi yang sama pada kumpulan data yang berbeda dan melatih model yang berbeda. Anda dapat menggunakan kumpulan data baru untuk melakukan inferensi dengan model Anda atau Anda dapat menggunakannya untuk melatih kembali model Anda.

Secara umum, parameter memiliki atribut berikut:
+ Nama — Nama yang Anda tentukan untuk parameter
+ Jenis - Jenis nilai yang diwakili oleh parameter
+ Nilai default - Nilai parameter saat Anda tidak menentukan nilai baru

**catatan**  
Parameter Datetime memiliki atribut rentang waktu yang mereka gunakan sebagai nilai default.

Data Wrangler menggunakan kurawal kurawal`{{}}`, untuk menunjukkan bahwa parameter sedang digunakan di jalur Amazon S3. Misalnya, Anda dapat memiliki URL seperti`s3://amzn-s3-demo-bucket1/{{example_parameter_name}}/example-dataset.csv`.

Anda membuat parameter saat mengedit sumber data Amazon S3 yang telah Anda impor. Anda dapat mengatur setiap bagian dari path file ke nilai parameter. Anda dapat mengatur nilai parameter ke nilai atau pola. Berikut ini adalah tipe nilai parameter yang tersedia dalam aliran Data Wrangler:
+ Bilangan
+ String
+ Pola
+ Datetime

**catatan**  
Anda tidak dapat membuat parameter pola atau parameter datetime untuk nama bucket di jalur Amazon S3.

Anda harus menetapkan angka sebagai nilai default dari parameter angka. Anda dapat mengubah nilai parameter ke nomor yang berbeda saat mengedit parameter atau saat meluncurkan pekerjaan pemrosesan. Misalnya, di jalur S3`s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv`, Anda dapat membuat parameter angka bernama `number_parameter` di tempat. `1` Jalur S3 Anda sekarang muncul sebagai`s3://amzn-s3-demo-bucket/example-prefix/example-file-{{number_parameter}}.csv`. Jalur terus menunjuk ke `example-file-1.csv` kumpulan data hingga Anda mengubah nilai parameter. Jika Anda mengubah nilai `number_parameter` `2` ke jalur sekarang`s3://amzn-s3-demo-bucket/example-prefix/example-file-2.csv`. Anda dapat mengimpor `example-file-2.csv` ke Data Wrangler jika Anda telah mengunggah file ke lokasi Amazon S3 tersebut.

Parameter string menyimpan string sebagai nilai defaultnya. Misalnya, di jalur S3`s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv`, Anda dapat membuat parameter string bernama `string_parameter` di tempat nama file,. `example-file-1.csv` Jalan sekarang muncul sebagai`s3://amzn-s3-demo-bucket/example-prefix/{{string_parameter}}`. Itu terus cocok`s3://amzn-s3-demo-bucket/example-prefix/example-file-1.csv`, sampai Anda mengubah nilai parameter.

Alih-alih menentukan nama file sebagai parameter string, Anda dapat membuat parameter string menggunakan seluruh jalur Amazon S3. Anda dapat menentukan kumpulan data dari lokasi Amazon S3 mana pun di parameter string.

Parameter pola menyimpan string ekspresi reguler (Python REGEX) sebagai nilai defaultnya. Anda dapat menggunakan parameter pola untuk mengimpor beberapa file data secara bersamaan. Untuk mengimpor lebih dari satu objek sekaligus, tentukan nilai parameter yang cocok dengan objek Amazon S3 yang Anda impor.

Anda juga dapat membuat parameter pola untuk kumpulan data berikut:
+ s3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv
+ s3://amzn-s3-demo-bucket1/example-prefix/example-file-2.csv
+ s3://amzn-s3-demo-bucket1/example-prefix/example-file-10.csv
+ s3://amzn-s3-demo - bucket/example-prefix/example -file-0123.csv

Untuk`s3://amzn-s3-demo-bucket1/example-prefix/example-file-1.csv`, Anda dapat membuat parameter pola di tempat`1`, dan mengatur nilai default parameter ke`\d+`. String `\d+` REGEX cocok dengan satu atau lebih digit desimal. Jika Anda membuat parameter pola bernama`pattern_parameter`, jalur S3 Anda akan muncul sebagai`s3://amzn-s3-demo-bucket1/example-prefix/example-file-{{pattern_parameter}}.csv`.

Anda juga dapat menggunakan parameter pola untuk mencocokkan semua objek CSV dalam bucket Anda. Untuk mencocokkan semua objek dalam bucket, buat parameter pola dengan nilai default `.*` dan atur path ke`s3://amzn-s3-demo-bucket/{{pattern_parameter}}.csv`. `.*`Karakter cocok dengan karakter string apa pun di jalur. 

`s3://amzn-s3-demo-bucket/{{pattern_parameter}}.csv`Path dapat cocok dengan dataset berikut.
+ `example-file-1.csv`
+ `other-example-file.csv`
+ `example-file-a.csv`

Parameter datetime menyimpan format dengan informasi berikut:
+ Format untuk mengurai string di dalam jalur Amazon S3.
+ Rentang waktu relatif untuk membatasi nilai datetime yang cocok

Misalnya, di jalur file Amazon S3,`s3://amzn-s3-demo-bucket/2020/01/01/example-dataset.csv`, 2020/01/01 mewakili datetime dalam format file. `year/month/day` Anda dapat mengatur rentang waktu parameter ke interval seperti `1 years` atau`24 hours`. Interval `1 years` kecocokan semua jalur S3 dengan waktu tanggal yang berada di antara waktu saat ini dan waktu tepat setahun sebelum waktu saat ini. Waktu saat ini adalah waktu ketika Anda mulai mengekspor transformasi yang telah Anda buat ke data. Untuk informasi selengkapnya tentang mengekspor data, lihat[Ekspor](data-wrangler-data-export.md). Jika tanggal saat ini adalah 2022/01/01 dan rentang waktunya`1 years`, jalur S3 cocok dengan kumpulan data seperti berikut:
+ s3://amzn-s3-demo-bucket/2021/01/01/example-dataset.csv
+ s3://amzn-s3-demo-bucket/2021/06/30/example-dataset.csv
+ s3://amzn-s3-demo-bucket/2021/12/31/example-dataset.csv

Nilai datetime dalam rentang waktu relatif berubah seiring berjalannya waktu. Jalur S3 yang termasuk dalam rentang waktu relatif mungkin juga berbeda.

Untuk jalur file Amazon S3,`s3://amzn-s3-demo-bucket1/20200101/example-dataset.csv`, `20220101` adalah contoh jalur yang dapat menjadi parameter datetime.

Untuk melihat tabel semua parameter yang telah Anda buat di alur Data Wrangler, pilih `\$1\$1\$1\$1` di sebelah kanan kotak teks yang berisi jalur Amazon S3. Jika Anda tidak lagi memerlukan parameter yang telah Anda buat, Anda dapat mengedit atau menghapus. Untuk mengedit atau menghapus parameter, pilih ikon di sebelah kanan parameter.

**penting**  
Sebelum Anda menghapus parameter, pastikan Anda belum menggunakannya di mana pun dalam alur Data Wrangler Anda. Parameter yang dihapus yang masih dalam aliran menyebabkan kesalahan.

Anda dapat membuat parameter untuk setiap langkah aliran Data Wrangler Anda. Anda dapat mengedit atau menghapus parameter apa pun yang Anda buat. Jika Anda menerapkan transformasi ke data yang tidak lagi relevan dengan kasus penggunaan Anda, Anda dapat memodifikasi nilai parameter. Memodifikasi nilai parameter mengubah data yang Anda impor.

Bagian berikut memberikan contoh tambahan dan panduan umum tentang penggunaan parameter. Anda dapat menggunakan bagian untuk memahami parameter yang paling sesuai untuk Anda.

**catatan**  
Bagian berikut berisi prosedur yang menggunakan antarmuka Data Wrangler untuk mengganti parameter dan membuat pekerjaan pemrosesan.  
Anda juga dapat mengganti parameter dengan menggunakan prosedur berikut.  
Untuk mengekspor aliran Data Wrangler Anda dan mengganti nilai parameter, lakukan hal berikut.  
Pilih **\$1** di sebelah simpul yang ingin Anda ekspor.
Pilih **Ekspor ke**.
Pilih lokasi tempat Anda mengekspor data.
Di bawah`parameter_overrides`, tentukan nilai yang berbeda untuk parameter yang telah Anda buat.
Jalankan Notebook Jupyter.

## Menerapkan aliran Data Wrangler ke file menggunakan pola
<a name="data-wrangler-pattern-parameters"></a>

Anda dapat menggunakan parameter untuk menerapkan transformasi dalam alur Data Wrangler ke file berbeda yang cocok dengan pola di jalur URI Amazon S3. Ini membantu Anda menentukan file di bucket S3 yang ingin Anda ubah dengan spesifisitas tinggi. Misalnya, Anda mungkin memiliki kumpulan data dengan jalurnya`s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv`. Kumpulan data yang berbeda bernama `example-dataset.csv` disimpan di bawah banyak contoh awalan yang berbeda. Awalan mungkin juga diberi nomor secara berurutan. Anda dapat membuat pola untuk angka di Amazon S3 URI. Parameter pola menggunakan REGEX untuk memilih sejumlah file yang cocok dengan pola ekspresi. Berikut ini adalah pola REGEX yang mungkin berguna:
+ `.*`— Cocokkan nol atau lebih dari karakter apa pun, kecuali karakter baris baru
+ `.+`— Cocokkan satu atau lebih karakter apa pun, tidak termasuk karakter baris baru
+ `\d+`— Cocokkan satu atau lebih digit desimal
+ `\w+`— Cocokkan satu atau lebih karakter alfanumerik
+ `[abc-_]{2,4}`— Cocokkan string dua, tiga, atau empat karakter yang terdiri dari kumpulan karakter yang disediakan dalam satu set tanda kurung
+ `abc|def`— Cocokkan satu string atau lainnya. Misalnya, operasi cocok dengan salah satu `abc` atau `def`

Anda dapat mengganti setiap nomor di jalur berikut dengan satu parameter yang memiliki nilai`\d+`.
+ `s3://amzn-s3-demo-bucket1/example-prefix-3/example-prefix-4/example-prefix-5/example-dataset.csv`
+ `s3://amzn-s3-demo-bucket1/example-prefix-8/example-prefix-12/example-prefix-13/example-dataset.csv`
+ `s3://amzn-s3-demo-bucket1/example-prefix-4/example-prefix-9/example-prefix-137/example-dataset.csv`

Prosedur berikut membuat parameter pola untuk dataset dengan path`s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv`.

Untuk membuat parameter pola, lakukan hal berikut.

1. Di samping dataset yang telah Anda impor, pilih **Edit dataset**.

1. Sorot `0` masuk`example-prefix-0`.

1. Tentukan nilai untuk bidang berikut:
   + **Nama** — Nama untuk parameter
   + **Jenis** - **Pola**
   + **Nilai** —**\$1 d\$1ekspresi** reguler yang sesuai dengan satu atau lebih digit

1. Pilih **Buat**.

1. Ganti `1` dan `2` di jalur URI S3 dengan parameter. Jalur harus memiliki format berikut: `s3://amzn-s3-demo-bucket1/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-prefix-{{example_parameter_name}}/example-dataset.csv`

Berikut ini adalah prosedur umum untuk membuat parameter pola.

1. Arahkan ke alur Data Wrangler Anda.

1. Di samping dataset yang telah Anda impor, pilih **Edit dataset**.

1. Sorot bagian URI yang Anda gunakan sebagai nilai parameter pola.

1. Pilih **Buat parameter kustom**.

1. Tentukan nilai untuk bidang berikut:
   + **Nama** — Nama untuk parameter
   + **Jenis** - **Pola**
   + **Nilai** - Ekspresi reguler yang berisi pola yang ingin Anda simpan.

1. Pilih **Buat**.

## Menerapkan aliran Data Wrangler ke file menggunakan nilai numerik
<a name="data-wrangler-numeric-parameters"></a>

Anda dapat menggunakan parameter untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke file berbeda yang memiliki jalur serupa. Misalnya, Anda mungkin memiliki kumpulan data dengan jalurnya`s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv`.

Anda mungkin memiliki transformasi dari alur Data Wrangler yang telah Anda terapkan ke kumpulan data di bawahnya. `example-prefix-1` Anda mungkin ingin menerapkan transformasi yang sama dengan `example-dataset.csv` yang termasuk dalam `example-prefix-10` atau`example-prefix-20`.

Anda dapat membuat parameter yang menyimpan nilai`1`. Jika Anda ingin menerapkan transformasi ke kumpulan data yang berbeda, Anda dapat membuat pekerjaan pemrosesan yang menggantikan nilai parameter dengan nilai yang berbeda. Parameter bertindak sebagai pengganti bagi Anda untuk mengubah ketika Anda ingin menerapkan transformasi dari aliran Data Wrangler Anda ke data baru. Anda dapat mengganti nilai parameter saat membuat pekerjaan pemrosesan Data Wrangler untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke kumpulan data yang berbeda.

Gunakan prosedur berikut untuk membuat parameter numerik untuk`s3://amzn-s3-demo-bucket1/example-prefix-0/example-prefix-1/example-prefix-2/example-dataset.csv`.

Untuk membuat parameter untuk jalur URI S3 sebelumnya, lakukan hal berikut.

1. Arahkan ke alur Data Wrangler Anda.

1. Di samping dataset yang telah Anda impor, pilih **Edit dataset**.

1. Sorot nomor dalam contoh awalan. `example-prefix-number`

1. Pilih **Buat parameter kustom**.

1. Untuk **Nama**, tentukan nama untuk parameter.

1. Untuk **Type**, pilih **Integer**.

1. Untuk **Nilai**, tentukan nomornya.

1. Buat parameter untuk angka yang tersisa dengan mengulangi prosedur.

Setelah Anda membuat parameter, terapkan transformasi ke dataset Anda dan buat node tujuan untuk mereka. Untuk informasi selengkapnya tentang node tujuan, lihat[Ekspor](data-wrangler-data-export.md).

Gunakan prosedur berikut untuk menerapkan transformasi dari aliran Data Wrangler Anda ke rentang waktu yang berbeda. Ini mengasumsikan bahwa Anda telah membuat node tujuan untuk transformasi dalam alur Anda.

Untuk mengubah nilai parameter numerik dalam pekerjaan pemrosesan Data Wrangler, lakukan hal berikut.

1. **Dari alur Data Wrangler Anda, pilih Buat pekerjaan**

1. Pilih hanya node tujuan yang berisi transformasi ke dataset yang berisi parameter datetime.

1. Pilih **Konfigurasi pekerjaan**.

1. Pilih **Parameter**.

1. Pilih nama parameter yang telah Anda buat.

1. Ubah nilai parameter.

1. Ulangi prosedur untuk parameter lainnya.

1. Pilih **Jalankan**.

## Menerapkan aliran Data Wrangler ke file menggunakan string
<a name="data-wrangler-string-parameters"></a>

Anda dapat menggunakan parameter untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke file berbeda yang memiliki jalur serupa. Misalnya, Anda mungkin memiliki kumpulan data dengan jalurnya`s3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv`.

Anda mungkin memiliki transformasi dari alur Data Wrangler yang telah Anda terapkan ke kumpulan data di bawahnya. `example-prefix` Anda mungkin ingin menerapkan transformasi yang sama ke `example-dataset.csv` bawah `another-example-prefix` atau`example-prefix-20`.

Anda dapat membuat parameter yang menyimpan nilai`example-prefix`. Jika Anda ingin menerapkan transformasi ke kumpulan data yang berbeda, Anda dapat membuat pekerjaan pemrosesan yang menggantikan nilai parameter dengan nilai yang berbeda. Parameter bertindak sebagai pengganti bagi Anda untuk mengubah ketika Anda ingin menerapkan transformasi dari aliran Data Wrangler Anda ke data baru. Anda dapat mengganti nilai parameter saat membuat pekerjaan pemrosesan Data Wrangler untuk menerapkan transformasi dalam aliran Data Wrangler Anda ke kumpulan data yang berbeda.

Gunakan prosedur berikut untuk membuat parameter string untuk`s3://amzn-s3-demo-bucket1/example-prefix/example-dataset.csv`.

Untuk membuat parameter untuk jalur URI S3 sebelumnya, lakukan hal berikut.

1. Arahkan ke alur Data Wrangler Anda.

1. Di samping dataset yang telah Anda impor, pilih **Edit dataset**.

1. Sorot contoh awalan,`example-prefix`.

1. Pilih **Buat parameter kustom**.

1. Untuk **Nama**, tentukan nama untuk parameter.

1. Untuk **Type**, pilih **String**.

1. Untuk **Nilai**, tentukan awalan.

Setelah Anda membuat parameter, terapkan transformasi ke dataset Anda dan buat node tujuan untuk mereka. Untuk informasi selengkapnya tentang node tujuan, lihat[Ekspor](data-wrangler-data-export.md).

Gunakan prosedur berikut untuk menerapkan transformasi dari aliran Data Wrangler Anda ke rentang waktu yang berbeda. Ini mengasumsikan bahwa Anda telah membuat node tujuan untuk transformasi dalam alur Anda.

Untuk mengubah nilai parameter numerik dalam pekerjaan pemrosesan Data Wrangler, lakukan hal berikut:

1. **Dari alur Data Wrangler Anda, pilih Buat pekerjaan**

1. Pilih hanya node tujuan yang berisi transformasi ke dataset yang berisi parameter datetime.

1. Pilih **Konfigurasi pekerjaan**.

1. Pilih **Parameter**.

1. Pilih nama parameter yang telah Anda buat.

1. Ubah nilai parameter.

1. Ulangi prosedur untuk parameter lainnya.

1. Pilih **Jalankan**.

## Menerapkan aliran Data Wrangler ke rentang datetime yang berbeda
<a name="data-wrangler-datetime-parameters"></a>

Gunakan parameter datetime untuk menerapkan transformasi dalam alur Data Wrangler Anda ke rentang waktu yang berbeda. Sorot bagian URI Amazon S3 yang memiliki stempel waktu dan buat parameter untuknya. Saat Anda membuat parameter, Anda menentukan rentang waktu dari waktu saat ini ke waktu di masa lalu. Misalnya, Anda mungkin memiliki URI Amazon S3 yang terlihat seperti berikut:. `s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv` Anda dapat menyimpan `2022/05/15` sebagai parameter datetime. Jika Anda menentukan tahun sebagai rentang waktu, rentang waktu mencakup saat Anda menjalankan pekerjaan pemrosesan yang berisi parameter datetime dan waktu tepat satu tahun yang lalu. Jika saat Anda menjalankan pekerjaan pemrosesan adalah 6 September 2022 atau`2022/09/06`, rentang waktu dapat mencakup yang berikut:
+ `s3://amzn-s3-demo-bucket1/example-prefix/2022/03/15/example-dataset.csv`
+ `s3://amzn-s3-demo-bucket1/example-prefix/2022/01/08/example-dataset.csv`
+ `s3://amzn-s3-demo-bucket1/example-prefix/2022/07/31/example-dataset.csv`
+ `s3://amzn-s3-demo-bucket1/example-prefix/2021/09/07/example-dataset.csv`

Transformasi dalam aliran Data Wrangler berlaku untuk semua awalan sebelumnya. Mengubah nilai parameter dalam pekerjaan pemrosesan tidak mengubah nilai parameter dalam aliran Data Wrangler. Untuk menerapkan transformasi ke kumpulan data dalam rentang waktu yang berbeda, lakukan hal berikut:

1. Buat node tujuan yang berisi semua transformasi yang ingin Anda gunakan.

1. Buat pekerjaan Data Wrangler.

1. Konfigurasikan pekerjaan untuk menggunakan rentang waktu yang berbeda untuk parameter. Mengubah nilai parameter dalam pekerjaan pemrosesan tidak mengubah nilai parameter dalam aliran Data Wrangler.

Untuk informasi selengkapnya tentang node tujuan dan pekerjaan Data Wrangler, lihat. [Ekspor](data-wrangler-data-export.md)

Prosedur berikut membuat parameter datetime untuk jalur Amazon S3:. `s3://amzn-s3-demo-bucket1/example-prefix/2022/05/15/example-dataset.csv`

Untuk membuat parameter datetime untuk jalur URI S3 sebelumnya, lakukan hal berikut.

1. Arahkan ke alur Data Wrangler Anda.

1. Di samping dataset yang telah Anda impor, pilih **Edit dataset**.

1. Sorot bagian URI yang Anda gunakan sebagai nilai parameter datetime.

1. Pilih **Buat parameter kustom**.

1. Untuk **Nama**, tentukan nama untuk parameter.

1. Untuk **Type**, pilih **Datetime**.
**catatan**  
Secara default, Data Wrangler memilih **Predefined**, yang menyediakan menu dropdown bagi Anda untuk memilih format tanggal. Namun, format stempel waktu yang Anda gunakan mungkin tidak tersedia. Alih-alih menggunakan **Predefined** sebagai opsi default, Anda dapat memilih **Custom** dan menentukan format stempel waktu secara manual.

1. Untuk **format Tanggal**, buka menu tarik-turun berikut **Predefined** dan pilih. **yyyy/MM/dd** Formatnya **yyyy/MM/dd,,** sesuai dengan stempel waktu. year/month/day

1. Untuk **Timezone**, pilih zona waktu.
**catatan**  
Data yang Anda analisis mungkin memiliki stempel waktu yang diambil di zona waktu yang berbeda dari zona waktu Anda. Pastikan zona waktu yang Anda pilih cocok dengan zona waktu data. 

1. Untuk **Rentang waktu**, tentukan rentang waktu untuk parameter.

1. (Opsional) Masukkan deskripsi untuk menjelaskan bagaimana Anda menggunakan parameter.

1. Pilih **Buat**.

Setelah Anda membuat parameter datetime, terapkan transformasi ke dataset Anda dan buat node tujuan untuk mereka. Untuk informasi selengkapnya tentang node tujuan, lihat[Ekspor](data-wrangler-data-export.md).

Gunakan prosedur berikut untuk menerapkan transformasi dari aliran Data Wrangler Anda ke rentang waktu yang berbeda. Ini mengasumsikan bahwa Anda telah membuat node tujuan untuk transformasi dalam alur Anda.

Untuk mengubah nilai parameter datetime dalam pekerjaan pemrosesan Data Wrangler, lakukan hal berikut:

1. **Dari alur Data Wrangler Anda, pilih Buat pekerjaan**

1. Pilih hanya node tujuan yang berisi transformasi ke dataset yang berisi parameter datetime.

1. Pilih **Konfigurasi pekerjaan**.

1. Pilih **Parameter**.

1. Pilih nama parameter datetime yang telah Anda buat.

1. Untuk **rentang waktu**, ubah rentang waktu untuk kumpulan data.

1. Pilih **Jalankan**.

# Ekspor
<a name="data-wrangler-data-export"></a>

Dalam alur Data Wrangler, Anda dapat mengekspor beberapa atau semua transformasi yang telah Anda buat ke pipeline pemrosesan data Anda.

*Alur Data Wrangler* adalah serangkaian langkah persiapan data yang telah Anda lakukan pada data Anda. Dalam persiapan data Anda, Anda melakukan satu atau lebih transformasi ke data Anda. Setiap transformasi dilakukan dengan menggunakan langkah transformasi. Aliran memiliki serangkaian node yang mewakili impor data Anda dan transformasi yang telah Anda lakukan. Untuk contoh node, lihat gambar berikut.

![\[Contoh aliran data di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-destination-nodes-photo-0.png)


Gambar sebelumnya menunjukkan aliran Data Wrangler dengan dua node. Node **Source - sampel** menunjukkan sumber data dari mana Anda telah mengimpor data Anda. Node **tipe Data** menunjukkan bahwa Data Wrangler telah melakukan transformasi untuk mengubah kumpulan data menjadi format yang dapat digunakan. 

Setiap transformasi yang Anda tambahkan ke aliran Data Wrangler muncul sebagai node tambahan. Untuk informasi tentang transformasi yang dapat Anda tambahkan, lihat[Transformasi Data](data-wrangler-transform.md). Gambar berikut menunjukkan aliran Data Wrangler yang memiliki node **Rename-column** untuk mengubah nama kolom dalam dataset.

Anda dapat mengekspor transformasi data Anda ke yang berikut:
+ Amazon S3
+ Pipeline
+ Toko SageMaker Fitur Amazon
+ Kode Python

**penting**  
Kami menyarankan Anda menggunakan kebijakan `AmazonSageMakerFullAccess` terkelola IAM untuk memberikan AWS izin menggunakan Data Wrangler. Jika tidak menggunakan kebijakan terkelola, Anda dapat menggunakan kebijakan IAM yang memberikan akses Data Wrangler ke bucket Amazon S3. Untuk informasi lebih lanjut tentang kebijakan ini, lihat[Keamanan dan Izin](data-wrangler-security.md).

Saat mengekspor aliran data, Anda dikenakan biaya untuk AWS sumber daya yang Anda gunakan. Anda dapat menggunakan tag alokasi biaya untuk mengatur dan mengelola biaya sumber daya tersebut. Anda membuat tag ini untuk profil pengguna Anda dan Data Wrangler secara otomatis menerapkannya ke sumber daya yang digunakan untuk mengekspor aliran data. Untuk informasi selengkapnya, lihat [Menggunakan Tag Alokasi Biaya](https://docs.aws.amazon.com//awsaccountbilling/latest/aboutv2/cost-alloc-tags.html).

## Ekspor ke Amazon S3
<a name="data-wrangler-data-export-s3"></a>

Data Wrangler memberi Anda kemampuan untuk mengekspor data ke lokasi dalam bucket Amazon S3. Anda dapat menentukan lokasi menggunakan salah satu metode berikut:
+ Node tujuan — Dimana Data Wrangler menyimpan data setelah memprosesnya.
+ Ekspor ke — Mengekspor data yang dihasilkan dari transformasi ke Amazon S3.
+ Ekspor data — Untuk kumpulan data kecil, dapat dengan cepat mengekspor data yang telah Anda ubah.

Gunakan bagian berikut untuk mempelajari lebih lanjut tentang masing-masing metode ini.

------
#### [ Destination Node ]

Jika Anda ingin menampilkan serangkaian langkah pemrosesan data yang telah Anda lakukan ke Amazon S3, Anda membuat node tujuan. *Node tujuan* memberi tahu Data Wrangler tempat menyimpan data setelah Anda memprosesnya. Setelah Anda membuat node tujuan, Anda membuat pekerjaan pemrosesan untuk menampilkan data. *Pekerjaan pemrosesan adalah pekerjaan* SageMaker pemrosesan Amazon. Saat Anda menggunakan node tujuan, ia menjalankan sumber daya komputasi yang diperlukan untuk menampilkan data yang telah Anda ubah ke Amazon S3. 

Anda dapat menggunakan node tujuan untuk mengekspor beberapa transformasi atau semua transformasi yang telah Anda buat dalam alur Data Wrangler Anda.

Anda dapat menggunakan beberapa node tujuan untuk mengekspor transformasi atau set transformasi yang berbeda. Contoh berikut menunjukkan dua node tujuan dalam aliran Data Wrangler tunggal.

![\[Contoh aliran data yang menunjukkan dua node tujuan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-destination-nodes-photo-4.png)


Anda dapat menggunakan prosedur berikut untuk membuat node tujuan dan mengekspornya ke bucket Amazon S3.

Untuk mengekspor aliran data Anda, Anda membuat node tujuan dan pekerjaan Data Wrangler untuk mengekspor data. Membuat pekerjaan Data Wrangler memulai pekerjaan SageMaker Processing untuk mengekspor alur Anda. Anda dapat memilih node tujuan yang ingin Anda ekspor setelah Anda membuatnya.
**catatan**  
Anda dapat memilih **Buat pekerjaan** di alur Data Wrangler untuk melihat instruksi untuk menggunakan pekerjaan pemrosesan.

Gunakan prosedur berikut untuk membuat node tujuan.

1. Pilih **\$1** di sebelah node yang mewakili transformasi yang ingin Anda ekspor.

1. Pilih **Tambahkan tujuan**.  
![\[Contoh aliran data yang menunjukkan cara menambahkan tujuan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/destination-nodes/destination-nodes-add-destination-0.png)

1. Pilih **Amazon S3**.  
![\[Contoh aliran data yang menunjukkan cara menambahkan tujuan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/destination-nodes/destination-nodes-add-destination-S3-selected.png)

1. Tentukan bidang berikut.
   + **Nama Dataset** — Nama yang Anda tentukan untuk dataset yang Anda ekspor.
   + **Jenis file** — Format file yang Anda ekspor.
   + **Delimiter** (file CSV dan Parket saja) — Nilai yang digunakan untuk memisahkan nilai lainnya.
   + **Kompresi** (file CSV dan Parket saja) — Metode kompresi yang digunakan untuk mengurangi ukuran file. Anda dapat menggunakan metode kompresi berikut:
     + bzip2
     + mengempiskan
     + gzip
   + (Opsional) Lokasi **Amazon S3 — Lokasi** S3 yang Anda gunakan untuk menampilkan file.
   + (Opsional) **Jumlah partisi** — Jumlah kumpulan data yang Anda tulis sebagai output dari pekerjaan pemrosesan.
   + (Opsional) **Partisi demi kolom** - Menulis semua data dengan nilai unik yang sama dari kolom.
   + (Opsional) **Parameter Inferensi** — Memilih **Hasilkan artefak inferensi** menerapkan semua transformasi yang Anda gunakan dalam aliran Data Wrangler ke data yang masuk ke pipeline inferensi Anda. Model dalam pipeline Anda membuat prediksi pada data yang diubah.

1. Pilih **Tambahkan tujuan**.

Gunakan prosedur berikut untuk membuat pekerjaan pemrosesan.

Buat pekerjaan dari halaman **aliran Data** dan pilih node tujuan yang ingin Anda ekspor.
**catatan**  
Anda dapat memilih **Buat pekerjaan** di alur Data Wrangler untuk melihat instruksi untuk membuat pekerjaan pemrosesan.

1. Pilih **Buat tugas**. Gambar berikut menunjukkan panel yang muncul setelah Anda memilih **Buat pekerjaan**.  
![\[Contoh aliran data membuat panel pekerjaan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/destination-nodes/destination-nodes-create-job.png)

1. Untuk **nama Job**, tentukan nama pekerjaan ekspor.

1. Pilih node tujuan yang ingin Anda ekspor.

1. (Opsional) Tentukan AWS KMS ARN kunci. AWS KMS Kunci adalah kunci kriptografi yang dapat Anda gunakan untuk melindungi data Anda. Untuk informasi selengkapnya tentang AWS KMS kunci, lihat [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

1. (Opsional) Di bawah **parameter Terlatih**. pilih **Reparasi jika** Anda telah melakukan hal berikut:
   + Mengambil sampel kumpulan data Anda
   + Menerapkan transformasi yang menggunakan data Anda untuk membuat kolom baru dalam kumpulan data

   Untuk informasi selengkapnya tentang memperbaiki transformasi yang telah Anda buat ke seluruh kumpulan data, lihat. [Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka](#data-wrangler-data-export-fit-transform)
**catatan**  
Untuk data gambar, Data Wrangler mengekspor transformasi yang telah Anda buat ke semua gambar. Memperbaiki transformasi tidak berlaku untuk kasus penggunaan Anda.

1. Pilih **Konfigurasi pekerjaan**. Gambar berikut menunjukkan halaman **Configure job**.  
![\[Contoh aliran data mengkonfigurasi halaman pekerjaan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/destination-nodes/destination-nodes-configure-job.png)

1. (Opsional) Konfigurasikan pekerjaan Data Wrangler. Anda dapat membuat konfigurasi berikut:
   + **Konfigurasi Job**
   + **Konfigurasi memori percikan**
   + **Konfigurasi jaringan**
   + **Tanda**
   + **Parameter**
   + **Jadwal Asosiasi**

1. Pilih **Jalankan**.

------
#### [ Export to ]

Sebagai alternatif untuk menggunakan node tujuan, Anda dapat menggunakan opsi **Ekspor ke untuk mengekspor** aliran Data Wrangler Anda ke Amazon S3 menggunakan notebook Jupyter. Anda dapat memilih node data apa pun dalam aliran Data Wrangler Anda dan mengekspornya. Mengekspor node data mengekspor transformasi yang diwakili oleh node dan transformasi yang mendahuluinya.

Gunakan prosedur berikut untuk membuat notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Amazon S3.

1. Pilih **\$1** di sebelah simpul yang ingin Anda ekspor.

1. Pilih **Ekspor ke**.

1. Pilih **Amazon S3 (melalui Jupyter Notebook).**

1. Jalankan notebook Jupyter.  
![\[Contoh aliran data yang menunjukkan cara mengekspor aliran Data Wrangler Anda di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-destination-nodes-photo-export-to.png)

Saat Anda menjalankan buku catatan, buku catatan akan mengekspor aliran data Anda (file.flow) Wilayah AWS sama dengan alur Data Wrangler.

Notebook menyediakan opsi yang dapat Anda gunakan untuk mengonfigurasi pekerjaan pemrosesan dan data yang dikeluarkannya.

**penting**  
Kami memberi Anda konfigurasi pekerjaan untuk mengonfigurasi output data Anda. Untuk opsi partisi dan memori driver, kami sangat menyarankan agar Anda tidak menentukan konfigurasi kecuali Anda sudah memiliki pengetahuan tentang mereka.

Di bawah **Job Configurations**, Anda dapat mengonfigurasi hal berikut:
+ `output_content_type`— Jenis konten dari file output. Digunakan `CSV` sebagai format default, tetapi Anda dapat menentukan`Parquet`.
+ `delimiter`— Karakter yang digunakan untuk memisahkan nilai dalam dataset saat menulis ke file CSV.
+ `compression`— Jika diatur, kompres file output. Menggunakan gzip sebagai format kompresi default.
+ `num_partitions`— Jumlah partisi atau file yang ditulis Data Wrangler sebagai output.
+ `partition_by`— Nama-nama kolom yang Anda gunakan untuk mempartisi output.

Untuk mengubah format file output dari CSV ke Parquet, ubah nilainya dari `"CSV"` ke. `"Parquet"` Untuk sisa bidang sebelumnya, batalkan komentar pada baris yang berisi bidang yang ingin Anda tentukan.

Di bawah **(Opsional) Konfigurasikan Memori Driver Cluster** Spark Anda dapat mengonfigurasi properti Spark untuk pekerjaan itu, seperti memori driver Spark, di kamus. `config`

Berikut ini menunjukkan `config` kamus.

```
config = json.dumps({
    "Classification": "spark-defaults",
    "Properties": {
        "spark.driver.memory": f"{driver_memory_in_mb}m",
    }
})
```

Untuk menerapkan konfigurasi ke pekerjaan pemrosesan, hapus komentar pada baris berikut:

```
# data_sources.append(ProcessingInput(
#     source=config_s3_uri,
#     destination="/opt/ml/processing/input/conf",
#     input_name="spark-config",
#     s3_data_type="S3Prefix",
#     s3_input_mode="File",
#     s3_data_distribution_type="FullyReplicated"
# ))
```

------
#### [ Export data ]

Jika Anda memiliki transformasi pada kumpulan data kecil yang ingin Anda ekspor dengan cepat, Anda dapat menggunakan metode **Ekspor data**. Saat Anda mulai memilih **Ekspor data, Data** Wrangler bekerja secara sinkron untuk mengekspor data yang telah Anda ubah ke Amazon S3. Anda tidak dapat menggunakan Data Wrangler sampai selesai mengekspor data Anda atau membatalkan operasi.

Untuk informasi tentang penggunaan metode **Ekspor data** dalam alur Data Wrangler Anda, lihat prosedur berikut.

Untuk menggunakan metode **data Ekspor**:

1. Pilih node dalam aliran Data Wrangler Anda dengan membuka (mengklik dua kali) itu.  
![\[Contoh aliran data yang menunjukkan cara mengekspor data di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/export-s3.png)

1. Konfigurasikan bagaimana Anda ingin mengekspor data.

1. Pilih **Ekspor data**.

------

Saat Anda mengekspor aliran data ke bucket Amazon S3, Data Wrangler menyimpan salinan file alur di bucket S3. Ini menyimpan file aliran di bawah awalan *data\$1wrangler\$1flows*. Jika Anda menggunakan bucket Amazon S3 default untuk menyimpan file flow, bucket ini menggunakan konvensi penamaan berikut:. `sagemaker-region-account number` Misalnya, jika nomor akun Anda adalah 111122223333 dan Anda menggunakan Studio Classic di us-east-1, kumpulan data yang Anda impor akan disimpan. `sagemaker-us-east-1-111122223333` Dalam contoh ini, file.flow Anda yang dibuat di us-east-1 disimpan di. `s3://sagemaker-region-account number/data_wrangler_flows/` 

## Ekspor ke Pipa
<a name="data-wrangler-data-export-pipelines"></a>

Saat ingin membangun dan menerapkan alur kerja machine learning (ML) skala besar, Anda dapat menggunakan Pipelines untuk membuat alur kerja yang mengelola dan menerapkan pekerjaan AI. SageMaker Dengan Pipelines, Anda dapat membangun alur kerja yang mengelola persiapan data SageMaker AI, pelatihan model, dan memodelkan pekerjaan penerapan. Anda dapat menggunakan algoritme pihak pertama yang ditawarkan SageMaker AI dengan menggunakan Pipelines. Untuk informasi lebih lanjut tentang Pipelines, lihat [SageMaker Pipelines](https://docs.aws.amazon.com/sagemaker/latest/dg/pipelines.html).

Saat Anda mengekspor satu atau beberapa langkah dari aliran data ke Pipelines, Data Wrangler akan membuat buku catatan Jupyter yang dapat Anda gunakan untuk menentukan, membuat instance, menjalankan, dan mengelola pipeline.

### Menggunakan Notebook Jupyter untuk Membuat Pipeline
<a name="data-wrangler-pipelines-notebook"></a>

Gunakan prosedur berikut untuk membuat notebook Jupyter untuk mengekspor aliran Data Wrangler Anda ke Pipelines.

Gunakan prosedur berikut untuk membuat notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Pipelines.

1. Pilih **\$1** di sebelah simpul yang ingin Anda ekspor.

1. Pilih **Ekspor ke**.

1. Pilih **Pipelines (melalui Jupyter Notebook**).

1. Jalankan notebook Jupyter.

![\[Contoh aliran data yang menunjukkan cara mengekspor aliran Data Wrangler Anda di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-destination-nodes-photo-export-to.png)


Anda dapat menggunakan notebook Jupyter yang dihasilkan Data Wrangler untuk menentukan pipeline. Pipeline mencakup langkah-langkah pemrosesan data yang ditentukan oleh alur Data Wrangler Anda. 

Anda dapat menambahkan langkah tambahan ke pipeline dengan menambahkan langkah-langkah ke `steps` daftar dalam kode berikut di buku catatan:

```
pipeline = Pipeline(
    name=pipeline_name,
    parameters=[instance_type, instance_count],
    steps=[step_process], #Add more steps to this list to run in your Pipeline
)
```

Untuk informasi selengkapnya tentang mendefinisikan pipeline, lihat [Mendefinisikan Pipeline SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/define-pipeline.html).

## Ekspor ke Endpoint Inferensi
<a name="data-wrangler-data-export-inference"></a>

Gunakan alur Data Wrangler Anda untuk memproses data pada saat inferensi dengan membuat pipeline inferensi serial SageMaker AI dari alur Data Wrangler Anda. Pipa inferensi adalah serangkaian langkah yang menghasilkan model terlatih yang membuat prediksi pada data baru. Pipa inferensi serial dalam Data Wrangler mengubah data mentah dan menyediakannya ke model pembelajaran mesin untuk prediksi. Anda membuat, menjalankan, dan mengelola pipeline inferensi dari notebook Jupyter dalam Studio Classic. Untuk informasi selengkapnya tentang mengakses buku catatan, lihat[Menggunakan Notebook Jupyter untuk membuat titik akhir inferensi](#data-wrangler-inference-notebook).

Di dalam buku catatan, Anda dapat melatih model pembelajaran mesin atau menentukan model yang sudah Anda latih. Anda dapat menggunakan Amazon SageMaker Autopilot atau XGBoost untuk melatih model menggunakan data yang telah diubah dalam alur Data Wrangler Anda.

Pipeline menyediakan kemampuan untuk melakukan inferensi batch atau real-time. Anda juga dapat menambahkan aliran Data Wrangler ke SageMaker Model Registry. Untuk informasi selengkapnya tentang model hosting, lihat[Titik akhir multi-model](multi-model-endpoints.md).

**penting**  
Anda tidak dapat mengekspor aliran Data Wrangler ke titik akhir inferensi jika memiliki transformasi berikut:  
Join
Gabungan
Grup oleh
Jika Anda harus menggunakan transformasi sebelumnya untuk menyiapkan data Anda, gunakan prosedur berikut.  
Buat alur Data Wrangler.
Terapkan transformasi sebelumnya yang tidak didukung.
Ekspor data ke bucket Amazon S3.
Buat alur Data Wrangler terpisah.
Impor data yang telah Anda ekspor dari alur sebelumnya.
Terapkan transformasi yang tersisa.
Buat pipeline inferensi serial menggunakan notebook Jupyter yang kami sediakan.
Untuk informasi tentang mengekspor data ke bucket Amazon S3, lihat. [Ekspor ke Amazon S3](#data-wrangler-data-export-s3) Untuk informasi tentang membuka notebook Jupyter yang digunakan untuk membuat pipeline inferensi serial, lihat. [Menggunakan Notebook Jupyter untuk membuat titik akhir inferensi](#data-wrangler-inference-notebook)

Data Wrangler mengabaikan transformasi yang menghapus data pada saat inferensi. Misalnya, Data Wrangler mengabaikan [Tangani Nilai yang Hilang](data-wrangler-transform.md#data-wrangler-transform-handle-missing) transformasi jika Anda menggunakan konfigurasi **Drop** missing.

Jika Anda telah mereparasi transformasi ke seluruh kumpulan data Anda, transformasi terbawa ke saluran inferensi Anda. Misalnya, jika Anda menggunakan nilai median untuk mengimputasi nilai yang hilang, nilai median dari refitting transformasi diterapkan ke permintaan inferensi Anda. Anda dapat memperbaiki transformasi dari alur Data Wrangler saat menggunakan notebook Jupyter atau saat mengekspor data ke pipeline inferensi. Untuk informasi tentang memperbaiki transformasi, lihat. [Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka](#data-wrangler-data-export-fit-transform)

Pipa inferensi serial mendukung tipe data berikut untuk string input dan output. Setiap tipe data memiliki seperangkat persyaratan.

**Tipe data yang didukung**
+ `text/csv`— tipe data untuk string CSV
  + String tidak dapat memiliki header.
  + Fitur yang digunakan untuk pipa inferensi harus dalam urutan yang sama dengan fitur dalam kumpulan data pelatihan.
  + Harus ada pembatas koma antara fitur.
  + Catatan harus dibatasi oleh karakter baris baru.

  Berikut ini adalah contoh string CSV yang diformat secara valid yang dapat Anda berikan dalam permintaan inferensi.

  ```
  abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890                    
  ```
+ `application/json`— tipe data untuk string JSON
  + Fitur yang digunakan dalam kumpulan data untuk pipa inferensi harus dalam urutan yang sama dengan fitur dalam kumpulan data pelatihan.
  + Data harus memiliki skema tertentu. Anda mendefinisikan skema sebagai `instances` objek tunggal yang memiliki satu set. `features` Setiap `features` objek mewakili pengamatan.

  Berikut ini adalah contoh string JSON yang diformat secara valid yang dapat Anda berikan dalam permintaan inferensi.

  ```
  {
      "instances": [
          {
              "features": ["abc", 0.0, "Doe, John", 12345]
          },
          {
              "features": ["def", 1.1, "Doe, Jane", 67890]
          }
      ]
  }
  ```

### Menggunakan Notebook Jupyter untuk membuat titik akhir inferensi
<a name="data-wrangler-inference-notebook"></a>

Gunakan prosedur berikut untuk mengekspor alur Data Wrangler Anda untuk membuat pipeline inferensi.

Untuk membuat pipeline inferensi menggunakan notebook Jupyter, lakukan hal berikut.

1. Pilih **\$1** di sebelah simpul yang ingin Anda ekspor.

1. Pilih **Ekspor ke**.

1. Pilih **SageMaker AI Inference Pipeline (melalui Jupyter Notebook**).

1. Jalankan notebook Jupyter.

Saat Anda menjalankan notebook Jupyter, itu menciptakan artefak aliran inferensi. Artefak aliran inferensi adalah file aliran Data Wrangler dengan metadata tambahan yang digunakan untuk membuat pipeline inferensi serial. Node yang Anda ekspor mencakup semua transformasi dari node sebelumnya.

**penting**  
Data Wrangler membutuhkan artefak aliran inferensi untuk menjalankan pipa inferensi. Anda tidak dapat menggunakan file aliran Anda sendiri sebagai artefak. Anda harus membuatnya dengan menggunakan prosedur sebelumnya.

## Ekspor ke Kode Python
<a name="data-wrangler-data-export-python-code"></a>

Untuk mengekspor semua langkah dalam aliran data Anda ke file Python yang dapat Anda integrasikan secara manual ke dalam alur kerja pemrosesan data apa pun, gunakan prosedur berikut.

Gunakan prosedur berikut untuk menghasilkan notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Kode Python.

1. Pilih **\$1** di sebelah simpul yang ingin Anda ekspor.

1. Pilih **Ekspor ke**.

1. Pilih **Kode Python**.

1. Jalankan notebook Jupyter.

![\[Contoh aliran data yang menunjukkan cara mengekspor aliran Data Wrangler Anda di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-destination-nodes-photo-export-to.png)


Anda mungkin perlu mengonfigurasi skrip Python untuk membuatnya berjalan di pipeline Anda. Misalnya, jika Anda menjalankan lingkungan Spark, pastikan Anda menjalankan skrip dari lingkungan yang memiliki izin untuk mengakses AWS sumber daya.

## Ekspor ke Toko SageMaker Fitur Amazon
<a name="data-wrangler-data-export-feature-store"></a>

Anda dapat menggunakan Data Wrangler untuk mengekspor fitur yang telah Anda buat ke Amazon SageMaker Feature Store. Fitur adalah kolom dalam dataset Anda. Feature Store adalah toko terpusat untuk fitur dan metadata terkait. Anda dapat menggunakan Feature Store untuk membuat, berbagi, dan mengelola data yang dikurasi untuk pengembangan machine learning (ML). Toko terpusat membuat data Anda lebih mudah ditemukan dan dapat digunakan kembali. Untuk informasi selengkapnya tentang Toko Fitur, lihat [Toko SageMaker Fitur Amazon](https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store.html).

Konsep inti di Feature Store adalah grup fitur. Grup fitur adalah kumpulan fitur, catatan mereka (pengamatan), dan metadata terkait. Ini mirip dengan tabel dalam database.

Anda dapat menggunakan Data Wrangler untuk melakukan salah satu hal berikut:
+ Perbarui grup fitur yang ada dengan catatan baru. Catatan adalah pengamatan dalam dataset.
+ Buat grup fitur baru dari node dalam alur Data Wrangler Anda. Data Wrangler menambahkan pengamatan dari kumpulan data Anda sebagai catatan dalam grup fitur Anda.

Jika Anda memperbarui grup fitur yang ada, skema kumpulan data Anda harus cocok dengan skema grup fitur. Semua catatan dalam grup fitur diganti dengan pengamatan di kumpulan data Anda.

Anda dapat menggunakan notebook Jupyter atau node tujuan untuk memperbarui grup fitur Anda dengan pengamatan dalam kumpulan data.

Jika grup fitur Anda dengan format tabel Iceberg memiliki kunci enkripsi toko offline khusus, pastikan Anda memberikan IAM yang Anda gunakan untuk izin pekerjaan Amazon SageMaker Processing untuk menggunakannya. Minimal, Anda harus memberikan izin untuk mengenkripsi data yang Anda tulis ke Amazon S3. Untuk memberikan izin, berikan peran IAM kemampuan untuk menggunakan. [GenerateDataKey](https://docs.aws.amazon.com/kms/latest/APIReference/API_GenerateDataKey.html) Untuk informasi selengkapnya tentang pemberian izin peran IAM untuk menggunakan kunci, lihat AWS KMS [https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html](https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html)

------
#### [ Destination Node ]

Jika Anda ingin menampilkan serangkaian langkah pemrosesan data yang telah Anda lakukan ke grup fitur, Anda dapat membuat simpul tujuan. Saat Anda membuat dan menjalankan node tujuan, Data Wrangler memperbarui grup fitur dengan data Anda. Anda juga dapat membuat grup fitur baru dari UI node tujuan. Setelah Anda membuat node tujuan, Anda membuat pekerjaan pemrosesan untuk menampilkan data. Pekerjaan pemrosesan adalah pekerjaan SageMaker pemrosesan Amazon. Saat Anda menggunakan node tujuan, ia menjalankan sumber daya komputasi yang diperlukan untuk menampilkan data yang telah Anda ubah ke grup fitur. 

Anda dapat menggunakan node tujuan untuk mengekspor beberapa transformasi atau semua transformasi yang telah Anda buat dalam alur Data Wrangler Anda.

Gunakan prosedur berikut untuk membuat node tujuan untuk memperbarui grup fitur dengan pengamatan dari kumpulan data Anda.

Untuk memperbarui grup fitur menggunakan node tujuan, lakukan hal berikut.
**catatan**  
Anda dapat memilih **Buat pekerjaan** di alur Data Wrangler untuk melihat petunjuk penggunaan pekerjaan pemrosesan untuk memperbarui grup fitur.

1. Pilih simbol **\$1** di sebelah simpul yang berisi kumpulan data yang ingin Anda ekspor.

1. Di bawah **Tambahkan tujuan**, pilih **SageMaker AI Feature Store**.  
![\[Contoh aliran data yang menunjukkan cara menambahkan tujuan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/feature-store-destination-node-selection.png)

1. Pilih (klik dua kali) grup fitur. Data Wrangler memeriksa apakah skema grup fitur cocok dengan skema data yang Anda gunakan untuk memperbarui grup fitur.

1. (Opsional) Pilih **Ekspor ke toko offline hanya** untuk grup fitur yang memiliki toko online dan toko offline. Opsi ini hanya memperbarui toko offline dengan pengamatan dari kumpulan data Anda.

1. **Setelah Data Wrangler memvalidasi skema kumpulan data Anda, pilih Tambah.**

Gunakan prosedur berikut untuk membuat grup fitur baru dengan data dari kumpulan data Anda.

Anda dapat menyimpan grup fitur Anda dengan salah satu cara berikut:
+ Online — Latensi rendah, cache ketersediaan tinggi untuk grup fitur yang menyediakan pencarian catatan secara real-time. Toko online memungkinkan akses cepat ke nilai terbaru untuk catatan dalam grup fitur.
+ Offline — Menyimpan data untuk grup fitur Anda di bucket Amazon S3. Anda dapat menyimpan data secara offline saat Anda tidak memerlukan pembacaan latensi rendah (sub-detik). Anda dapat menggunakan toko offline untuk fitur yang digunakan dalam eksplorasi data, pelatihan model, dan inferensi batch.
+ Baik online maupun offline — Menyimpan data Anda di toko online dan toko offline.

Untuk membuat grup fitur menggunakan node tujuan, lakukan hal berikut.

1. Pilih simbol **\$1** di sebelah simpul yang berisi kumpulan data yang ingin Anda ekspor.

1. Di bawah **Tambahkan tujuan**, pilih **SageMaker AI Feature Store**.

1. Pilih **Buat Grup Fitur**.

1. Di kotak dialog berikut, jika kumpulan data Anda tidak memiliki kolom waktu acara, pilih **Buat kolom “EventTime”**.

1. Pilih **Berikutnya**.

1. Pilih **Salin Skema JSON**. Saat Anda membuat grup fitur, Anda menempelkan skema ke dalam definisi fitur.

1. Pilih **Buat**.

1. Untuk **nama grup Fitur**, tentukan nama untuk grup fitur Anda.

1. Untuk **Deskripsi (opsional)**, tentukan deskripsi untuk membuat grup fitur Anda lebih mudah ditemukan.

1. Untuk membuat grup fitur untuk toko online, lakukan hal berikut.

   1. Pilih **Aktifkan penyimpanan online**.

   1. Untuk **kunci enkripsi toko online**, tentukan kunci enkripsi AWS terkelola atau kunci enkripsi Anda sendiri.

1. Untuk membuat grup fitur untuk toko offline, lakukan hal berikut.

   1. Pilih **Aktifkan penyimpanan offline**. Tentukan nilai untuk bidang berikut:
      + **Nama bucket S3** — Nama bucket Amazon S3 yang menyimpan grup fitur.
      + (Opsional) **Nama direktori Dataset** — Awalan Amazon S3 yang Anda gunakan untuk menyimpan grup fitur.
      + **IAM Role ARN** — Peran IAM yang memiliki akses ke Feature Store.
      + **Format Tabel** - Format tabel toko offline Anda. Anda dapat menentukan **Glue** atau **Iceberg**. **Glue** adalah format default.
      + **Kunci enkripsi toko offline** — Secara default, Toko Fitur menggunakan kunci AWS Key Management Service terkelola, tetapi Anda dapat menggunakan bidang untuk menentukan kunci Anda sendiri.

   1. Tentukan nilai untuk bidang berikut:
      + **Nama bucket S3** — Nama bucket yang menyimpan grup fitur.
      + **(Opsional) Nama direktori Dataset** — Awalan Amazon S3 yang Anda gunakan untuk menyimpan grup fitur.
      + **IAM Role ARN** — Peran IAM yang memiliki akses ke feature store.
      + **Kunci enkripsi toko offline** — Secara default, Toko Fitur menggunakan kunci AWS terkelola, tetapi Anda dapat menggunakan bidang untuk menentukan kunci Anda sendiri.

1. Pilih **Lanjutkan**.

1. Pilih**JSON**.

1. Lepaskan tanda kurung placeholder di jendela.

1. Tempel teks JSON dari Langkah 6.

1. Pilih **Lanjutkan**.

1. Untuk **RECORD IDENTIFIER FEATURE NAME**, pilih kolom di dataset Anda yang memiliki pengidentifikasi unik untuk setiap record dalam dataset Anda.

1. Untuk **NAMA FITUR WAKTU ACARA**, pilih kolom dengan nilai stempel waktu.

1. Pilih **Lanjutkan**.

1. (Opsional) Tambahkan tag untuk membuat grup fitur Anda lebih mudah ditemukan.

1. Pilih **Lanjutkan**.

1. Pilih **Buat grup fitur**.

1. Arahkan kembali ke alur Data Wrangler Anda dan pilih ikon penyegaran di sebelah bilah pencarian **Grup Fitur**.

**catatan**  
Jika Anda telah membuat node tujuan untuk grup fitur dalam alur, Anda tidak dapat membuat node tujuan lain untuk grup fitur yang sama. Jika Anda ingin membuat node tujuan lain untuk grup fitur yang sama, Anda harus membuat file aliran lain.

Gunakan prosedur berikut untuk membuat pekerjaan Data Wrangler.

Buat pekerjaan dari halaman **aliran Data** dan pilih node tujuan yang ingin Anda ekspor.

1. Pilih **Buat tugas**. Gambar berikut menunjukkan panel yang muncul setelah Anda memilih **Buat pekerjaan**.

1. Untuk **nama Job**, tentukan nama pekerjaan ekspor.

1. Pilih node tujuan yang ingin Anda ekspor.

1. (Opsional) Untuk **Output KMS Key**, tentukan ARN, ID, atau alias kunci. AWS KMS Kunci KMS adalah kunci kriptografi. Anda dapat menggunakan kunci untuk mengenkripsi data output dari pekerjaan. Untuk informasi selengkapnya tentang AWS KMS kunci, lihat [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

1. Gambar berikut menunjukkan halaman **Configure job** dengan tab **konfigurasi Job** terbuka.  
![\[Contoh aliran data membuat halaman pekerjaan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/destination-nodes/destination-nodes-configure-job.png)

   (Opsional) Di bawah **parameter Terlatih**. pilih **Reparasi jika** Anda telah melakukan hal berikut:
   + Mengambil sampel kumpulan data Anda
   + Menerapkan transformasi yang menggunakan data Anda untuk membuat kolom baru dalam kumpulan data

   Untuk informasi selengkapnya tentang memperbaiki transformasi yang telah Anda buat ke seluruh kumpulan data, lihat. [Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka](#data-wrangler-data-export-fit-transform)

1. Pilih **Konfigurasi pekerjaan**.

1. (Opsional) Konfigurasikan pekerjaan Data Wrangler. Anda dapat membuat konfigurasi berikut:
   + **Konfigurasi Job**
   + **Konfigurasi memori percikan**
   + **Konfigurasi jaringan**
   + **Tanda**
   + **Parameter**
   + **Jadwal Asosiasi**

1. Pilih **Jalankan**.

------
#### [ Jupyter notebook ]

Gunakan prosedur berikut ke notebook Jupyter untuk mengekspor ke Amazon SageMaker Feature Store.

Gunakan prosedur berikut untuk membuat notebook Jupyter dan menjalankannya untuk mengekspor aliran Data Wrangler Anda ke Feature Store.

1. Pilih **\$1** di sebelah simpul yang ingin Anda ekspor.

1. Pilih **Ekspor ke**.

1. Pilih **Amazon SageMaker Feature Store (melalui Jupyter Notebook**).

1. Jalankan notebook Jupyter.

![\[Contoh aliran data yang menunjukkan cara mengekspor aliran Data Wrangler Anda di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/data-wrangler-destination-nodes-photo-export-to.png)


Menjalankan notebook Jupyter menjalankan pekerjaan Data Wrangler. Menjalankan pekerjaan Data Wrangler memulai pekerjaan pemrosesan SageMaker AI. Pekerjaan pemrosesan menyerap aliran ke feature store online dan offline.

**penting**  
Peran IAM yang Anda gunakan untuk menjalankan buku catatan ini harus memiliki kebijakan AWS terkelola berikut yang dilampirkan: `AmazonSageMakerFullAccess` dan`AmazonSageMakerFeatureStoreAccess`.

Anda hanya perlu mengaktifkan satu feature store online atau offline saat membuat grup fitur. Anda juga dapat mengaktifkan keduanya. Untuk menonaktifkan pembuatan toko online, atur `EnableOnlineStore` ke`False`:

```
# Online Store Configuration
online_store_config = {
    "EnableOnlineStore": False
}
```

Notebook menggunakan nama kolom dan jenis kerangka data yang Anda ekspor untuk membuat skema grup fitur, yang digunakan untuk membuat grup fitur. Grup fitur adalah sekelompok fitur yang ditentukan di feature store untuk mendeskripsikan rekaman. Grup fitur mendefinisikan skema dan fitur yang terkandung dalam grup fitur. Definisi grup fitur terdiri dari daftar fitur, nama fitur pengenal catatan, nama fitur waktu acara, dan konfigurasi untuk toko online dan toko offline. 

Setiap fitur dalam grup fitur dapat memiliki salah satu dari jenis berikut: *String*, *Fractional*, atau *Integral*. Jika kolom dalam kerangka data yang diekspor Anda bukan salah satu dari jenis ini, itu defaultnya. `String` 

Berikut ini adalah contoh skema grup fitur.

```
column_schema = [
    {
        "name": "Height",
        "type": "long"
    },
    {
        "name": "Input",
        "type": "string"
    },
    {
        "name": "Output",
        "type": "string"
    },
    {
        "name": "Sum",
        "type": "string"
    },
    {
        "name": "Time",
        "type": "string"
    }
]
```

Selain itu, Anda harus menentukan nama pengenal catatan dan nama fitur waktu acara:
+ *Nama pengenal rekaman* adalah nama fitur yang nilainya secara unik mengidentifikasi catatan yang ditentukan di feature store. Hanya catatan terbaru per nilai pengenal yang disimpan di toko online. Nama fitur pengenal catatan harus menjadi salah satu nama definisi fitur.
+ *Nama fitur waktu acara* adalah nama fitur yang `EventTime` menyimpan catatan dalam grup fitur. An `EventTime` adalah titik waktu ketika peristiwa baru terjadi yang sesuai dengan pembuatan atau pembaruan catatan dalam suatu fitur. Semua catatan dalam grup fitur harus memiliki yang sesuai`EventTime`.

Notebook menggunakan konfigurasi ini untuk membuat grup fitur, memproses data Anda dalam skala besar, dan kemudian memasukkan data yang diproses ke toko fitur online dan offline Anda. Untuk mempelajari lebih lanjut, lihat [Sumber Data dan Penyerapan](https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store-ingest-data.html).

------

Notebook menggunakan konfigurasi ini untuk membuat grup fitur, memproses data Anda dalam skala besar, dan kemudian memasukkan data yang diproses ke toko fitur online dan offline Anda. Untuk mempelajari lebih lanjut, lihat [Sumber Data dan Penyerapan](https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store-ingest-data.html).

## Reparasi Transformasi ke Seluruh Dataset dan Ekspor Mereka
<a name="data-wrangler-data-export-fit-transform"></a>

Saat Anda mengimpor data, Data Wrangler menggunakan sampel data untuk menerapkan pengkodean. Secara default, Data Wrangler menggunakan 50.000 baris pertama sebagai sampel, tetapi Anda dapat mengimpor seluruh kumpulan data atau menggunakan metode pengambilan sampel yang berbeda. Untuk informasi selengkapnya, lihat [Impor](data-wrangler-import.md).

Transformasi berikut menggunakan data Anda untuk membuat kolom dalam kumpulan data:
+ [Mengkodekan Kategoris](data-wrangler-transform.md#data-wrangler-transform-cat-encode)
+ [Featurize Teks](data-wrangler-transform.md#data-wrangler-transform-featurize-text)
+ [Tangani Outlier](data-wrangler-transform.md#data-wrangler-transform-handle-outlier)
+ [Tangani Nilai yang Hilang](data-wrangler-transform.md#data-wrangler-transform-handle-missing)

Jika Anda menggunakan sampling untuk mengimpor data Anda, transformasi sebelumnya hanya menggunakan data dari sampel untuk membuat kolom. Transformasi mungkin tidak menggunakan semua data yang relevan. Misalnya, jika Anda menggunakan transformasi **Encode Categorical**, mungkin ada kategori di seluruh kumpulan data yang tidak ada dalam sampel.

Anda dapat menggunakan node tujuan atau notebook Jupyter untuk mereparasi transformasi ke seluruh kumpulan data. Ketika Data Wrangler mengekspor transformasi dalam aliran, itu menciptakan pekerjaan Pemrosesan. SageMaker Saat pekerjaan pemrosesan selesai, Data Wrangler menyimpan file berikut di lokasi Amazon S3 default atau lokasi S3 yang Anda tentukan:
+ File aliran Data Wrangler yang menentukan transformasi yang direparasi ke kumpulan data
+ Dataset dengan transformasi reparasi diterapkan padanya

Anda dapat membuka file aliran Data Wrangler dalam Data Wrangler dan menerapkan transformasi ke kumpulan data yang berbeda. Misalnya, jika Anda telah menerapkan transformasi ke kumpulan data pelatihan, Anda dapat membuka dan menggunakan file aliran Data Wrangler untuk menerapkan transformasi ke kumpulan data yang digunakan untuk inferensi.

Untuk informasi tentang penggunaan node tujuan untuk mereparasi transformasi dan ekspor, lihat halaman berikut:
+ [Ekspor ke Amazon S3](#data-wrangler-data-export-s3)
+ [Ekspor ke Toko SageMaker Fitur Amazon](#data-wrangler-data-export-feature-store)

Gunakan prosedur berikut untuk menjalankan notebook Jupyter untuk mereparasi transformasi dan mengekspor data.

Untuk menjalankan notebook Jupyter dan untuk mereparasi transformasi dan mengekspor aliran Data Wrangler Anda, lakukan hal berikut.

1. Pilih **\$1** di sebelah simpul yang ingin Anda ekspor.

1. Pilih **Ekspor ke**.

1. Pilih lokasi tempat Anda mengekspor data.

1. Untuk `refit_trained_params` objek, atur `refit` ke`True`.

1. Untuk `output_flow` bidang, tentukan nama file aliran output dengan transformasi reparasi.

1. Jalankan notebook Jupyter.

## Buat Jadwal untuk Memproses Data Baru Secara Otomatis
<a name="data-wrangler-data-export-schedule-job"></a>

Jika Anda memproses data secara berkala, Anda dapat membuat jadwal untuk menjalankan pekerjaan pemrosesan secara otomatis. Misalnya, Anda dapat membuat jadwal yang menjalankan pekerjaan pemrosesan secara otomatis saat Anda mendapatkan data baru. Untuk informasi selengkapnya tentang memproses pekerjaan, lihat [Ekspor ke Amazon S3](#data-wrangler-data-export-s3) dan[Ekspor ke Toko SageMaker Fitur Amazon](#data-wrangler-data-export-feature-store).

Saat Anda membuat pekerjaan, Anda harus menentukan peran IAM yang memiliki izin untuk membuat pekerjaan. Secara default, peran IAM yang Anda gunakan untuk mengakses Data Wrangler adalah. `SageMakerExecutionRole`

Izin berikut memungkinkan Data Wrangler mengakses EventBridge dan memungkinkan EventBridge untuk menjalankan pekerjaan pemrosesan:
+ Tambahkan kebijakan AWS Terkelola berikut ke peran eksekusi Amazon SageMaker Studio Classic yang memberikan izin kepada Data Wrangler untuk digunakan: EventBridge

  ```
  arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess
  ```

  Untuk informasi selengkapnya tentang kebijakan, lihat [kebijakan AWS terkelola untuk EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-use-identity-based.html#eb-full-access-policy).
+ Tambahkan kebijakan berikut ke peran IAM yang Anda tentukan saat membuat pekerjaan di Data Wrangler:

------
#### [ JSON ]

****  

  ```
  {
      "Version":"2012-10-17",		 	 	 
      "Statement": [
          {
              "Effect": "Allow",
              "Action": "sagemaker:StartPipelineExecution",
              "Resource": "arn:aws:sagemaker:us-east-1:111122223333:pipeline/data-wrangler-*"
          }
      ]
  }
  ```

------

  Jika Anda menggunakan peran IAM default, Anda menambahkan kebijakan sebelumnya ke peran eksekusi Amazon SageMaker Studio Classic.

  Tambahkan kebijakan kepercayaan berikut ke peran untuk memungkinkan untuk EventBridge mengasumsikannya.

  ```
  {
      "Effect": "Allow",
      "Principal": {
          "Service": "events.amazonaws.com"
      },
      "Action": "sts:AssumeRole"
  }
  ```

**penting**  
Saat Anda membuat jadwal, Data Wrangler membuat `eventRule` in. EventBridge Anda dikenakan biaya untuk aturan acara yang Anda buat dan instance yang digunakan untuk menjalankan pekerjaan pemrosesan.  
Untuk informasi tentang EventBridge harga, lihat [ EventBridge harga Amazon](https://aws.amazon.com/eventbridge/pricing/). Untuk informasi tentang memproses harga lowongan kerja, lihat [ SageMaker Harga Amazon](https://aws.amazon.com/sagemaker/pricing/).

Anda dapat mengatur jadwal menggunakan salah satu metode berikut:
+ [Ekspresi CRON](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html)
**catatan**  
Data Wrangler tidak mendukung ekspresi berikut:  
LW\$1
Singkatan untuk hari
Singkatan untuk bulan
+ [Ekspresi RATE](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html#eb-rate-expressions)
+ Berulang — Tetapkan interval per jam atau harian untuk menjalankan pekerjaan.
+ Waktu spesifik - Tetapkan hari dan waktu tertentu untuk menjalankan pekerjaan.

Bagian berikut menyediakan prosedur untuk menciptakan lapangan kerja.

------
#### [ CRON ]

Gunakan prosedur berikut untuk membuat jadwal dengan ekspresi CRON.

Untuk menentukan jadwal dengan ekspresi CRON, lakukan hal berikut.

1. Buka alur Data Wrangler Anda.

1. Pilih **Buat tugas**.

1. (Opsional) Untuk **tombol Output KMS**, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

1. Pilih **Berikutnya, 2. Konfigurasikan pekerjaan**.

1. Pilih **Jadwal Rekanan**.

1. Pilih **Buat jadwal baru**.

1. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Untuk **Run Frequency**, pilih **CRON**.

1. Tentukan ekspresi CRON yang valid.

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Jadwal saja** — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Jalankan**

------
#### [ RATE ]

Gunakan prosedur berikut untuk membuat jadwal dengan ekspresi RATE.

Untuk menentukan jadwal dengan ekspresi RATE, lakukan hal berikut.

1. Buka alur Data Wrangler Anda.

1. Pilih **Buat tugas**.

1. (Opsional) Untuk **tombol Output KMS**, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

1. Pilih **Berikutnya, 2. Konfigurasikan pekerjaan**.

1. Pilih **Jadwal Rekanan**.

1. Pilih **Buat jadwal baru**.

1. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Untuk **Run Frequency**, pilih **Rate**.

1. Untuk **Nilai**, tentukan bilangan bulat.

1. Untuk **Unit**, pilih salah satu dari berikut ini:
   + **Menit**
   + **Jam**
   + **Hari**

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Jadwal saja** — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Jalankan**

------
#### [ Recurring ]

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan secara berulang.

Untuk menentukan jadwal dengan ekspresi CRON, lakukan hal berikut.

1. Buka alur Data Wrangler Anda.

1. Pilih **Buat tugas**.

1. (Opsional) Untuk **tombol Output KMS**, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

1. Pilih **Berikutnya, 2. Konfigurasikan pekerjaan**.

1. Pilih **Jadwal Rekanan**.

1. Pilih **Buat jadwal baru**.

1. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Untuk **Run Frequency**, pastikan **Recurring** dipilih secara default.

1. Untuk **Setiap x jam**, tentukan frekuensi per jam yang dijalankan pekerjaan pada siang hari. Nilai yang valid adalah bilangan bulat dalam rentang inklusif dan**1**. **23**

1. Untuk **Pada hari**, pilih salah satu opsi berikut:
   + **Setiap hari**
   + **Akhir pekan**
   + **Hari kerja**
   + **Pilih Hari**

   1. (Opsional) Jika Anda telah memilih **Pilih** Hari, pilih hari dalam seminggu untuk menjalankan pekerjaan.
**catatan**  
Jadwal diatur ulang setiap hari. Jika Anda menjadwalkan pekerjaan untuk dijalankan setiap lima jam, itu berjalan pada waktu-waktu berikut di siang hari:  
00:00
05:00
10:00
15:00
20:00

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Jadwal saja** — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Jalankan**

------
#### [ Specific time ]

Gunakan prosedur berikut untuk membuat jadwal yang menjalankan pekerjaan pada waktu tertentu.

Untuk menentukan jadwal dengan ekspresi CRON, lakukan hal berikut.

1. Buka alur Data Wrangler Anda.

1. Pilih **Buat tugas**.

1. (Opsional) Untuk **tombol Output KMS**, tentukan AWS KMS kunci untuk mengkonfigurasi output pekerjaan.

1. Pilih **Berikutnya, 2. Konfigurasikan pekerjaan**.

1. Pilih **Jadwal Rekanan**.

1. Pilih **Buat jadwal baru**.

1. Untuk **Nama Jadwal**, tentukan nama jadwal.

1. Pilih **Buat**.

1. (Opsional) Pilih **Tambahkan jadwal lain** untuk menjalankan pekerjaan pada jadwal tambahan.
**catatan**  
Anda dapat mengaitkan maksimal dua jadwal. Jadwal independen dan tidak mempengaruhi satu sama lain kecuali waktu tumpang tindih.

1. Pilih salah satu cara berikut:
   + **Jadwalkan dan jalankan sekarang** — Data Wrangler pekerjaan berjalan segera dan kemudian berjalan sesuai jadwal.
   + **Jadwal saja** — Data Wrangler pekerjaan hanya berjalan pada jadwal yang Anda tentukan.

1. Pilih **Jalankan**

------

Anda dapat menggunakan Amazon SageMaker Studio Classic melihat pekerjaan yang dijadwalkan untuk dijalankan. Pekerjaan pemrosesan Anda berjalan di dalam Pipelines. Setiap pekerjaan pemrosesan memiliki pipa sendiri. Ini berjalan sebagai langkah pemrosesan di dalam pipa. Anda dapat melihat jadwal yang telah Anda buat dalam pipeline. Untuk informasi tentang melihat pipeline, lihat[Lihat detail pipa](pipelines-studio-list.md).

Gunakan prosedur berikut untuk melihat pekerjaan yang telah Anda jadwalkan.

Untuk melihat pekerjaan yang telah Anda jadwalkan, lakukan hal berikut.

1. Buka Amazon SageMaker Studio Classic.

1. Buka Pipa

1. Lihat saluran pipa untuk pekerjaan yang telah Anda buat.

   Pipeline yang menjalankan pekerjaan menggunakan nama pekerjaan sebagai awalan. Misalnya, jika Anda telah membuat pekerjaan bernama`housing-data-feature-enginnering`, nama pipeline adalah`data-wrangler-housing-data-feature-engineering`.

1. Pilih pipeline yang berisi pekerjaan Anda.

1. Lihat status jaringan pipa. Pipelines dengan **Status** **Sukses telah menjalankan pekerjaan pemrosesan dengan sukses**.

Untuk menghentikan pekerjaan pemrosesan berjalan, lakukan hal berikut:

Untuk menghentikan pekerjaan pemrosesan agar tidak berjalan, hapus aturan acara yang menentukan jadwal. Menghapus aturan acara menghentikan semua pekerjaan yang terkait dengan jadwal berjalan. Untuk informasi tentang menghapus aturan, lihat [Menonaktifkan atau menghapus](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-delete-rule.html) aturan Amazon. EventBridge 

Anda dapat menghentikan dan menghapus saluran pipa yang terkait dengan jadwal juga. Untuk informasi tentang menghentikan pipa, lihat [StopPipelineExecution](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopPipelineExecution.html). Untuk informasi tentang menghapus pipeline, lihat [DeletePipeline](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DeletePipeline.html#API_DeletePipeline_RequestSyntax).

# Menggunakan Widget Persiapan Data Interaktif di Notebook Amazon SageMaker Studio Classic untuk Mendapatkan Wawasan Data
<a name="data-wrangler-interactively-prepare-data-notebook"></a>

Gunakan widget persiapan data Wrangler Data untuk berinteraksi dengan data Anda, mendapatkan visualisasi, menjelajahi wawasan yang dapat ditindaklanjuti, dan memperbaiki masalah kualitas data. 

Anda dapat mengakses widget persiapan data dari notebook Amazon SageMaker Studio Classic. Untuk setiap kolom, widget membuat visualisasi yang membantu Anda lebih memahami distribusinya. Jika kolom memiliki masalah kualitas data, peringatan muncul di tajuknya.

Untuk melihat masalah kualitas data, pilih header kolom yang menunjukkan peringatan. Anda dapat menggunakan informasi yang Anda dapatkan dari wawasan dan visualisasi untuk menerapkan transformasi bawaan widget untuk membantu Anda memperbaiki masalah. 

Misalnya, widget mungkin mendeteksi bahwa Anda memiliki kolom yang hanya memiliki satu nilai unik dan menunjukkan peringatan kepada Anda. Peringatan memberikan opsi untuk menjatuhkan kolom dari kumpulan data.

## Memulai dengan menjalankan widget
<a name="data-wrangler-interactively-prepare-data-notebook-getting-started"></a>

Gunakan informasi berikut untuk membantu Anda memulai menjalankan buku catatan.

Buka buku catatan di Amazon SageMaker Studio Classic. Untuk informasi tentang membuka buku catatan, lihat[Membuat atau Membuka Notebook Amazon SageMaker Studio Classic](notebooks-create-open.md).

**penting**  
Untuk menjalankan widget, notebook harus menggunakan salah satu gambar berikut:  
Python 3 (Ilmu Data) dengan Python 3.7
Python 3 (Ilmu Data 2.0) dengan Python 3.8
Python 3 (Ilmu Data 3.0) dengan Python 3.10
SparkAnalytics 1.0
SparkAnalytics 2.0
Untuk informasi selengkapnya tentang gambar, lihat[SageMaker Gambar Amazon Tersedia untuk Digunakan Dengan Notebook Studio Classic](notebooks-available-images.md).

Gunakan kode berikut untuk mengimpor widget persiapan data dan panda. Widget menggunakan kerangka data panda untuk menganalisis data Anda.

```
import pandas as pd
import sagemaker_datawrangler
```

Contoh kode berikut memuat file ke dalam kerangka data yang disebut. `df`

```
df = pd.read_csv("example-dataset.csv")
```

Anda dapat menggunakan kumpulan data dalam format apa pun yang dapat Anda muat sebagai objek kerangka data panda. Untuk informasi selengkapnya tentang format panda, lihat [Alat IO (teks, CSV, HDF5,...](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)).

Sel berikut menjalankan `df` variabel untuk memulai widget.

```
df
```

Bagian atas kerangka data memiliki opsi berikut:
+ **Lihat tabel Pandas** - Beralih antara visualisasi interaktif dan tabel panda.
+ **Gunakan semua baris dalam kumpulan data Anda untuk menghitung wawasan. Menggunakan seluruh kumpulan data dapat meningkatkan waktu yang diperlukan untuk menghasilkan wawasan.** — Jika Anda tidak memilih opsi, Data Wrangler menghitung wawasan untuk 10.000 baris pertama kumpulan data.

Rangka data menunjukkan 1000 baris pertama dari kumpulan data. Setiap header kolom memiliki bagan batang bertumpuk yang menunjukkan karakteristik kolom. Ini menunjukkan proporsi nilai yang valid, nilai yang tidak valid, dan nilai yang hilang. Anda dapat mengarahkan kursor ke bagian yang berbeda dari bagan batang bertumpuk untuk mendapatkan persentase yang dihitung.

Setiap kolom memiliki visualisasi di header. Berikut ini menunjukkan jenis visualisasi yang dapat dimiliki kolom:
+ Kategoris - Bagan batang
+ Numerik - Histogram
+ Datetime - Bagan batang
+ Teks - Bagan batang

Untuk setiap visualisasi, widget persiapan data menyoroti outlier dalam warna oranye.

Ketika Anda memilih kolom, itu membuka panel samping. Panel samping menunjukkan tab **Wawasan**. Panel menyediakan hitungan untuk jenis nilai berikut:
+ Nilai tidak valid - Nilai yang tipenya tidak cocok dengan tipe kolom.
+ Nilai yang hilang — Nilai yang hilang, seperti `NaN` atau`None`.
+ Nilai yang valid - Nilai yang tidak hilang atau tidak valid.

Untuk kolom numerik, tab **Wawasan** menampilkan statistik ringkasan berikut:
+ Minimum — Nilai terkecil.
+ Maksimum — Nilai terbesar.
+ Mean — Mean dari nilai-nilai.
+ Mode — Nilai yang paling sering muncul.
+ Standar deviasi — Standar deviasi dari nilai-nilai.

Untuk kolom kategoris, tab **Wawasan** menampilkan statistik ringkasan berikut:
+ Nilai unik — Jumlah nilai unik di kolom.
+ Top — Nilai yang paling sering muncul.

Kolom yang memiliki ikon peringatan di header mereka memiliki masalah kualitas data. Memilih kolom membuka tab **Kualitas data** yang dapat Anda gunakan untuk menemukan transformasi untuk membantu Anda memperbaiki masalah. Peringatan memiliki salah satu tingkat keparahan berikut:
+ Rendah — Masalah yang mungkin tidak memengaruhi analisis Anda, tetapi dapat berguna untuk diperbaiki.
+ Medium — Masalah yang mungkin memengaruhi analisis Anda, tetapi kemungkinan tidak penting untuk diperbaiki.
+ Tinggi - Masalah berat yang sangat kami sarankan untuk diperbaiki.

**catatan**  
Widget mengurutkan kolom untuk menunjukkan nilai yang memiliki masalah kualitas data di bagian atas kerangka data. Ini juga menyoroti nilai-nilai yang menyebabkan masalah. Warna penyorotan sesuai dengan tingkat keparahan.

Di bawah **TRANSFORMASI YANG DISARANKAN**, Anda dapat memilih transformasi untuk memperbaiki masalah kualitas data. Widget dapat menawarkan beberapa transformasi yang dapat memperbaiki masalah. Ini dapat menawarkan rekomendasi untuk transformasi yang paling cocok untuk masalah. Anda dapat memindahkan kursor ke atas transformasi untuk mendapatkan informasi lebih lanjut tentangnya.

Untuk menerapkan transformasi ke kumpulan data, pilih **Terapkan dan ekspor kode**. Transformasi memodifikasi kumpulan data dan memperbarui visualisasi dengan nilai yang dimodifikasi. Kode untuk transformasi muncul di sel notebook berikut. Jika Anda menerapkan transformasi tambahan ke kumpulan data, widget menambahkan transformasi ke sel. Anda dapat menggunakan kode yang dihasilkan widget untuk melakukan hal berikut:
+ Sesuaikan agar lebih sesuai dengan kebutuhan Anda.
+ Gunakan dalam alur kerja Anda sendiri.

Anda dapat mereproduksi semua transformasi yang telah Anda buat dengan menjalankan ulang semua sel di buku catatan.

Widget dapat memberikan wawasan dan peringatan untuk kolom target. Kolom target adalah kolom yang Anda coba prediksi. Gunakan prosedur berikut untuk mendapatkan wawasan kolom target.

Untuk mendapatkan wawasan kolom target, lakukan hal berikut.

1. Pilih kolom yang Anda gunakan sebagai kolom target.

1. Pilih **Pilih sebagai kolom target**.

1. Pilih jenis masalah. Wawasan dan peringatan widget disesuaikan dengan jenis masalah. Berikut ini adalah jenis masalahnya:
   + **Klasifikasi** — Kolom target memiliki data kategoris.
   + **Regresi** — Kolom target memiliki data numerik.

1. Pilih **Jalankan**.

1. (Opsional) Di bawah **Wawasan Kolom Target**, pilih salah satu transformasi yang disarankan.

## Referensi untuk wawasan dan transformasi di widget
<a name="data-wrangler-notebook-dataprep-assistant-reference"></a>

Untuk kolom fitur (kolom yang bukan kolom target), Anda bisa mendapatkan wawasan berikut untuk memperingatkan Anda tentang masalah dengan kumpulan data Anda.
+ **Nilai hilang** - Kolom memiliki nilai yang hilang seperti`None`, `NaN` (bukan angka), atau `NaT` (bukan stempel waktu). Banyak algoritma pembelajaran mesin tidak mendukung nilai yang hilang dalam data input. Oleh karena itu, mengisinya atau menjatuhkan baris dengan data yang hilang merupakan langkah persiapan data yang penting. Jika Anda melihat peringatan nilai yang hilang, Anda dapat menggunakan salah satu transformasi berikut untuk memperbaiki masalah.
  + **Jatuhkan hilang** - Menjatuhkan baris dengan nilai yang hilang. Sebaiknya jatuhkan baris saat persentase baris dengan data yang hilang kecil dan memasukkan nilai yang hilang tidak sesuai. 
  + **Ganti dengan nilai baru** - Mengganti nilai tekstual yang hilang dengan. `Other` Anda dapat mengubah `Other` ke nilai yang berbeda dalam kode output. Mengganti nilai numerik yang hilang dengan 0.
  + **Ganti dengan mean** - Mengganti nilai yang hilang dengan rata-rata kolom.
  + **Ganti dengan median** - Mengganti nilai yang hilang dengan median kolom.
  + **Jatuhkan kolom** - Jatuhkan kolom dengan nilai yang hilang dari kumpulan data. Sebaiknya jatuhkan seluruh kolom ketika ada persentase baris yang tinggi dengan data yang hilang.
+ **Nilai hilang yang disamarkan - Kolom telah menyamarkan nilai** yang hilang. Nilai hilang yang disamarkan adalah nilai yang tidak secara eksplisit dikodekan sebagai nilai yang hilang. Misalnya, alih-alih menggunakan a `NaN` untuk menunjukkan nilai yang hilang, nilainya bisa jadi`Placeholder`. Anda dapat menggunakan salah satu transformasi berikut untuk menangani nilai yang hilang:
  + **Jatuhkan hilang** - Menjatuhkan baris dengan nilai yang hilang
  + **Ganti dengan nilai baru** - Mengganti nilai tekstual yang hilang dengan. `Other` Anda dapat mengubah `Other` ke nilai yang berbeda dalam kode output. Mengganti nilai numerik yang hilang dengan 0.
+ **Kolom konstan** - Kolom hanya memiliki satu nilai. Oleh karena itu tidak memiliki kekuatan prediksi. Kami sangat menyarankan menggunakan transformasi **kolom Drop** untuk menjatuhkan kolom dari kumpulan data.
+ **Kolom ID** - Kolom tidak memiliki nilai berulang. Semua nilai dalam kolom adalah unik. Mereka mungkin salah satu IDs atau kunci database. Tanpa informasi tambahan, kolom tidak memiliki kekuatan prediksi. Kami sangat menyarankan menggunakan transformasi **kolom Drop** untuk menjatuhkan kolom dari kumpulan data.
+ **Kardinalitas tinggi** - Kolom memiliki persentase nilai unik yang tinggi. Kardinalitas tinggi membatasi kekuatan prediksi kolom kategoris. Periksa pentingnya kolom dalam analisis Anda dan pertimbangkan untuk menggunakan transformasi **kolom Drop** untuk menjatuhkannya.

Untuk kolom target, Anda bisa mendapatkan wawasan berikut untuk memperingatkan Anda tentang masalah dengan kumpulan data Anda. Anda dapat menggunakan transformasi yang disarankan yang disertakan dengan peringatan untuk memperbaiki masalah.
+ **Tipe data campuran dalam target (Regresi)** - Ada beberapa nilai non-numerik di kolom target. Mungkin ada kesalahan entri data. Sebaiknya hapus baris yang memiliki nilai yang tidak dapat dikonversi.
+ **Label yang sering** — Nilai tertentu di kolom target muncul lebih sering daripada yang normal dalam konteks regresi. Mungkin ada kesalahan dalam pengumpulan atau pemrosesan data. Kategori yang sering muncul mungkin menunjukkan bahwa nilai tersebut digunakan sebagai nilai default atau bahwa itu adalah placeholder untuk nilai yang hilang. Sebaiknya gunakan **Ganti dengan transformasi nilai baru** untuk mengganti nilai yang hilang dengan`Other`.
+ **Terlalu sedikit contoh per kelas** - Kolom target memiliki kategori yang jarang muncul. Beberapa kategori tidak memiliki cukup baris agar kolom target berguna. Anda dapat menggunakan salah satu transformasi berikut:
  + **Jatuhkan target langka** — Menjatuhkan nilai unik dengan kurang dari sepuluh pengamatan. Misalnya, turunkan nilainya `cat` jika muncul sembilan kali di kolom.
  + **Ganti target langka** — Mengganti kategori yang jarang muncul di kumpulan data dengan nilainya. `Other`
+ **Kelas terlalu tidak seimbang (klasifikasi multi-kelas)** — Ada kategori dalam kumpulan data yang muncul jauh lebih sering daripada kategori lainnya. Ketidakseimbangan kelas dapat mempengaruhi akurasi prediksi. Untuk prediksi yang paling akurat, kami sarankan memperbarui kumpulan data dengan baris yang memiliki kategori yang saat ini lebih jarang muncul.
+ **Sejumlah besar classes/too banyak kelas** — Ada sejumlah besar kelas di kolom target. Memiliki banyak kelas dapat menghasilkan waktu pelatihan yang lebih lama atau kualitas prediksi yang buruk. Kami merekomendasikan melakukan salah satu dari yang berikut:
  + Mengelompokkan beberapa kategori ke dalam kategori mereka sendiri. Misalnya, jika enam kategori terkait erat, kami sarankan menggunakan satu kategori untuk mereka.
  + Menggunakan algoritma ML yang tahan terhadap beberapa kategori.

# Keamanan dan Izin
<a name="data-wrangler-security"></a>

Saat Anda melakukan kueri data dari Athena atau Amazon Redshift, kumpulan data yang ditanyakan akan disimpan secara otomatis di bucket AI S3 SageMaker default untuk Wilayah AWS tempat Anda menggunakan Studio Classic. *Selain itu, saat Anda mengekspor Notebook Jupyter dari Amazon SageMaker Data Wrangler dan menjalankannya, aliran data, atau file.flow, disimpan ke bucket default yang sama, di bawah awalan data\$1wrangler\$1flows.*

Untuk kebutuhan keamanan tingkat tinggi, Anda dapat mengonfigurasi kebijakan bucket yang membatasi AWS peran yang memiliki akses ke bucket SageMaker AI S3 default ini. Gunakan bagian berikut untuk menambahkan jenis kebijakan ini ke bucket S3. Untuk mengikuti petunjuk di halaman ini, gunakan AWS Command Line Interface (AWS CLI). Untuk mempelajari caranya, lihat [Mengkonfigurasi AWS CLI](https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-configure.html) di Panduan Pengguna IAM.

Selain itu, Anda perlu memberikan setiap peran IAM yang menggunakan izin Data Wrangler untuk mengakses sumber daya yang diperlukan. Jika Anda tidak memerlukan izin terperinci untuk peran IAM yang Anda gunakan untuk mengakses Data Wrangler, Anda dapat menambahkan kebijakan terkelola IAM [https://console.aws.amazon.com/iam/home?#/policies/arn:aws:iam::aws:policy/AmazonSageMakerFullAccess](https://console.aws.amazon.com/iam/home?#/policies/arn:aws:iam::aws:policy/AmazonSageMakerFullAccess), ke peran IAM yang Anda gunakan untuk membuat pengguna Studio Classic. Kebijakan ini memberi Anda izin penuh untuk menggunakan Data Wrangler. Jika Anda memerlukan izin yang lebih terperinci, lihat bagian,. [Berikan Izin Peran IAM untuk Menggunakan Data Wrangler](#data-wrangler-security-iam-policy)

## Menambahkan Kebijakan Bucket Untuk Membatasi Akses ke Kumpulan Data yang Diimpor ke Data Wrangler
<a name="data-wrangler-security-bucket-policy"></a>

Anda dapat menambahkan kebijakan ke bucket S3 yang berisi resource Data Wrangler menggunakan kebijakan bucket Amazon S3. Sumber daya yang diunggah Data Wrangler ke bucket SageMaker AI S3 default Anda di AWS Wilayah yang Anda gunakan Studio Classic termasuk yang berikut:
+ Menanyakan hasil Amazon Redshift. Ini disimpan di bawah awalan *redshift/*.
+ Menanyakan hasil Athena. Ini disimpan di bawah awalan *athena/.* 
+ File.flow yang diunggah ke Amazon S3 saat Anda menjalankan Jupyter Notebook Data Wrangler yang diekspor dihasilkan. Ini disimpan di bawah awalan *data\$1wrangler\$1flows/*.

Gunakan prosedur berikut untuk membuat kebijakan bucket S3 yang dapat Anda tambahkan untuk membatasi akses peran IAM ke bucket tersebut. Untuk mempelajari cara menambahkan kebijakan ke bucket S3, lihat [Bagaimana cara menambahkan kebijakan Bucket S3?](https://docs.aws.amazon.com/AmazonS3/latest/user-guide/add-bucket-policy.html) .

**Untuk menyiapkan kebijakan bucket pada bucket S3 yang menyimpan resource Data Wrangler Anda:**

1. Konfigurasikan satu atau beberapa peran IAM yang Anda inginkan untuk dapat mengakses Data Wrangler.

1. Buka command prompt atau shell. Untuk setiap peran yang Anda buat, ganti *role-name* dengan nama peran dan jalankan yang berikut ini:

   ```
   $ aws iam get-role --role-name role-name
   ```

   Dalam tanggapan, Anda melihat `RoleId` string yang dimulai dengan`AROA`. Salin string ini. 

1. Tambahkan kebijakan berikut ke bucket default SageMaker AI di AWS Wilayah tempat Anda menggunakan Data Wrangler. Ganti *region* dengan AWS Wilayah tempat bucket berada, dan *account-id* dengan ID AWS akun Anda. Ganti `userId` s dimulai *AROAEXAMPLEID* dengan IDs AWS peran yang ingin Anda berikan izin untuk menggunakan Data Wrangler. 

------
#### [ JSON ]

****  

   ```
   {
     "Version":"2012-10-17",		 	 	 
     "Statement": [
       {
         "Effect": "Deny",
         "Principal": "*",
         "Action": "s3:*",
         "Resource": [
           "arn:aws:s3:::sagemaker-us-east-1-111122223333/data_wrangler_flows/",
           "arn:aws:s3:::sagemaker-us-east-1-111122223333/data_wrangler_flows/*",
           "arn:aws:s3:::sagemaker-us-east-1-111122223333/athena",
           "arn:aws:s3:::sagemaker-us-east-1-111122223333/athena/*",
           "arn:aws:s3:::sagemaker-us-east-1-111122223333/redshift",
           "arn:aws:s3:::sagemaker-us-east-1-111122223333/redshift/*"
           
         ],
         "Condition": {
           "StringNotLike": {
             "aws:userId": [
               "AROAEXAMPLEID_1:*",
               "AROAEXAMPLEID_2:*"
             ]
           }
         }
       }
     ]
   }
   ```

------

## Buat Daftar Izinkan untuk Data Wrangler
<a name="data-wrangler-security-allowlist"></a>

Setiap kali pengguna mulai menjalankan Data Wrangler dari antarmuka pengguna Amazon SageMaker Studio Classic, mereka melakukan panggilan ke antarmuka pemrograman aplikasi SageMaker AI (API) untuk membuat aplikasi Data Wrangler.

Organisasi Anda mungkin tidak memberikan izin kepada pengguna Anda untuk melakukan panggilan API tersebut secara default. Untuk memberikan izin, Anda harus membuat dan melampirkan kebijakan ke peran IAM pengguna menggunakan templat kebijakan berikut: Contoh Daftar Izinkan [Data Wrangler](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/DataWranglerAllowListExample.txt).

**catatan**  
Contoh kebijakan sebelumnya hanya memberi pengguna Anda akses ke aplikasi Data Wrangler.

Untuk informasi tentang membuat kebijakan, lihat [Membuat kebijakan di tab JSON](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create-console.html#access_policies_create-json-editor). **Saat Anda membuat kebijakan, salin dan tempel kebijakan JSON dari [Contoh Daftar Izinkan Data Wrangler](https://s3.us-west-2.amazonaws.com/amazon-sagemaker-data-wrangler-documentation-artifacts/DataWranglerAllowListExample.txt) di tab JSON.**

**penting**  
Hapus kebijakan IAM apa pun yang mencegah pengguna menjalankan operasi berikut:  
[CreateApp](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_CreateApp.html)
[DescribeApp](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeApp.html)
Jika Anda tidak menghapus kebijakan, pengguna Anda masih dapat terpengaruh olehnya.

Setelah membuat kebijakan menggunakan templat, lampirkan ke peran IAM pengguna Anda. Untuk informasi tentang melampirkan kebijakan, lihat [Menambahkan izin identitas IAM (](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html#add-policies-console)konsol).

## Berikan Izin Peran IAM untuk Menggunakan Data Wrangler
<a name="data-wrangler-security-iam-policy"></a>

Anda dapat memberikan izin peran IAM untuk menggunakan Data Wrangler dengan kebijakan umum yang dikelola IAM,. [https://console.aws.amazon.com/iam/home?#/policies/arn:aws:iam::aws:policy/AmazonSageMakerFullAccess](https://console.aws.amazon.com/iam/home?#/policies/arn:aws:iam::aws:policy/AmazonSageMakerFullAccess) Ini adalah kebijakan umum yang mencakup [izin](https://docs.aws.amazon.com/sagemaker/latest/dg/security-iam-awsmanpol-AmazonSageMakerFullAccess.html) yang diperlukan untuk menggunakan semua layanan SageMaker AI. Kebijakan ini memberikan peran IAM akses penuh ke Data Wrangler. Anda harus mengetahui hal-hal berikut saat menggunakan `AmazonSageMakerFullAccess` untuk memberikan akses ke Data Wrangler:
+ Jika Anda mengimpor data dari Amazon Redshift, nama **Pengguna Database** harus memiliki awalan. `sagemaker_access`
+ Kebijakan terkelola ini hanya memberikan izin untuk mengakses bucket dengan salah satu dari berikut ini dalam nama:`SageMaker AI`,, `SageMaker AI``sagemaker`, atau. `aws-glue` Jika ingin menggunakan Data Wrangler untuk mengimpor dari bucket S3 tanpa frasa ini dalam nama, lihat bagian terakhir di halaman ini untuk mempelajari cara memberikan izin kepada entitas IAM untuk mengakses bucket S3 Anda.

Jika Anda memiliki kebutuhan keamanan tinggi, Anda dapat melampirkan kebijakan di bagian ini ke entitas IAM untuk memberikan izin yang diperlukan untuk menggunakan Data Wrangler.

Jika Anda memiliki kumpulan data di Amazon Redshift atau Athena yang perlu diimpor oleh peran IAM dari Data Wrangler, Anda harus menambahkan kebijakan ke entitas tersebut untuk mengakses sumber daya ini. Kebijakan berikut adalah kebijakan paling ketat yang dapat Anda gunakan untuk memberikan izin peran IAM untuk mengimpor data dari Amazon Redshift dan Athena. 

Untuk mempelajari cara melampirkan kebijakan kustom ke peran IAM, lihat [Mengelola kebijakan IAM di Panduan](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage.html#create-managed-policy-console) Pengguna IAM.

**Contoh kebijakan untuk memberikan akses ke impor dataset Athena**

Kebijakan berikut mengasumsikan bahwa peran IAM memiliki izin untuk mengakses bucket S3 yang mendasari tempat data disimpan melalui kebijakan IAM terpisah.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "athena:ListDataCatalogs",
                "athena:ListDatabases",
                "athena:ListTableMetadata",
                "athena:GetQueryExecution",
                "athena:GetQueryResults",
                "athena:StartQueryExecution",
                "athena:StopQueryExecution"
            ],
            "Resource": [
                "*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "glue:CreateTable"
            ],
            "Resource": [
                "arn:aws:glue:*:*:table/*/sagemaker_tmp_*",
                "arn:aws:glue:*:*:table/sagemaker_featurestore/*",
                "arn:aws:glue:*:*:catalog",
                "arn:aws:glue:*:*:database/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "glue:DeleteTable"
            ],
            "Resource": [
                "arn:aws:glue:*:*:table/*/sagemaker_tmp_*",
                "arn:aws:glue:*:*:catalog",
                "arn:aws:glue:*:*:database/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "glue:GetDatabases",
                "glue:GetTable",
                "glue:GetTables"
            ],
            "Resource": [
                "arn:aws:glue:*:*:table/*",
                "arn:aws:glue:*:*:catalog",
                "arn:aws:glue:*:*:database/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "glue:CreateDatabase",
                "glue:GetDatabase"
            ],
            "Resource": [
                "arn:aws:glue:*:*:catalog",
                "arn:aws:glue:*:*:database/sagemaker_featurestore",
                "arn:aws:glue:*:*:database/sagemaker_processing",
                "arn:aws:glue:*:*:database/default",
                "arn:aws:glue:*:*:database/sagemaker_data_wrangler"
            ]
        }
    ]
}
```

------

****Contoh kebijakan untuk memberikan akses ke impor dataset Amazon Redshift****

Kebijakan berikut memberikan izin untuk menyiapkan sambungan Amazon Redshift ke Data Wrangler menggunakan pengguna database yang memiliki awalan dalam `sagemaker_access` nama. Untuk memberikan izin untuk terhubung menggunakan pengguna database tambahan, tambahkan entri tambahan `"Resources"` di bawah kebijakan berikut. Kebijakan berikut mengasumsikan bahwa peran IAM memiliki izin untuk mengakses bucket S3 yang mendasari tempat data disimpan melalui kebijakan IAM terpisah, jika berlaku. 

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "redshift-data:ExecuteStatement",
                "redshift-data:DescribeStatement",
                "redshift-data:CancelStatement",
                "redshift-data:GetStatementResult",
                "redshift-data:ListSchemas",
                "redshift-data:ListTables"
            ],
            "Resource": [
                "*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "redshift:GetClusterCredentials"
            ],
            "Resource": [
                "arn:aws:redshift:*:*:dbuser:*/sagemaker_access*",
                "arn:aws:redshift:*:*:dbname:*"
            ]
        }
    ]
}
```

------

**Kebijakan untuk memberikan akses ke bucket S3**

Jika kumpulan data disimpan di Amazon S3, Anda dapat memberikan izin peran IAM untuk mengakses bucket ini dengan kebijakan yang serupa dengan berikut ini. Contoh ini memberikan akses baca-tulis terprogram ke bucket bernama. *test*

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Action": ["s3:ListBucket"],
      "Resource": ["arn:aws:s3:::test"]
    },
    {
      "Effect": "Allow",
      "Action": [
        "s3:PutObject",
        "s3:GetObject",
        "s3:DeleteObject"
      ],
      "Resource": ["arn:aws:s3:::test/*"]
    }
  ]
}
```

------

Untuk mengimpor data dari Athena dan Amazon Redshift, Anda harus memberikan izin peran IAM untuk mengakses awalan berikut di bawah bucket Amazon S3 default di Region Data Wrangler yang AWS digunakan:,. `athena/` `redshift/` Jika bucket Amazon S3 default belum ada di AWS Wilayah, Anda juga harus memberikan izin peran IAM untuk membuat bucket di wilayah ini.

Selain itu, jika Anda ingin peran IAM dapat menggunakan opsi ekspor pekerjaan Amazon SageMaker Feature Store, Pipelines, dan Data Wrangler, Anda harus memberikan akses ke awalan `data_wrangler_flows/` di bucket ini.

 Data Wrangler menggunakan `redshift/` awalan `athena/` dan untuk menyimpan file pratinjau dan dataset yang diimpor. Untuk mempelajari selengkapnya, lihat [Penyimpanan Data yang Diimpor](data-wrangler-import.md#data-wrangler-import-storage).

Data Wrangler menggunakan `data_wrangler_flows/` awalan untuk menyimpan file.flow saat Anda menjalankan Notebook Jupyter yang diekspor dari Data Wrangler. Untuk mempelajari selengkapnya, lihat [Ekspor](data-wrangler-data-export.md).

Gunakan kebijakan yang serupa dengan berikut ini untuk memberikan izin yang dijelaskan dalam paragraf sebelumnya.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:PutObject"
            ],
            "Resource": [
                "arn:aws:s3:::sagemaker-us-east-1-111122223333/data_wrangler_flows/",
                "arn:aws:s3:::sagemaker-us-east-1-111122223333/data_wrangler_flows/*",
                "arn:aws:s3:::sagemaker-us-east-1-111122223333/athena",
                "arn:aws:s3:::sagemaker-us-east-1-111122223333/athena/*",
                "arn:aws:s3:::sagemaker-us-east-1-111122223333/redshift",
                "arn:aws:s3:::sagemaker-us-east-1-111122223333/redshift/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "s3:CreateBucket",
                "s3:ListBucket"
            ],
            "Resource": "arn:aws:s3:::sagemaker-us-east-1-111122223333"
        },
        {
            "Effect": "Allow",
            "Action": [
                "s3:ListAllMyBuckets",
                "s3:GetBucketLocation"
            ],
            "Resource": "*"
        }
    ]
}
```

------

Anda juga dapat mengakses data di bucket Amazon S3 dari AWS akun lain dengan menentukan URI bucket Amazon S3. Untuk melakukannya, kebijakan IAM yang memberikan akses ke bucket Amazon S3 di akun lain harus menggunakan kebijakan yang mirip dengan contoh berikut, `BucketFolder` di mana direktori spesifik di bucket pengguna. `UserBucket` Kebijakan ini harus ditambahkan ke pengguna yang memberikan akses ke bucket mereka untuk pengguna lain. 

------
#### [ JSON ]

****  

```
{
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:PutObject",
                "s3:PutObjectAcl"
            ],
            "Resource": "arn:aws:s3:::UserBucket/BucketFolder/*"
            },
                {
                "Effect": "Allow",
                "Action": [
                    "s3:ListBucket"
                ],
                "Resource": "arn:aws:s3:::UserBucket",
                "Condition": {
                "StringLike": {
                    "s3:prefix": [
                    "BucketFolder/*"
                    ]
                }
            }
        } 
    ]
}
```

------

Pengguna yang mengakses bucket (bukan pemilik bucket) harus menambahkan kebijakan yang mirip dengan contoh berikut kepada penggunanya. Perhatikan bahwa `AccountX` dan `TestUser` di bawah ini mengacu pada pemilik bucket dan penggunanya masing-masing.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "AWS": "arn:aws:iam::111122223333:user/TestUser"
            },
            "Action": [
                "s3:GetObject",
                "s3:PutObject",
                "s3:PutObjectAcl"
            ],
            "Resource": [
                "arn:aws:s3:::UserBucket/BucketFolder/*"
            ]
        },
        {
            "Effect": "Allow",
            "Principal": {
                "AWS": "arn:aws:iam::111122223333:user/TestUser"
            },
            "Action": [
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::UserBucket"
            ]
        }
    ]
}
```

------

**Contoh kebijakan untuk memberikan akses untuk menggunakan SageMaker AI Studio**

Gunakan kebijakan seperti berikut ini untuk membuat peran eksekusi IAM yang dapat digunakan untuk menyiapkan instance Studio Classic. 

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "sagemaker:CreatePresignedDomainUrl",
                "sagemaker:DescribeDomain",
                "sagemaker:ListDomains",
                "sagemaker:DescribeUserProfile",
                "sagemaker:ListUserProfiles",
                "sagemaker:*App",
                "sagemaker:ListApps"
            ],
            "Resource": "*"
        }
    ]
}
```

------

## Kepingan Salju dan Data Wrangler
<a name="data-wrangler-security-snowflake"></a>

Semua izin untuk AWS sumber daya dikelola melalui peran IAM yang dilampirkan ke instans Studio Classic Anda. Administrator Snowflake mengelola izin khusus Snowflake, karena mereka dapat memberikan izin dan hak istimewa terperinci kepada setiap pengguna Snowflake. Ini termasuk database, skema, tabel, gudang, dan objek integrasi penyimpanan. Anda harus memastikan bahwa izin yang benar diatur di luar Data Wrangler. 

Perhatikan bahwa `COPY INTO Amazon S3` perintah Snowflake memindahkan data dari Snowflake ke Amazon S3 melalui internet publik secara default, tetapi data dalam perjalanan diamankan menggunakan SSL. Data saat istirahat di Amazon S3 dienkripsi dengan SSE-KMS menggunakan default. AWS KMS key

Sehubungan dengan penyimpanan kredensil Snowflake, Data Wrangler tidak menyimpan kredensil pelanggan. Data Wrangler menggunakan Secrets Manager untuk menyimpan kredensialnya secara rahasia dan memutar rahasia sebagai bagian dari rencana keamanan praktik terbaik. Administrator Snowflake atau Studio Classic perlu memastikan bahwa peran eksekusi Studio Classic ilmuwan data diberikan izin untuk melakukan `GetSecretValue` rahasia yang menyimpan kredensyal. Jika sudah dilampirkan ke peran eksekusi Studio Classic, `AmazonSageMakerFullAccess` kebijakan memiliki izin yang diperlukan untuk membaca rahasia yang dibuat oleh Data Wrangler dan rahasia yang dibuat dengan mengikuti konvensi penamaan dan penandaan dalam instruksi di atas. Rahasia yang tidak mengikuti konvensi harus diberikan akses secara terpisah. Sebaiknya gunakan Secrets Manager untuk mencegah berbagi kredensil melalui saluran yang tidak aman; namun, perhatikan bahwa pengguna yang masuk dapat mengambil kata sandi teks biasa dengan meluncurkan terminal atau notebook Python di Studio Classic dan kemudian menjalankan panggilan API dari Secrets Manager API. 

## Enkripsi Data dengan AWS KMS
<a name="data-wrangler-security-kms"></a>

Dalam Data Wrangler, Anda dapat mendekripsi file terenkripsi dan menambahkannya ke aliran Data Wrangler Anda. Anda juga dapat mengenkripsi output transformasi menggunakan AWS KMS kunci default atau yang Anda berikan.

Anda dapat mengimpor file jika mereka memiliki yang berikut:
+ enkripsi sisi server
+ SSE-KMS sebagai jenis enkripsi

Untuk mendekripsi file dan mengimpor ke alur Data Wrangler, Anda harus menambahkan pengguna SageMaker Studio Classic yang Anda gunakan sebagai pengguna kunci.

Tangkapan layar berikut menunjukkan peran pengguna Studio Classic yang ditambahkan sebagai pengguna utama. Lihat [Peran IAM](https://console.aws.amazon.com/iam/home#/roles) untuk mengakses pengguna di bawah panel kiri untuk membuat perubahan ini.

![\[Bagian Pengguna kunci di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/data-wrangler-kms.png)


### Penyiapan kunci terkelola pelanggan Amazon S3 untuk penyimpanan data impor Data Wrangler
<a name="data-wrangler-s3-cmk-setup"></a>

 Secara default, Data Wrangler menggunakan bucket Amazon S3 yang memiliki konvensi penamaan berikut:. `sagemaker-region-account number` Misalnya, jika nomor akun Anda `111122223333` dan Anda menggunakan Studio Classic di us-east-1, kumpulan data yang Anda impor disimpan dengan konvensi penamaan berikut:. `sagemaker-us-east-1-111122223333` 

Petunjuk berikut menjelaskan cara menyiapkan kunci terkelola pelanggan untuk bucket Amazon S3 default Anda.

1. [Untuk mengaktifkan enkripsi sisi server dan menyiapkan kunci terkelola pelanggan untuk bucket S3 default Anda, lihat Menggunakan Enkripsi KMS.](https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingKMSEncryption.html)

1. Setelah mengikuti langkah 1, navigasikan ke AWS KMS dalam Konsol Manajemen AWS. Temukan kunci terkelola pelanggan yang Anda pilih di langkah 1 dari langkah sebelumnya dan tambahkan peran Studio Classic sebagai pengguna kunci. Untuk melakukannya, ikuti petunjuk di [Memungkinkan pengguna kunci menggunakan kunci yang dikelola pelanggan](https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html#key-policy-default-allow-users).

### Mengenkripsi Data yang Anda Ekspor
<a name="data-wrangler-export-kms"></a>

Anda dapat mengenkripsi data yang Anda ekspor menggunakan salah satu metode berikut:
+ Menentukan bahwa bucket Amazon S3 Anda memiliki objek menggunakan enkripsi SSE-KMS.
+ Menentukan AWS KMS kunci untuk mengenkripsi data yang Anda ekspor dari Data Wrangler.

Pada halaman **Ekspor data**, tentukan nilai untuk **ID AWS KMS kunci atau ARN**.

Untuk informasi selengkapnya tentang penggunaan AWS KMS kunci, lihat [Melindungi Data Menggunakan Enkripsi Sisi Server dengan AWS KMS kunci yang Disimpan di AWSAWS Key Management Service (SSE-KMS](https://docs.aws.amazon.com//AmazonS3/latest/userguide/UsingKMSEncryption.html)).

## AppFlow Izin Amazon
<a name="data-wrangler-appflow-permissions"></a>

Saat melakukan transfer, Anda harus menentukan peran IAM yang memiliki izin untuk melakukan transfer. Anda dapat menggunakan peran IAM yang sama yang memiliki izin untuk menggunakan Data Wrangler. Secara default, peran IAM yang Anda gunakan untuk mengakses Data Wrangler adalah. `SageMakerExecutionRole`

Peran IAM harus memiliki izin berikut:
+ Izin ke Amazon AppFlow
+ Izin ke Katalog AWS Glue Data
+ Izin AWS Glue untuk menemukan sumber data yang tersedia

Saat Anda menjalankan transfer, Amazon AppFlow menyimpan metadata dari transfer di Katalog AWS Glue Data. Data Wrangler menggunakan metadata dari katalog untuk menentukan apakah tersedia untuk Anda kueri dan impor.

Untuk menambahkan izin ke Amazon AppFlow, tambahkan kebijakan `AmazonAppFlowFullAccess` AWS terkelola ke peran IAM. Untuk informasi selengkapnya tentang menambahkan kebijakan, lihat [Menambahkan atau menghapus izin identitas IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html).

Jika Anda mentransfer data ke Amazon S3, Anda juga harus melampirkan kebijakan berikut.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Sid": "VisualEditor0",
      "Effect": "Allow",
      "Action": [
        "s3:GetBucketTagging",
        "s3:ListBucketVersions",
        "s3:CreateBucket",
        "s3:ListBucket",
        "s3:GetBucketPolicy",
        "s3:PutEncryptionConfiguration",
        "s3:GetEncryptionConfiguration",
        "s3:PutBucketTagging",
        "s3:GetObjectTagging",
        "s3:GetBucketOwnershipControls",
        "s3:PutObjectTagging",
        "s3:DeleteObject",
        "s3:DeleteBucket",
        "s3:DeleteObjectTagging",
        "s3:GetBucketPublicAccessBlock",
        "s3:GetBucketPolicyStatus",
        "s3:PutBucketPublicAccessBlock",
        "s3:PutAccountPublicAccessBlock",
        "s3:ListAccessPoints",
        "s3:PutBucketOwnershipControls",
        "s3:PutObjectVersionTagging",
        "s3:DeleteObjectVersionTagging",
        "s3:GetBucketVersioning",
        "s3:GetBucketAcl",
        "s3:PutObject",
        "s3:GetObject",
        "s3:GetAccountPublicAccessBlock",
        "s3:ListAllMyBuckets",
        "s3:GetAnalyticsConfiguration",
        "s3:GetBucketLocation"
      ],
      "Resource": "*"
    }
  ]
}
```

------

Untuk menambahkan AWS Glue izin, tambahkan kebijakan `AWSGlueConsoleFullAccess` terkelola ke peran IAM. Untuk informasi selengkapnya tentang AWS Glue izin dengan Amazon AppFlow, lihat [link-to-appflow-page].

Amazon AppFlow perlu mengakses AWS Glue dan Data Wrangler agar Anda dapat mengimpor data yang telah Anda transfer. Untuk memberikan AppFlow akses Amazon, tambahkan kebijakan kepercayaan berikut ke peran IAM.

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "AWS": "arn:aws:iam::123456789012:root",
                "Service": [
                    "appflow.amazonaws.com"
                ]
            },
            "Action": "sts:AssumeRole"
        }
    ]
}
```

------

Untuk menampilkan AppFlow data Amazon di Data Wrangler, tambahkan kebijakan berikut ke peran IAM:

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "glue:SearchTables",
            "Resource": [
                "arn:aws:glue:*:*:table/*/*",
                "arn:aws:glue:*:*:database/*",
                "arn:aws:glue:*:*:catalog"
            ]
        }
    ]
}
```

------

## Menggunakan Konfigurasi Siklus Hidup di Data Wrangler
<a name="data-wrangler-lifecycle-configuration"></a>

Anda mungkin memiliki instans Amazon EC2 yang dikonfigurasi untuk menjalankan aplikasi Kernel Gateway, tetapi bukan aplikasi Data Wrangler. Aplikasi Kernel Gateway menyediakan akses ke lingkungan dan kernel yang Anda gunakan untuk menjalankan notebook dan terminal Studio Classic. Aplikasi Data Wrangler adalah aplikasi UI yang menjalankan Data Wrangler. Instans Amazon EC2 yang bukan instans Data Wrangler memerlukan modifikasi pada konfigurasi siklus hidupnya untuk menjalankan Data Wrangler. Konfigurasi siklus hidup adalah skrip shell yang mengotomatiskan penyesuaian lingkungan Amazon Studio Classic Anda. SageMaker 

Untuk informasi selengkapnya tentang konfigurasi siklus hidup, lihat. [Menggunakan Konfigurasi Siklus Hidup untuk Menyesuaikan Amazon Studio Classic SageMaker](studio-lcc.md)

Konfigurasi siklus hidup default untuk instans Anda tidak mendukung penggunaan Data Wrangler. Anda dapat membuat modifikasi berikut pada konfigurasi default untuk menggunakan Data Wrangler dengan instans Anda.

```
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'

# Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git"

git -C /root clone $REPOSTIORY_URL

fi
```

Anda dapat menyimpan skrip sebagai`lifecycle_configuration.sh`.

Anda melampirkan konfigurasi siklus hidup ke domain Studio Classic atau profil pengguna. Untuk informasi selengkapnya tentang membuat dan melampirkan konfigurasi siklus hidup, lihat. [Membuat dan Mengaitkan Konfigurasi Siklus Hidup dengan Amazon SageMaker Studio Classic](studio-lcc-create.md)

Petunjuk berikut menunjukkan cara melampirkan konfigurasi siklus hidup ke domain Studio Classic atau profil pengguna.

Anda mungkin mengalami kesalahan saat membuat atau melampirkan konfigurasi siklus hidup. Untuk informasi tentang kesalahan konfigurasi siklus hidup debugging,. [KernelGateway kegagalan aplikasi](studio-lcc-debug.md#studio-lcc-debug-kernel)

# Catatan Rilis
<a name="data-wrangler-release-notes"></a>

Data Wrangler diperbarui secara berkala dengan fitur baru dan perbaikan bug. Untuk memutakhirkan versi Data Wrangler yang Anda gunakan di Studio Classic, ikuti petunjuk di. [Matikan dan Perbarui Aplikasi Amazon SageMaker Studio Classic](studio-tasks-update-apps.md)


****  

| Catatan Rilis | 
| --- | 
|  **8/31/2023** Fungsionalitas baru: Sekarang Anda dapat membuat laporan Kualitas Data dan Wawasan di seluruh kumpulan data Anda. Untuk informasi selengkapnya, lihat [Dapatkan Wawasan Tentang Kualitas Data dan Data](data-wrangler-data-insights.md). **5/20/2023** Fungsionalitas baru: Anda sekarang dapat mengimpor data Anda dari Salesforce Data Cloud. Untuk informasi selengkapnya, lihat [Impor data dari Salesforce Data Cloud](data-wrangler-import.md#data-wrangler-import-salesforce-data-cloud). **4/18/2023** Fungsionalitas baru: Anda sekarang bisa mendapatkan data Anda dalam format yang dapat ditafsirkan oleh Amazon Personalize. Untuk informasi selengkapnya, lihat [Kolom Peta untuk Amazon Personalisasi](data-wrangler-transform.md#data-wrangler-transform-personalize). **3/1/2023** Fungsionalitas baru: Anda sekarang dapat menggunakan Hive untuk mengimpor data Anda dari Amazon EMR. Untuk informasi selengkapnya, lihat [Impor data dari Amazon EMR](data-wrangler-import.md#data-wrangler-emr). **12/10/2022** Fungsionalitas baru: Anda sekarang dapat mengekspor aliran Data Wrangler Anda ke titik akhir inferensi. Untuk informasi selengkapnya, lihat [Ekspor ke Endpoint Inferensi](data-wrangler-data-export.md#data-wrangler-data-export-inference). Fungsionalitas baru: Anda sekarang dapat menggunakan widget notebook interaktif untuk persiapan data. Untuk informasi selengkapnya, lihat [Menggunakan Widget Persiapan Data Interaktif di Notebook Amazon SageMaker Studio Classic untuk Mendapatkan Wawasan Data](data-wrangler-interactively-prepare-data-notebook.md). Fungsionalitas baru: Anda sekarang dapat mengimpor data dari platform SaaS. Untuk informasi selengkapnya, lihat [Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)](data-wrangler-import.md#data-wrangler-import-saas). **10/12/2022** Fungsionalitas baru: Anda sekarang dapat menggunakan kembali aliran data untuk kumpulan data yang berbeda. Untuk informasi selengkapnya, lihat [Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda](data-wrangler-parameterize.md). **10/05/2022** Fungsionalitas baru: Anda sekarang dapat menggunakan Principal Component Analysis (PCA) sebagai transformasi. Untuk informasi selengkapnya, lihat [Mengurangi Dimensionalitas dalam Dataset](data-wrangler-transform.md#data-wrangler-transform-dimensionality-reduction). **10/05/2022** Fungsionalitas baru: Anda sekarang dapat mereparasi parameter dalam alur Data Wrangler Anda. Untuk informasi selengkapnya, lihat [Ekspor](data-wrangler-data-export.md). **10/03/2022** Fungsionalitas baru: Anda sekarang dapat menerapkan model dari alur Data Wrangler Anda. Untuk informasi selengkapnya, lihat [Secara Otomatis Melatih Model pada Alur Data Anda](data-wrangler-autopilot.md). **9/20/2022** Fungsionalitas baru: Anda sekarang dapat mengatur periode retensi data di Athena. Untuk informasi selengkapnya, lihat [Impor data dari Athena](data-wrangler-import.md#data-wrangler-import-athena). **6/9/2022** Fungsionalitas baru: Anda sekarang dapat menggunakan Amazon SageMaker Autopilot untuk melatih model langsung dari aliran Data Wrangler Anda. Untuk informasi selengkapnya, lihat [Secara Otomatis Melatih Model pada Alur Data Anda](data-wrangler-autopilot.md). **5/6/2022** Fungsionalitas baru: Anda sekarang dapat menggunakan instance m5 dan r5 tambahan. Untuk informasi selengkapnya, lihat [Contoh](data-wrangler-data-flow.md#data-wrangler-data-flow-instances). **27/04/2022** Fungsionalitas baru: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) **4/1/2022** Fungsionalitas baru: Anda sekarang dapat menggunakan Databricks sebagai sumber data. Untuk informasi selengkapnya, lihat [Impor data dari Databricks (JDBC)](data-wrangler-import.md#data-wrangler-databricks). **2/2/2022** Fungsionalitas baru: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) **10/16/2021** Fungsionalitas baru: Data Wrangler sekarang mendukung kelompok kerja Athena. Untuk informasi selengkapnya, lihat [Impor data dari Athena](data-wrangler-import.md#data-wrangler-import-athena). **10/6/2021** Fungsionalitas baru: Data Wrangler sekarang mendukung transformasi data deret waktu. Untuk informasi selengkapnya, lihat [Mengubah Seri Waktu](data-wrangler-transform.md#data-wrangler-transform-time-series). **7/15/2021** Fungsionalitas baru: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) Penyempurnaan: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html)  Perbaikan Bug: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) **26/04/2021**  Penyempurnaan: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) Perbaikan Bug: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) **2/8/2021**  Fungsionalitas Baru: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) Penyempurnaan: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html) Perbaikan Bug: [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/data-wrangler-release-notes.html)  | 

# Pemecahan Masalah
<a name="data-wrangler-trouble-shooting"></a>

Jika masalah muncul saat menggunakan Amazon SageMaker Data Wrangler, kami sarankan Anda melakukan hal berikut:
+ Jika pesan kesalahan disediakan, baca pesan dan selesaikan masalah yang dilaporkan jika memungkinkan.
+ Pastikan peran IAM pengguna Studio Classic Anda memiliki izin yang diperlukan untuk melakukan tindakan. Untuk informasi selengkapnya, lihat [Keamanan dan Izin](data-wrangler-security.md).
+ Jika masalah terjadi saat Anda mencoba mengimpor dari AWS layanan lain, seperti Amazon Redshift atau Athena, pastikan Anda telah mengonfigurasi izin dan sumber daya yang diperlukan untuk melakukan impor data. Untuk informasi selengkapnya, lihat [Impor](data-wrangler-import.md).
+ Jika Anda masih mengalami masalah, pilih **Dapatkan bantuan** di kanan atas layar untuk menghubungi tim Data Wrangler. Untuk informasi lebih lanjut, lihat gambar berikut.  
![\[Lokasi formulir bantuan Data Wrangler di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/get-help/get-help.png)  
![\[Formulir bantuan Data Wrangler di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/get-help/get-help-forms.png)

Sebagai upaya terakhir, Anda dapat mencoba memulai ulang kernel tempat Data Wrangler berjalan. 

1. Simpan dan keluar dari file.flow yang ingin Anda restart kernelnya. 

1. Pilih ikon ****Running Terminal dan Kernels****, seperti yang ditunjukkan pada gambar berikut.  
![\[Lokasi ikon Running Terminal dan Kernels di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/stop-kernel-option.png)

1. Pilih ikon **Stop** di sebelah kanan file.flow yang ingin Anda akhiri kernelnya, seperti yang ditunjukkan pada gambar berikut.  
![\[Lokasi ikon Stop di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/stop-kernel.png)

1. Segarkan browser. 

1. Buka kembali file.flow tempat Anda bekerja. 

## Memecahkan masalah dengan Amazon EMR
<a name="data-wrangler-trouble-shooting-emr"></a>

Gunakan informasi berikut untuk membantu Anda memecahkan masalah yang mungkin muncul saat Anda menggunakan Amazon EMR.
+ Kegagalan koneksi - Jika koneksi gagal dengan pesan berikut`The IP address of the EMR cluster isn't private error message`, kluster EMR Amazon Anda mungkin tidak diluncurkan di subnet pribadi. Sebagai praktik terbaik keamanan, Data Wrangler hanya mendukung koneksi ke kluster EMR Amazon pribadi. Pilih subnet EC2 pribadi yang Anda luncurkan kluster EMR.
+ Koneksi hang dan timing out — Masalah ini kemungkinan besar disebabkan oleh masalah konektivitas jaringan. Setelah Anda mulai menghubungkan ke cluster, layar tidak menyegarkan. Setelah sekitar 2 menit, Anda mungkin melihat kesalahan berikut`JdbcAddConnectionError: An error occurred when trying to connect to presto: xxx: Connect to xxx failed: Connection timed out (Connection timed out) will display on top of the screen.`.

  Kesalahan mungkin memiliki dua akar penyebab:
  + Amazon EMR dan Amazon SageMaker Studio Classic berbeda. VPCs Kami merekomendasikan meluncurkan Amazon EMR dan Studio Classic di VPC yang sama. Anda juga dapat menggunakan VPC peering. Untuk informasi lebih lanjut, lihat [Apa itu VPC](https://docs.aws.amazon.com/vpc/latest/peering/what-is-vpc-peering.html) peering? .
  + Grup keamanan master EMR Amazon tidak memiliki aturan lalu lintas masuk untuk grup keamanan Amazon SageMaker Studio Classic di port yang digunakan untuk Presto. Untuk mengatasi masalah ini, izinkan lalu lintas masuk di port 8889.
+ Koneksi gagal karena jenis koneksi yang salah dikonfigurasi - Anda mungkin melihat pesan galat berikut: ` Data Wrangler couldn't create a connection to {connection_source} successfully. Try connecting to {connection_source} again. For more information, see Troubleshoot. If you’re still experiencing issues, contact support. `

  Periksa metode otentikasi. Metode otentikasi yang telah Anda tentukan di Data Wrangler harus cocok dengan metode otentikasi yang Anda gunakan di cluster.
+ Anda tidak memiliki izin HDFS untuk otentikasi LDAP — Gunakan panduan berikut untuk mengatasi masalah [Mengatur Izin HDFS](https://docs.aws.amazon.com/whitepapers/latest/teaching-big-data-skills-with-amazon-emr/set-up-hdfs-permissions-using-linux-credentials.html) menggunakan Kredensyal Linux. Anda dapat masuk ke cluster menggunakan perintah berikut:

  ```
  hdfs dfs -mkdir /user/USERNAME
  hdfs dfs -chown USERNAME:USERNAME /user/USERNAME
  ```
+ Otentikasi LDAP hilang kesalahan kunci koneksi — Anda mungkin melihat pesan galat berikut:. `Data Wrangler couldn't connect to EMR hive successfully. JDBC connection is missing required connection key(s): PWD`

  Untuk otentikasi LDAP, Anda harus menentukan nama pengguna dan kata sandi. URL JDBC yang disimpan di Secrets Manager tidak memiliki properti. `PWD`
+ Saat Anda memecahkan masalah konfigurasi LDAP: Sebaiknya pastikan autentikator LDAP (server LDAP) dikonfigurasi dengan benar untuk terhubung ke kluster EMR Amazon. Gunakan `ldapwhoami` perintah untuk membantu Anda menyelesaikan masalah konfigurasi. Berikut ini adalah contoh perintah yang dapat Anda jalankan:
  + Untuk LDAPS — `ldapwhoami -x -H ldaps://ldap-server`
  + Untuk LDAP — `ldapwhoami -x -H ldap://ldap-server`

  Perintah mana pun harus kembali `Anonymous` jika Anda telah mengkonfigurasi autentikator dengan sukses.

## Pemecahan masalah dengan Salesforce
<a name="data-wrangler-troubleshooting-salesforce-data-cloud"></a>

### Kesalahan konfigurasi siklus hidup
<a name="data-wrangler-troubleshooting-salesforce-lcc-debug-data-cloud"></a>

Saat pengguna Anda membuka Studio Classic untuk pertama kalinya, mereka mungkin mendapatkan kesalahan yang mengatakan bahwa ada yang salah dengan konfigurasi siklus hidupnya. Gunakan Amazon CloudWatch untuk mengakses log yang ditulis oleh skrip konfigurasi siklus hidup Anda. Untuk informasi selengkapnya tentang debugging konfigurasi siklus hidup, lihat. [Debug Konfigurasi Siklus Hidup di Amazon Studio Classic SageMaker](studio-lcc-debug.md)

Jika Anda tidak dapat men-debug kesalahan, Anda dapat membuat file konfigurasi secara manual. Anda harus membuat file setiap kali Anda menghapus atau memulai ulang server Jupyter. Gunakan prosedur berikut untuk membuat file secara manual.

**Untuk membuat file konfigurasi**

1. Arahkan ke Studio Classic.

1. Pilih **File**, lalu **Baru**, lalu **Terminal**.

1. Buat`.sfgenie_identity_provider_oauth_config`.

1. Buka file di editor teks.

1. Tambahkan objek JSON yang berisi Amazon Resource Name (ARN) dari rahasia Secrets Manager ke file. Anda dapat menggunakan template berikut untuk membuat objek.

   ```
   {
     "secret_arn": "example-secret-ARN"
   }
   ```

1. Simpan perubahan Anda ke file .

### Tidak dapat mengakses Salesforce Data Cloud dari alur Data Wrangler
<a name="data-wrangler-troubleshooting-salesforce-datacloud-access"></a>

Setelah pengguna Anda memilih **Salesforce Data Cloud** dari alur Data Wrangler Anda, mereka mungkin mendapatkan kesalahan yang menunjukkan prasyarat untuk menyiapkan koneksi belum terpenuhi. Ini mungkin disebabkan oleh kesalahan berikut:
+ Rahasia Salesforce di Secrets Manager belum dibuat.
+ Rahasia Salesforce di Secrets Manager telah dibuat, tetapi tidak ada tag Salesforce.
+ Rahasia Salesforce di Secrets Manager telah dibuat dengan cara yang salah. Wilayah AWS Misalnya, pengguna Anda tidak akan dapat mengakses Salesforce Data Cloud `ca-central-1` karena Anda telah membuat rahasia di. `us-east-1` Anda dapat mereplikasi rahasia ke `ca-central-1` atau membuat rahasia baru dengan kredensi yang sama di. `ca-central-1` Untuk informasi tentang mereplikasi rahasia, lihat [Mereplikasi AWS Secrets Manager rahasia ke yang lain](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create-manage-multi-region-secrets.html). Wilayah AWS
+ Kebijakan yang digunakan pengguna untuk mengakses Amazon SageMaker Studio Classic tidak memiliki izin AWS Secrets Manager
+ Ada kesalahan ketik di Secrets Manager ARN dari objek JSON yang telah Anda tentukan melalui konfigurasi siklus hidup Anda.
+ Ada kesalahan ketik dalam rahasia Secrets Manager yang berisi konfigurasi OAuth Salesforce Anda

### Halaman kosong menampilkan `redirect_uri_mismatch`
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-blank-page"></a>

Setelah pengguna Anda memilih **Simpan dan Connect**, mereka mungkin akan diarahkan ke halaman yang ditampilkan`redirect_uri_mismatch`. URI callback yang telah Anda daftarkan di setelan Salesforce Connected App hilang atau salah.

Gunakan URL berikut untuk memeriksa apakah URL Studio Classic Anda terdaftar dengan benar di setelan Aplikasi Terhubung organisasi Salesforce Anda:. `https://EXAMPLE_SALESFORCE_ORG/lightning/setup/NavigationMenus/home/` Untuk informasi selengkapnya tentang menggunakan setelan aplikasi yang terhubung, navigasikan ke URL berikut:`https://EXAMPLE_SALESFORCE_ORG/lightning/setup/NavigationMenus/home/`.

**catatan**  
Dibutuhkan sekitar sepuluh menit untuk menyebarkan URI dalam sistem Salesforce.

### Ruang bersama
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-shared-spaces"></a>

Ruang bersama saat ini tidak berfungsi dengan integrasi Salesforce Data Cloud. Anda dapat menghapus spasi bersama di domain Amazon SageMaker AI yang ingin Anda gunakan, atau Anda dapat menggunakan domain lain yang tidak memiliki ruang bersama yang disiapkan.

### OAuth Kesalahan Pengalihan
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-oauth-error"></a>

**Pengguna Anda harus dapat mengimpor data mereka dari Salesforce Data Cloud setelah mereka memilih Connect.** Jika mereka mengalami kesalahan, kami sarankan meminta mereka untuk melakukan hal berikut:
+ Beri tahu mereka untuk bersabar — Ketika mereka diarahkan kembali ke Amazon SageMaker Studio Classic, diperlukan waktu hingga satu menit untuk menyelesaikan proses otentikasi. Sementara mereka diarahkan, kami sarankan untuk memberitahu mereka untuk menghindari berinteraksi dengan browser. Misalnya, mereka tidak boleh menutup tab browser, beralih ke tab lain, atau berinteraksi dengan aliran Data Wrangler. Berinteraksi dengan browser mungkin menghapus kode otorisasi yang diperlukan untuk terhubung ke cloud data.
+ Minta pengguna Anda terhubung kembali ke cloud data — Ada masalah sementara yang dapat menyebabkan koneksi ke Salesforce Data Cloud gagal. Mintalah pengguna Anda membuat alur Data Wrangler baru dan coba sambungkan ke Salesforce Data Cloud lagi.
+ Pastikan pengguna Anda menutup semua tab lain dengan Amazon SageMaker Studio Classic — Memiliki Studio Classic terbuka di beberapa tab dapat menyebabkan koneksi Salesforce Data Cloud gagal. Pastikan pengguna Anda hanya memiliki satu tab Studio Classic yang terbuka.
+ Beberapa pengguna mengakses Studio Classic secara bersamaan — Hanya satu pengguna yang dapat mengakses domain Amazon SageMaker AI sekaligus. Jika beberapa pengguna mengakses domain yang sama, koneksi yang pengguna coba buat ke Salesforce Data Cloud mungkin gagal.

Memperbarui Data Wrangler dan Studio Classic juga dapat memperbaiki kesalahan mereka. Untuk informasi tentang memperbarui Data Wrangler, lihat. [Perbarui Data Wrangler](data-wrangler-update.md) Untuk informasi tentang memperbarui Studio Classic, lihat[Matikan dan Perbarui Amazon SageMaker Studio Classic](studio-tasks-update-studio.md).

Jika tidak ada langkah pemecahan masalah sebelumnya yang berhasil, Anda mungkin menemukan pesan kesalahan dari Salesforce dengan deskripsi terkait yang disematkan di URL Studio Classic. Berikut ini adalah contoh pesan yang dapat Anda temukan:`error=invalid_client_id&error_description=client%20identifier%20invalid`.

Anda dapat melihat pesan kesalahan di URL dan mencoba mengatasi masalah yang ditimbulkannya. Jika pesan kesalahan atau deskripsi tidak jelas, sebaiknya cari Basis Pengetahuan Salesforce. Jika mencari basis pengetahuan tidak berhasil, Anda dapat menghubungi help desk Salesforce untuk bantuan lebih lanjut.

### Data Wrangler membutuhkan waktu lama untuk dimuat
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-long-load-time"></a>

Ketika pengguna Anda diarahkan kembali ke Data Wrangler dari Salesforce Data Cloud, mereka mungkin mengalami waktu muat yang lama.

Jika ini adalah pertama kalinya pengguna menggunakan Data Wrangler atau mereka telah menghapus kernel, mungkin diperlukan waktu sekitar 5 menit untuk menyediakan instans Amazon EC2 baru untuk menggunakan Data Wrangler.

Jika ini bukan pertama kalinya pengguna menggunakan Data Wrangler dan mereka belum menghapus kernel, Anda dapat meminta mereka untuk menyegarkan halaman atau menutup tab browser sebanyak mungkin.

Jika tidak ada intervensi sebelumnya yang berfungsi, minta mereka mengatur koneksi baru ke Salesforce Data Cloud.

### Pengguna gagal mengekspor data mereka dengan `Invalid batch Id` kesalahan
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-processing-job-fails-batch-id"></a>

Saat pengguna Anda mengekspor transformasi yang mereka buat ke data Salesforce mereka, pekerjaan SageMaker Pemrosesan yang digunakan Data Wrangler di backend mungkin gagal. Salesforce Data Cloud mungkin sementara tidak tersedia atau mungkin ada masalah caching.

Untuk mengatasi masalah ini, kami sarankan agar pengguna Anda kembali ke langkah di mana mereka mengimpor data dan mengubah urutan kolom yang mereka kueri. Misalnya, mereka dapat mengubah kueri berikut:

```
SELECT col_A, col_B FROM table                
```

Untuk kueri berikut:

```
SELECT col_B, col_A FROM table                
```

Setelah mereka mengubah urutan kolom dan memastikan bahwa transformasi berikutnya yang mereka buat masih valid, mereka dapat mulai mengekspor data mereka lagi.

### Pengguna tidak dapat mengekspor kumpulan data yang sangat besar
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-processing-job-fails-query"></a>

Jika pengguna Anda mengimpor dataset yang sangat besar dari Salesforce Data Cloud, mereka mungkin tidak dapat mengekspor transformasi yang telah mereka buat. Dataset besar mungkin memiliki terlalu banyak baris, atau dapat dihasilkan dari kueri yang kompleks.

Kami menyarankan agar pengguna Anda melakukan tindakan berikut:
+ Menyederhanakan kueri SQL mereka
+ Pengambilan sampel data mereka

Berikut ini adalah beberapa strategi yang dapat mereka gunakan untuk menyederhanakan pertanyaan mereka:
+ Tentukan nama kolom alih-alih menggunakan `*` operator
+ Menemukan subset data yang ingin mereka impor alih-alih menggunakan subset yang lebih besar
+ Meminimalkan gabungan antara kumpulan data yang sangat besar

Mereka dapat menggunakan sampling untuk mengurangi jumlah baris dalam dataset mereka. Untuk informasi tentang metode pengambilan sampel, pengguna Anda dapat merujuk ke[Pengambilan sampel](data-wrangler-transform.md#data-wrangler-transform-sampling).

### Pengguna tidak dapat mengekspor data karena token penyegaran tidak valid
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-processing-job-fails-invalid-token"></a>

Data Wrangler menggunakan driver JDBC untuk berintegrasi dengan Salesforce Data Cloud. Metode untuk otentikasi adalah OAuth. Untuk OAuth, token penyegaran dan token akses adalah dua bagian data berbeda yang digunakan untuk mengotorisasi akses ke sumber daya dalam Salesforce Data Cloud Anda.

Token akses, atau token inti, adalah apa yang memungkinkan Anda mengakses data Salesforce Anda dan menjalankan kueri secara langsung melalui Data Wrangler. Ini berumur pendek dan dirancang untuk kedaluwarsa dengan cepat. Untuk mempertahankan akses ke data Salesforce Anda, Data Wrangler menggunakan token penyegaran untuk mendapatkan token akses baru dari Salesforce.

Anda mungkin telah mengatur penyegaran agar kedaluwarsa terlalu cepat untuk mendapatkan token akses baru bagi pengguna Anda. Anda mungkin harus meninjau kembali kebijakan token penyegaran Anda untuk memastikan bahwa itu dapat mengakomodasi kueri yang membutuhkan waktu lama untuk dijalankan bagi pengguna Anda. Untuk informasi tentang mengonfigurasi kebijakan token penyegaran, lihat`https://EXAMPLE_SALESFORCE_ORG_URL/lightning/setup/ConnectedApplication/home/`.

### Kueri gagal atau tabel tidak dimuat
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-table-not-loading"></a>

Salesforce mengalami pemadaman layanan. Bahkan jika Anda telah mengonfigurasi semuanya dengan benar, pengguna Anda mungkin tidak dapat mengimpor data mereka untuk jangka waktu tertentu.

Pemadaman layanan dapat terjadi karena alasan pemeliharaan. Kami merekomendasikan untuk memeriksa di hari berikutnya untuk melihat apakah masalah telah diselesaikan.

Jika Anda mengalami masalah selama lebih dari satu hari, kami sarankan untuk menghubungi help desk Salesforce untuk bantuan lebih lanjut. Untuk informasi tentang menghubungi Salesforce, lihat [Bagaimana Anda ingin menghubungi](https://www.salesforce.com/company/contact-us/) Salesforce?

### `OAUTH_APP_BLOCKED`selama pengalihan Studio Classic
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-oauth-app-blocked"></a>

Ketika pengguna Anda diarahkan kembali ke Amazon SageMaker Studio Classic, mereka mungkin melihat parameter kueri `error=OAUTH_APP_BLOCKED` dalam URL. Mereka mungkin mengalami masalah sementara yang harus diselesaikan sendiri dalam sehari.

Ada kemungkinan bahwa Anda telah memblokir akses mereka ke Aplikasi Terhubung juga. Untuk informasi tentang menyelesaikan masalah, lihat`https://EXAMPLE_SALESFORCE_ORG_URL/lightning/setup/ConnectedApplication/home/`.

### `OAUTH_APP_DENIED`selama pengalihan Studio Classic
<a name="data-wrangler-troubleshooting-salesforce-data-cloud-oauth-app-access-denied"></a>

Ketika pengguna Anda diarahkan kembali ke Amazon SageMaker Studio Classic, mereka mungkin melihat parameter kueri `error=OAUTH_APP_ACCESS_DENIED` dalam URL. Anda belum memberikan izin jenis profil mereka untuk mengakses yang `Connected App` terkait dengan Data Wrangler.

Untuk mengatasi masalah akses mereka, navigasikan ke `https://EXAMPLE_SALESFORCE_ORG_URL/lightning/setup/ManageUsers/home/` dan periksa apakah pengguna ditetapkan ke profil yang benar.

# Tingkatkan Batas Instans Amazon EC2
<a name="data-wrangler-increase-instance-limit"></a>

Anda mungkin melihat pesan galat berikut saat menggunakan Data Wrangler: `The following instance type is not available: ml.m5.4xlarge. Try selecting a different instance below.`

Pesan dapat menunjukkan bahwa Anda perlu memilih jenis instans yang berbeda, tetapi juga dapat menunjukkan bahwa Anda tidak memiliki cukup instans Amazon EC2 untuk berhasil menjalankan Data Wrangler pada alur kerja Anda. Anda dapat meningkatkan jumlah instance dengan menggunakan prosedur berikut.

Untuk menambah jumlah instance, lakukan hal berikut.

1. Buka Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan**Services Quotas**.

1. Pilih **Service Quotas**.

1. Pilih **AWS layanan**.

1. Di bilah pencarian, tentukan**Amazon SageMaker AI**.

1. Pilih **Amazon SageMaker AI**.

1. Di bawah **Kuota layanan**, tentukan**Studio KernelGateway Apps running on *ml.m5.4xlarge* instance**.
**catatan**  
ml.m5.4xlarge adalah tipe instance default untuk Data Wrangler. Anda dapat menggunakan jenis instans lain dan meminta peningkatan kuota untuk mereka. Untuk informasi selengkapnya, lihat [Contoh](data-wrangler-data-flow.md#data-wrangler-data-flow-instances).

1. Pilih ** KernelGateway Aplikasi Studio yang berjalan pada *ml.m5.4xlarge* instance**.

1. Pilih **Ajukan peningkatan kuota**.

1. Untuk **Ubah nilai kuota, tentukan nilai** yang lebih besar dari nilai **kuota Terapan**.

1. Pilih **Minta**.

Jika permintaan Anda disetujui, AWS kirimkan pemberitahuan ke alamat email yang terkait dengan akun Anda. Anda juga dapat memeriksa status permintaan Anda dengan memilih **riwayat permintaan Kuota pada halaman** **Service** Quotas. Permintaan yang diproses memiliki **Status** **Tertutup**.

# Perbarui Data Wrangler
<a name="data-wrangler-update"></a>

Untuk memperbarui Data Wrangler ke rilis terbaru, pertama-tama matikan KernelGateway aplikasi yang sesuai dari panel kontrol Amazon SageMaker Studio Classic. Setelah KernelGateway aplikasi dimatikan, restart dengan membuka aliran Data Wrangler baru atau yang sudah ada di Studio Classic. Saat Anda membuka aliran Data Wrangler baru atau yang sudah ada, kernel yang dimulai berisi versi terbaru Data Wrangler.

**Memperbarui instans Studio Classic dan Data Wrangler**

1. Arahkan ke [Konsol SageMaker AI](https://console.aws.amazon.com/sagemaker) Anda.

1. Pilih SageMaker AI dan kemudian Studio Classic.

1. Pilih nama pengguna Anda.

1. Di bawah **Aplikasi**, di baris yang menampilkan **nama Aplikasi**, pilih **Hapus aplikasi** untuk aplikasi yang dimulai`sagemaker-data-wrang`, dan untuk JupyterServer aplikasi.

1. Pilih **Ya, hapus aplikasi**.

1. `delete`Ketik kotak konfirmasi.

1. Pilih **Hapus**.

1. Buka kembali instans Studio Classic Anda. Saat Anda mulai membuat alur Data Wrangler, instans Anda sekarang menggunakan versi terbaru Data Wrangler.

Atau, jika Anda menggunakan versi aplikasi Data Wrangler yang bukan versi terbaru, dan Anda memiliki aliran Data Wrangler yang ada terbuka, Anda diminta untuk memperbarui versi aplikasi Data Wrangler Anda di UI Studio Classic. Tangkapan layar berikut menunjukkan prompt ini. 

**penting**  
Ini hanya memperbarui aplikasi gateway kernel Data Wrangler. Anda masih perlu mematikan JupyterServer aplikasi di akun pengguna Anda. Untuk melakukan ini, ikuti langkah-langkah sebelumnya.

![\[Bagian Update Data Wrangler di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/data-wrangler-1click-restart.png)


Anda juga dapat memilih **Ingatkan saya nanti**, dalam hal ini tombol **Pembaruan** muncul di sudut kanan atas layar.

![\[Lokasi Pembaruan di konsol Data Wrangler.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/data-wrangler-1click-restart-update.png)


# Matikan Data Wrangler
<a name="data-wrangler-shut-down"></a>

Saat Anda tidak menggunakan Data Wrangler, penting untuk mematikan instance yang dijalankannya untuk menghindari biaya tambahan. 

Untuk menghindari kehilangan pekerjaan, simpan aliran data Anda sebelum mematikan Data Wrangler. Untuk menyimpan aliran data Anda di Studio Classic, pilih **File** dan kemudian pilih **Save Data Wrangler** Flow. Data Wrangler secara otomatis menyimpan aliran data Anda setiap 60 detik. 

**Untuk mematikan instance Data Wrangler di Studio Classic**

1. Di Studio Classic, pilih ikon **Running Instances dan Kernels** ()![\[Icon of a gear or cog symbol representing settings or configuration options.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/icons/studio_classic_dw_instances.png).

1. Di bawah **RUNNING APPS** adalah aplikasi **sagemaker-data-wrangler-1.0**. Pilih ikon shutdown (![\[Power button icon with a circular shape and vertical line symbol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/icons/Shutdown_light.png)) di sebelah aplikasi ini. 

   Data Wrangler berjalan pada instance ml.m5.4xlarge. Instance ini menghilang dari **RUNNING INSTANCES** saat Anda mematikan aplikasi Data Wrangler.

**penting**  
Jika Anda membuka Data Wrangler lagi, instans Amazon EC2 mulai menjalankan aplikasi dan Anda akan dikenakan biaya untuk komputasi. Selain menghitung, Anda juga dikenakan biaya untuk penyimpanan yang Anda gunakan. Misalnya, Anda dikenakan biaya untuk setiap bucket Amazon S3 yang Anda gunakan dengan Data Wrangler.  
Jika Anda menemukan bahwa Anda masih dikenakan biaya untuk Data Wrangler setelah mematikan aplikasi Anda, ada ekstensi Jupyter yang dapat Anda gunakan untuk mematikan sesi idle secara otomatis. Untuk informasi tentang ekstensi, lihat [SageMaker-Studio-Autoshutdown-Extension](https://github.com/aws-samples/sagemaker-studio-auto-shutdown-extension).

Setelah Anda mematikan aplikasi Data Wrangler, aplikasi ini harus dimulai ulang saat berikutnya Anda membuka file aliran Data Wrangler. Hal ini dapat menghabiskan waktu beberapa menit. 