Parameter yang Diperlukan untuk Wizard Buat Datasource - Amazon Machine Learning

Kami tidak lagi memperbarui layanan Amazon Machine Learning atau menerima pengguna baru untuk itu. Dokumentasi ini tersedia untuk pengguna yang sudah ada, tetapi kami tidak lagi memperbaruinya. Untuk informasi selengkapnya, lihatApa itu Amazon Machine Learning.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Parameter yang Diperlukan untuk Wizard Buat Datasource

Untuk memungkinkan Amazon ML-nya terhubung ke database Amazon Redshift Anda dan membaca data atas nama Anda, Anda harus menyediakan yang berikut ini:

  • Amazon RedshiftClusterIdentifier

  • Nama basis data Amazon Redshift

  • Kredensi database Amazon Redshift (nama pengguna dan kata sandi)

  • Amazon Amazon RedshiftAWS Identity and Access Management(IAM) peran

  • Kueri SQL Amazon Redshift

  • (Opsional) Lokasi skema Amazon ML-nya

  • Lokasi pementasan Amazon S3 (tempat Amazon ML-menempatkan data sebelum membuat sumber data)

Selain itu, Anda perlu memastikan bahwa pengguna IAM atau peran yang membuat sumber data Amazon Redshift (baik melalui konsol atau dengan menggunakanCreateDatasourceFromRedshifttindakan) memilikiiam:PassRoleizin.

Amazon RedshiftClusterIdentifier

Gunakan parameter peka huruf ini untuk memungkinkan Amazon IL menemukan dan terhubung ke klaster Anda. Anda dapat memperoleh pengenal klaster (nama) dari konsol Amazon Redshift. Untuk informasi selengkapnya tentang klaster, lihatKlaster Amazon Redshift.

Nama Basis Amazon Redshift

Gunakan parameter ini untuk memberi tahu Amazon ML-database mana di klaster Amazon Redshift berisi data yang ingin Anda gunakan sebagai sumber data Anda.

Kredensi Basis Amazon Redshift

Gunakan parameter ini untuk menentukan nama pengguna dan kata sandi pengguna database Amazon Redshift yang konteksnya kueri keamanan akan dieksekusi.

catatan

Amazon IL memerlukan nama pengguna dan kata sandi Amazon Redshift untuk terhubung ke database Amazon Redshift Anda. Setelah membongkar data ke Amazon S3, Amazon IL tidak pernah menggunakan kembali kata sandi Anda, juga tidak menyimpannya.

Amazon ML-Peran Redshift Amazon

Gunakan parameter ini untuk menentukan nama peran IAM yang harus digunakan Amazon MLuntuk mengonfigurasi grup keamanan untuk klaster Amazon Redshift dan kebijakan bucket untuk lokasi pementasan Amazon S3.

Jika Anda tidak memiliki peran IAM yang dapat mengakses Amazon Redshift, Amazon ML-nya dapat membuat peran untuk Anda. Ketika Amazon ML-nya membuat peran, itu akan membuat dan melampirkan kebijakan terkelola pelanggan ke peran IAM. Kebijakan yang dibuat Amazon ML-memberikan izin Amazon ML-hanya untuk mengakses klaster yang Anda tetapkan.

Jika Anda sudah memiliki peran IAM untuk mengakses Amazon Redshift, Anda dapat mengetikkan ARN peran, atau memilih peran dari daftar drop-down. Peran IAM dengan akses Amazon Redshift tercantum di bagian atas drop down.

Peran IAM harus memiliki konten sebagai berikut:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "machinelearning.amazonaws.com" }, "Action": "sts:AssumeRole", "Condition": { "StringEquals": { "aws:SourceAccount": "123456789012" }, "ArnLike": { "aws:SourceArn": "arn:aws:machinelearning:us-east-1:123456789012:datasource/*" } } }] }

Untuk informasi selengkapnya tentang Kebijakan yang Dikelola Pelanggan, lihatKebijakan Terkelola PelanggandiPanduan Pengguna IAM.

Kueri Amazon Redshift

Gunakan parameter ini untuk menentukan kueri SQL SELECT yang dijalankan Amazon ML-nya di database Amazon Redshift Anda untuk memilih data Anda. Amazon RedshiftMEMBONGKARtindakan untuk menyalin hasil kueri Anda dengan aman ke lokasi Amazon S3.

catatan

Amazon ML-bekerja paling baik ketika catatan masukan berada dalam urutan acak (dikocokkan). Anda dapat dengan mudah mengacak hasil kueri Amazon Redshift SQL Anda dengan menggunakan Amazon Redshiftacak ()fungsi. Sebagai contoh, katakanlah bahwa ini adalah kueri asli:

"SELECT col1, col2, … FROM training_table"

Anda dapat menyematkan pengocokan acak dengan memperbarui kueri seperti ini:

"SELECT col1, col2, … FROM training_table ORDER BY random()"
Skema Lokasi (Opsional)

Gunakan parameter ini untuk menentukan jalur Amazon S3 ke skema Anda untuk data Amazon Redshift yang akan diekspor oleh Amazon ML-nya.

Jika Anda tidak menyediakan skema untuk sumber data Anda, konsol Amazon ML-otomatis membuat skema Amazon MLberdasarkan skema data kueri Amazon Redshift SQL. Skema Amazon IL memiliki tipe data yang lebih sedikit daripada skema Amazon Redshift, jadi ini bukan konversi satu-ke-satu. Konsol Amazon ML-mengubah jenis data Amazon Redshift ke jenis data Amazon ML-menggunakan skema konversi berikut.

Tipe Data Amazon Redshift Alias Amazon Redshift Tipe Data Amazon
SMALLINT INT2 NUMERIK
BILANGAN BULAT INT4 NUMERIK
BIGINT INT8 NUMERIK
DESIMAL NUMERIK NUMERIK
NYATA FLOAT4 NUMERIK
DOUBLE PRECISION FLOAT8, MENGAPUNG NUMERIK
BOOLEAN BOOL BINER
CHAR KARAKTER, NCHAR, BPCHAR KATEGORIS
VARCHAR KARAKTER BERVARIASI, NVARCHAR, TEKS TEXT
TANGGAL TEXT
TIMESTAMP TIMESTAMP TANPA ZONA WAKTU TEXT

Untuk dikonversi ke AmazonBinaryjenis data, nilai Amazon Redshift Boolean dalam data Anda harus didukung nilai Amazon L Binary. Jika tipe data Boolean Anda memiliki nilai yang tidak didukung, Amazon MLnya akan mengonversinya ke tipe data paling spesifik yang dapat dilakukan. Misalnya, jika Amazon Redshift Boolean memiliki nilai0,1, dan2, Amazon ML-mengkonversi Boolean keNumerictipe data. Untuk informasi selengkapnya tentang nilai biner yang didukung, lihatMenggunakan Field AttributeType.

Jika Amazon IL tidak dapat mengetahui jenis data, maka akan menjadi defaultText.

Setelah Amazon IL mengubah skema, Anda dapat meninjau dan memperbaiki jenis data Amazon ML-yang ditetapkan di wizard Create Datasource, dan merevisi skema sebelum Amazon IL membuat sumber data.

Lokasi Penahapan Amazon S3

Gunakan parameter ini untuk menentukan nama lokasi pementasan Amazon S3 tempat Amazon LL menyimpan hasil kueri Amazon Redshift SQL. Setelah membuat sumber data, Amazon IL menggunakan data di lokasi pementasan alih-alih kembali ke Amazon Redshift.

catatan

Karena Amazon ML-mengasumsikan peran IAM yang didefinisikan oleh peran Amazon ML-Amazon Redshift, Amazon IL memiliki izin untuk mengakses objek apa pun di lokasi pementasan Amazon S3 yang ditentukan. Karena itu, sebaiknya Anda menyimpan file yang tidak berisi informasi sensitif di lokasi pementasan Amazon S3. Misalnya, jika bucket root Andas3://mybucket/, kami sarankan Anda membuat lokasi untuk menyimpan hanya file yang ingin Anda akses Amazon ML-nya, sepertis3://mybucket/AmazonMLInput/.