Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menghasilkan statistik kolom sesuai permintaan
Anda dapat menjalankan tugas statistik kolom untuk tugas AWS Glue Data Catalog tabel sesuai permintaan tanpa jadwal yang ditetapkan. Opsi ini berguna untuk analisis ad-hoc atau ketika statistik perlu segera dihitung.
Ikuti langkah-langkah ini untuk menghasilkan statistik kolom sesuai permintaan untuk tabel Katalog Data menggunakan AWS Glue konsol atau AWS CLI.
- AWS Management Console
-
Untuk menghasilkan statistik kolom menggunakan konsol
-
Masuk ke AWS Glue konsol di https://console.aws.amazon.com/glue/.
-
Pilih tabel Katalog Data.
-
Pilih tabel dari daftar.
-
Pilih Hasilkan statistik di bawah menu Tindakan.
Anda juga dapat memilih Menghasilkan, Menghasilkan sesuai permintaan opsi di bawah tab Statistik kolom di bagian bawah halaman Tabel.
Ikuti langkah 7 - 11 di Menghasilkan statistik kolom pada jadwal untuk menghasilkan statistik kolom untuk tabel.
-
Pada halaman Hasilkan statistik, tentukan opsi berikut:
-
Semua kolom - Pilih opsi ini untuk menghasilkan statistik untuk semua kolom dalam tabel.
-
Kolom yang dipilih - Pilih opsi ini untuk menghasilkan statistik untuk kolom tertentu. Anda dapat memilih kolom dari daftar drop-down.
-
IAMperan —Pilih Buat IAM peran baru yang memiliki kebijakan izin yang diperlukan untuk menjalankan tugas pembuatan statistik kolom. Pilih Lihat detail izin untuk meninjau pernyataan kebijakan. Anda juga dapat memilih IAM peran dari daftar. Untuk informasi lebih lanjut tentang izin yang diperlukan, lihat Prasyarat untuk menghasilkan statistik kolom.
AWS Glue mengasumsikan izin peran yang Anda tentukan untuk menghasilkan statistik.
Untuk informasi selengkapnya tentang penyediaan peran AWS Glue, lihat Kebijakan berbasis identitas untuk. AWS Glue.
-
(Opsional) Selanjutnya, pilih konfigurasi keamanan untuk mengaktifkan enkripsi saat istirahat untuk log.
-
Baris sampel - Pilih hanya persentase baris tertentu dari tabel untuk menghasilkan statistik. Defaultnya adalah semua baris. Gunakan panah atas dan bawah untuk menambah atau mengurangi nilai persen.
Kami merekomendasikan untuk memasukkan semua baris dalam tabel untuk menghitung statistik yang akurat. Gunakan baris sampel untuk menghasilkan statistik kolom hanya jika nilai perkiraan dapat diterima.
Pilih Hasilkan statistik untuk menjalankan tugas.
- AWS CLI
-
Perintah ini akan memicu tugas statistik kolom yang dijalankan untuk tabel yang ditentukan. Anda perlu memberikan nama database, nama tabel, IAM peran dengan izin untuk menghasilkan statistik, dan secara opsional memberikan nama kolom dan persentase ukuran sampel untuk perhitungan statistik.
aws glue start-column-statistics-task-run \
--database-name 'database_name
\
--table-name 'table_name
' \
--role 'arn:aws:iam::123456789012
:role/stats-role
' \
--column-name 'col1
','col2
' \
--sample-size 10.0
Perintah ini akan memulai tugas untuk menghasilkan statistik kolom untuk tabel yang ditentukan.
Memperbarui statistik kolom sesuai permintaan
Mempertahankan statistik up-to-date kolom sangat penting bagi pengoptimal kueri untuk menghasilkan rencana eksekusi yang efisien, memastikan peningkatan kinerja kueri, mengurangi konsumsi sumber daya, dan kinerja sistem keseluruhan yang lebih baik. Proses ini sangat penting setelah perubahan data yang signifikan, seperti beban massal atau modifikasi ekstensif, yang dapat membuat statistik yang ada menjadi usang.
Anda perlu menjalankan tugas Hasilkan statistik secara eksplisit dari AWS Glue konsol untuk menyegarkan statistik kolom. Katalog Data tidak secara otomatis menyegarkan statistik.
Jika Anda tidak menggunakan AWS Glue fitur pembuatan statistik di konsol, Anda dapat memperbarui statistik kolom secara manual menggunakan UpdateColumnStatisticsForTableAPIoperasi atau AWS CLI. Contoh berikut menunjukkan cara memperbarui statistik kolom menggunakan AWS CLI.
aws glue update-column-statistics-for-table --cli-input-json:
{
"CatalogId": "111122223333
",
"DatabaseName": "database_name
",
"TableName": "table_name
",
"ColumnStatisticsList": [
{
"ColumnName": "col1
",
"ColumnType": "Boolean",
"AnalyzedTime": "1970-01-01T00:00:00",
"StatisticsData": {
"Type": "BOOLEAN",
"BooleanColumnStatisticsData": {
"NumberOfTrues": 5,
"NumberOfFalses": 5,
"NumberOfNulls": 0
}
}
}
]
}