Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Drop Duplicates を使用する

フォーカスモード
Drop Duplicates を使用する - AWS Glue

Drop Duplicates 変換では、2 つのオプションによってデータソースから行を削除します。完全に一致した重複する行を削除するか、照合するフィールドを選択して、選択したフィールドに基づいて重複する行のみを削除するかのどちらかを選択できます。

例えば、次のデータセットには重複する行があり、行内の一部の値が一致していたり異なっていたりします。また、いくつかの行は、別の行とすべての値が完全に一致しています。

名前 Email(メール) 年齢 都道府県 注記
1 Joy joy@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rose rose@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rose rose@gmail 23 NJ
6 Tim tim@gmail 42 OH これは重複した行であり、行 4 とすべての値が完全に一致しています
7 Rose rose@gmail 23 NJ これは重複した行であり、行 5 とすべての値が完全に一致しています

行全体で照合することを選択した場合、行 6 と 7 はデータセットから削除されます。データセットは次のようになります。

名前 Email(メール) 年齢 都道府県
1 Joy joy@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rose rose@gmail 23 NJ
4 Tim tim@gmail 42 OH
5 Rose rose@gmail 23 NJ

キーを指定することを選択した場合、「名前」と「Email (メール)」が一致する行を削除するように選択できます。これにより、データセットの「重複する行」をより細かく制御できます。「名前」と「Email (メール)」を指定すると、データセットは次のようになります。

名前 Email(メール) 年齢 都道府県
1 Joy joy@gmail 33 NY
2 Tim tim@gmail 45 OH
3 Rose rose@gmail 23 NJ

留意すべき点

  • 行の重複を認識するため、値では大文字と小文字が区別されます。行のすべての値は、大文字と小文字も一致する必要があります。これは、選択したオプション (行全体での一致/指定キーでの一致) のどちらにも当てはまります。

  • すべての値は文字列として読み込まれます。

  • Drop Duplicates 変換は、Spark の dropDuplicates コマンドを使用します。

  • Drop Duplicates 変換を使用すると、最初の行は保持され、他の行は削除されます。

  • Drop Duplicates 変換は、データフレームのスキーマを変更しません。キーの指定を選択した場合、生成されたデータフレームにはすべてのフィールドが保持されます。

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.