Création d'un script utilisateur

Le script utilisateur doit contenir une fonction de point d'entrée (en d'autres termes, un gestionnaire). Vous pouvez nommer votre fichier de script utilisateur avec n'importe quel nom de fichier Python valide.

La procédure suivante explique comment créer un script utilisateur pour définir les fonctionnalités principales de votre PySpark analyse.

Conditions préalables

PySpark 1.0 (correspond à Python 3.11 et Spark 3.5.3)
Les ensembles de données d'Amazon S3 ne peuvent être lus que sous forme d'associations de tables configurées dans la session Spark que vous définissez.
Votre code ne peut pas appeler directement Amazon S3 et AWS Glue
Votre code ne peut pas passer d'appels réseau

Pour créer un script utilisateur

Ouvrez un éditeur de texte ou un environnement de développement intégré (IDE) de votre choix.

Vous pouvez utiliser n'importe quel éditeur de texte ou IDE (tel que Visual Studio Code ou Notepad++) qui prend en charge les fichiers Python. PyCharm
Créez un nouveau fichier Python avec le nom de votre choix (par exemple,my_analysis.py).
Définissez une fonction de point d'entrée qui accepte un paramètre d'objet contextuel.
```
def entrypoint(context)
```
Le paramètre context object est un dictionnaire qui donne accès aux composants essentiels de Spark, aux tables référencées et aux paramètres d'analyse. Il contient :

Accès à la session Spark via context['sparkSession']

Tables référencées via context['referencedTables']

Paramètres d'analyse via context['analysisParameters'] (si les paramètres sont définis dans le modèle)
Définissez les résultats de la fonction entrypoint :
```
return results
```
Le results doit renvoyer un objet contenant un dictionnaire de résultats de noms de fichiers vers une sortie. DataFrame

Note
AWS Clean Rooms écrit automatiquement les DataFrame objets dans le compartiment S3 du récepteur des résultats.
Vous êtes maintenant prêt à :
1. Stockez ce script utilisateur dans S3. Pour de plus amples informations, veuillez consulter Stockage d'un script utilisateur et d'un environnement virtuel dans S3.
2. Créez l'environnement virtuel facultatif pour prendre en charge les bibliothèques supplémentaires requises par votre script utilisateur. Pour de plus amples informations, veuillez consulter Création d'un environnement virtuel (facultatif).

Exemple Exemple 1

The following example demonstrates a generic user script for a PySpark analysis template.


# File name: my_analysis.py

def entrypoint(context):
    try:
        # Access Spark session
        spark = context['sparkSession']

        # Access input tables
        input_table1 = context['referencedTables']['table1_name']
        input_table2 = context['referencedTables']['table2_name']

        # Example data processing operations
        output_df1 = input_table1.select("column1", "column2")
        output_df2 = input_table2.join(input_table1, "join_key")
        output_df3 = input_table1.groupBy("category").count()
    
        # Return results - each key creates a separate output folder
        return {
            "results": {
                "output1": output_df1,        # Creates output1/ folder
                "output2": output_df2,        # Creates output2/ folder
                "analysis_summary": output_df3 # Creates analysis_summary/ folder
            }
        }
   
    except Exception as e:
        print(f"Error in main function: {str(e)}")
        raise e

La structure de dossiers de cet exemple est la suivante :


analysis_results/
│
├── output1/ # Basic selected columns
│ ├── part-00000.parquet
│ └── _SUCCESS
│
├── output2/ # Joined data
│ ├── part-00000.parquet
│ └── _SUCCESS
│
└── analysis_summary/ # Aggregated results
├── part-00000.parquet
└── _SUCCESS

Exemple Exemple 2

The following example demonstrates a more complex user script for a PySpark analysis template.


def entrypoint(context):
    try:
        # Get DataFrames from context
        emp_df = context['referencedTables']['employees']
        dept_df = context['referencedTables']['departments']

        # Apply Transformations
        emp_dept_df = emp_df.join(
            dept_df,
            on="dept_id",
            how="left"
        ).select(
            "emp_id",
            "name",
            "salary",
            "dept_name"
        )

        # Return Dataframes
        return {
            "results": {
                "outputTable": emp_dept_df
            }
        }

    except Exception as e:
        print(f"Error in entrypoint function: {str(e)}")
        raise e

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

PySpark modèles d'analyse

Utilisation des paramètres dans les modèles PySpark d'analyse

Création d'un script utilisateur

Pour créer un script utilisateur

Note

Exemple Exemple 1

Exemple Exemple 2