Apache Flink용 매니지드 서비스를 위한 스튜디오 노트북의 문제 해결 - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink는 이전에 Amazon Kinesis Data Analytics for Apache Flink로 알려졌습니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Apache Flink용 매니지드 서비스를 위한 스튜디오 노트북의 문제 해결

이 섹션에는 Studio 노트북의 문제 해결 정보가 포함되어 있습니다.

멈춘 애플리케이션 중지

일시적 상태에서 멈춘 애플리케이션을 중지하려면 Force 파라미터를 로 설정한 상태로 StopApplication액션을 호출합니다. true 자세한 내용은 Managed Service for Apache Flink 개발자 안내서애플리케이션 실행을 참조하세요.

인터넷에 접속할 수 없는 상태에서 지속 가능한 상태의 VPC 애플리케이션으로 배포할 수 있습니다.

Apache Flink Studio용 관리형 서비스 deploy-as-application 기능은 인터넷 액세스가 없는 VPC 애플리케이션은 지원하지 않습니다. 스튜디오에서 애플리케이션을 빌드한 다음 Managed Service for Apache Flink를 사용하여 Flink 애플리케이션을 수동으로 만들고 노트북에 빌드한 zip 파일을 선택하는 것이 좋습니다.

다음 단계에서는 이 접근 방식을 요약합니다.

  1. 스튜디오 애플리케이션을 빌드하고 Amazon S3로 내보냅니다. 이 파일은 zip 파일이어야 합니다.

  2. Amazon S3의 zip 파일 위치를 참조하는 코드 경로를 사용하여 Managed Service for Apache Flink 애플리케이션을 수동으로 생성합니다. 또한 다음 env 변수(총 2 groupID, 3 var)를 사용하여 애플리케이션을 구성해야 합니다.

  3. kinesis.analytics.flink.run.options

    1. python: source/note.py

    2. jarfile: lib/ .jar PythonApplicationDependencies

  4. managed.deploy_as_app.options

    1. 데이터베이스ARN: <glue database ARN (Amazon Resource Name)>

  5. 애플리케이션에서 사용하는 서비스에 대한 Apache Flink Studio용 관리 서비스 및 Apache Flink용 관리 서비스 IAM 역할에 권한을 부여해야 할 수 있습니다. 두 앱 모두에 동일한 IAM 역할을 사용할 수 있습니다.

D eploy-as-app 크기 및 빌드 시간 단축

필요한 라이브러리를 결정할 수 없기 때문에 Studio deploy-as-app for Python 애플리케이션은 Python 환경에서 사용할 수 있는 모든 것을 패키징합니다. 이로 인해 크기가 필요 이상으로 커질 수 있습니다. deploy-as-app 다음 절차는 종속성을 제거하여 deploy-as-app Python 응용 프로그램 크기를 줄이는 방법을 보여줍니다.

Studio의 deploy-as-app 기능을 사용하여 Python 응용 프로그램을 빌드하는 경우 응용 프로그램이 의존하지 않는 경우 시스템에서 사전 설치된 Python 패키지를 제거하는 것을 고려할 수 있습니다. 이렇게 하면 최종 아티팩트 크기를 줄여 애플리케이션 크기에 대한 서비스 제한을 위반하지 않을 뿐만 아니라 이 기능을 통해 애플리케이션의 빌드 시간을 단축할 수 있습니다. deploy-as-app

다음 명령을 실행하여 설치된 모든 Python 패키지를 각각의 설치된 크기와 함께 나열하고 상당한 크기의 패키지를 선택적으로 제거할 수 있습니다.

%flink.pyflink !pip list --format freeze | awk -F = {'print $1'} | xargs pip show | grep -E 'Location:|Name:' | cut -d ' ' -f 2 | paste -d ' ' - - | awk '{gsub("-","_",$1); print $2 "/" tolower($1)}' | xargs du -sh 2> /dev/null | sort -hr
참고

apache-beam은 Flink Python이 작동하는 데 필요합니다. 이 패키지와 해당 종속성을 제거하면 안 됩니다.

다음은 제거를 고려할 수 있는 Studio V2의 사전 설치 Python 패키지 목록입니다.

scipy statsmodels plotnine seaborn llvmlite bokeh pandas matplotlib botocore boto3 numba
Zeppelin 노트북에서 Python 패키지 제거
  1. 애플리케이션을 제거하기 전에 애플리케이션이 패키지 또는 해당 패키지를 사용하는 패키지에 종속되어 있는지 확인합니다. pipdeptree를 사용하여 패키지의 종속 항목을 식별할 수 있습니다.

  2. 다음 명령을 실행하여 패키지를 제거합니다.

    %flink.pyflink !pip uninstall -y <package-to-remove>
  3. 실수로 제거한 패키지를 검색해야 하는 경우 다음 명령을 실행합니다.

    %flink.pyflink !pip install <package-to-install>
예: deploy-as-app 기능이 있는 Python 애플리케이션을 배포하기 전에 scipy 패키지를 제거하십시오.
  1. pipdeptree를 사용하여 모든 scipy 소비자를 검색하고 scipy를 안전하게 제거할 수 있는지 확인합니다.

    • 노트북을 통해 도구를 설치합니다.

      %flink.pyflink !pip install pipdeptree
    • 다음을 실행하여 scipy의 역방향 종속성 트리를 가져옵니다.

      %flink.pyflink !pip -r -p scipy

      다음과 유사한 출력 화면이 표시되어야 합니다(간결하게 나타내기 위해 요약됨).

      ... ------------------------------------------------------------------------ scipy==1.8.0 ├── plotnine==0.5.1 [requires: scipy>=1.0.0] ├── seaborn==0.9.0 [requires: scipy>=0.14.0] └── statsmodels==0.12.2 [requires: scipy>=1.1] └── plotnine==0.5.1 [requires: statsmodels>=0.8.0]
  2. 애플리케이션에서 seaborn, statsmodelsplotnine의 사용법을 주의 깊게 살펴봅니다. 애플리케이션이 scipy, seaborn, statemodels 또는 plotnine에 종속되지 않은 경우 이러한 패키지를 모두 제거하거나 애플리케이션에 필요하지 않은 패키지만 제거할 수 있습니다.

  3. 다음을 실행하여 패키지를 제거합니다.

    !pip uninstall -y scipy plotnine seaborn statemodels

작업 취소

이 섹션에서는 Apache Zeppelin에서 가져올 수 없는 Apache Flink 작업을 취소하는 방법을 보여줍니다. 이러한 작업을 취소하려면 Apache Flink 대시보드로 이동하여 작업 ID를 복사한 다음, 다음 예제 중 하나에서 이 작업을 사용하세요.

단일 작업을 취소하려면:

%flink.pyflink import requests requests.patch("https://zeppelin-flink:8082/jobs/[job_id]", verify=False)

실행 중인 모든 작업을 취소하려면:

%flink.pyflink import requests r = requests.get("https://zeppelin-flink:8082/jobs", verify=False) jobs = r.json()['jobs'] for job in jobs: if (job["status"] == "RUNNING"): print(requests.patch("https://zeppelin-flink:8082/jobs/{}".format(job["id"]), verify=False))

모든 작업을 취소하려면:

%flink.pyflink import requests r = requests.get("https://zeppelin-flink:8082/jobs", verify=False) jobs = r.json()['jobs'] for job in jobs: requests.patch("https://zeppelin-flink:8082/jobs/{}".format(job["id"]), verify=False)

아파치 플링크 인터프리터 재시작

Studio 노트북에서 Apache Flink 인터프리터를 다시 시작하려면

  1. 화면 오른쪽 상단에 있는 구성을 선택합니다.

  2. 인터프리터를 선택합니다.

  3. 재시작을 선택한 다음 확인을 선택합니다.