더 이상 Amazon Machine Learning 서비스를 업데이트하거나 새 사용자를 받지 않습니다. 이 설명서는 기존 사용자에 제공되지만 더 이상 업데이트되지 않습니다. 자세한 내용은 머신 러닝이란? 단원을 참조하세요.
기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon ML의 데이터 형식에 대한 이해
입력 데이터는 데이터 소스를 생성하는 데 사용하는 데이터입니다. 입력 데이터는 쉼표로 구분된 값(.csv) 형식으로 저장해야 합니다. .csv 파일의 각 행은 단일 데이터 레코드 또는 관측값에 해당합니다. .csv 파일의 각 열에는 관측치의 속성이 들어 있습니다. 예를 들어, 다음 그림은 각각 행에 네 개의 관측치가 있는.csv 파일의 내용을 보여줍니다. 각 관측치에 쉼표로 구분된 8개의 속성이 있습니다. 속성은 관측치(customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign)로 표시되는 각 개인에 대한 다음 정보를 나타냅니다.
속성
Amazon ML에는 각 속성에 이름이 필요합니다. 다음과 같이 속성 이름을 지정할 수 있습니다.
-
입력 데이터로 사용하는 .csv 파일의 첫 번째 줄(헤더 라인이라고도 함)에 속성 이름을 포함시켜서
-
입력 데이터와 동일한 S3 버킷에 있는 별도의 스키마 파일에 속성 이름을 포함시켜서
스키마 파일 사용에 대한 자세한 내용은 데이터 스키마 생성 단원을 참조하세요.
.csv 파일의 다음 예제에는 헤더 라인에 속성 이름이 포함되어 있습니다.
customerId,jobId,education,housing,loan,campaign,duration,willRespondToCampaign 1,3,basic.4y,no,no,1,261,0 2,1,high.school,no,no,22,149,0 3,1,high.school,yes,no,65,226,1 4,2,basic.6y,no,no,1,151,0
입력 파일 형식 요구 사항
입력 데이터가 포함된 .csv 파일은 다음 요구 사항을 충족시켜야 합니다.
-
ASCII, 유니코드 또는 EBCDIC과 같은 문자 세트를 사용하여 일반 텍스트로 작성되어야 합니다.
-
한 라인에 관측치 한 개씩, 관측치로 구성되어야 합니다.
-
각 관측치에 대해 속성 값을 쉼표로 구분해야 합니다.
-
속성 값에 쉼표(구분 기호)가 포함된 경우 전체 속성 값을 큰따옴표로 묶어야 합니다.
-
각 관측값은 라인 끝을 나타내는 특수 문자 또는 일련의 문자인 라인 끝 문자로 끝나야 합니다.
-
속성 값을 큰 따옴표로 묶더라도 속성 값에 라인 끝 문자를 포함할 수 없습니다.
-
모든 관측치는 동일한 수의 속성과 속성 순서를 가져야 합니다.
-
각 관측치는 100KB를 넘지 않아야 합니다. Amazon ML은 처리 중에 100KB를 초과하는 관측치를 모두 거부합니다. Amazon ML이 10,000개 이상의 관측치를 거부하게 될 경우 전체 .csv 파일을 거부합니다.
여러 파일을 Amazon ML에 데이터 입력으로 사용
Amazon ML에 입력 내용을 단일 파일 또는 파일 모음으로 제공할 수 있습니다. 파일 모음은 다음 조건을 충족시켜야 합니다.
-
모든 파일에 동일한 데이터 스키마가 있어야 합니다.
-
모든 파일에 동일한 Amazon Simple Storage Service(Amazon S3) 접두사에 있어야 합니다. 파일 모음에 제공하는 경로는 슬래시('/') 문자로 끝나야 합니다.
예를 들어 데이터 파일 이름이 input1.csv, input2.csv, input3.csv이고 S3 버킷 이름이 s3://examplebucket 인 경우 파일 경로는 다음과 같을 수 있습니다.
s3://examplebucket/path/to/data/input1.csv
s3://examplebucket/path/to/data/input2.csv
s3://examplebucket/path/to/data/input3.csv
Amazon ML에 대한 입력으로 다음과 같은 S3 위치를 제공하면 됩니다.
's3://examplebucket/path/to/data/'
CSV 형식의 라인 끝 문자
.csv 파일을 만들면 각 관측치는 특수 라인 끝 문자로 종료됩니다. 이 문자는 보이지 않지만 Enter 또는 Return 키를 누르면 각 관측치 끝에 자동으로 포함됩니다. 라인 끝을 나타내는 특수 문자는 운영 체제에 따라 다릅니다. Linux 또는 OS X와 같은 Unix 시스템에서는 “\n”(10진수는 ASCII 코드 10 또는 16진수의 경우 0x0a)으로 표시되는 줄 바꿈 문자를 사용합니다. Microsoft Windows에서는 “\r\n”(ASCII 코드 십진수 13과 10, 16진수의 경우 0x0d 및 0x0a)으로 표시되는 캐리지 리턴과 줄 바꿈이라는 두 가지 문자를 사용합니다.
OS X와 Microsoft Excel을 사용하여.csv 파일을 만들려면 다음 절차를 수행합니다. 올바른 형식을 선택했는지 확인합니다.
OS X 및 Excel을 사용하는 경우 .csv 파일을 저장하려면
-
.csv 파일을 저장할 때는 형식을 선택한 다음 Windows 쉼표로 분리(.csv)를 선택합니다.
-
저장을 선택합니다.
중요
Amazon ML에서 읽을 수 없으므로 쉼표로 구분된 값(.csv) 또는 MS-DOS 쉼표로 구분된 값(.csv) 형식을 사용하여.csv 파일을 저장하지 마세요.