As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Block
UMABlock
representa itens que são reconhecidos em um documento dentro de um grupo de pixels próximos um do outro. As informações retornadas em umBlock
O objeto depende do tipo de operação. Na detecção de texto para documentos (por exemploDetectDocumentText), você obtém informações sobre as palavras e linhas de texto detectadas. Em análise de texto (por exemploAnalyzeDocument), você também pode obter informações sobre os campos, tabelas e elementos de seleção detectados no documento.
Uma matriz deBlock
objetos são retornados por operações síncronas e assíncronas. Em operações síncronas, comoDetectDocumentText, a matriz deBlock
objetos é todo o conjunto de resultados. Em operações assíncronas, comoGetDocumentAnalysis, o array é retornado por uma ou mais respostas.
Para obter mais informações, consulteComo funciona o Amazon Textract.
Índice
- BlockType
-
O tipo de item de texto reconhecido. Em operações para detecção de texto, os seguintes tipos são retornados:
-
PÁGINA- Contém uma lista da LINHA
Block
objetos detectados em uma página de documento. -
PALAVRA- Uma palavra detectada em uma página de documento. Uma palavra é um ou mais caracteres latinos ISO básicos não separados por espaços.
-
LINHA- Uma sequência de palavras contíguas delimitadas por tabulação que são detectadas em uma página de documento.
Em operações de análise de texto, os seguintes tipos são retornados:
-
PÁGINA- Contém uma lista de crianças
Block
objetos detectados em uma página de documento. -
KEY_VALUE_SET- Armazena a CHAVE e O VALOR
Block
objetos para texto vinculado detectado em uma página de documento. Usar aEntityType
campo para determinar se um objeto KEY_VALUE_SET é uma KEYBlock
objeto ou VALUEBlock
objeto. -
PALAVRA- Uma palavra detectada em uma página de documento. Uma palavra é um ou mais caracteres latinos ISO básicos não separados por espaços.
-
LINHA- Uma sequência de palavras contíguas delimitadas por tabulação que são detectadas em uma página de documento.
-
MESA- Uma tabela detectada em uma página de documento. Uma tabela é uma informação baseada em grade com duas ou mais linhas ou colunas, com uma extensão de célula de uma linha e uma coluna cada.
-
CÉLULA- Uma célula dentro de uma tabela detectada. A célula é o pai do bloco que contém o texto na célula.
-
SELECTION_ELEMENT- Um elemento de seleção, como um botão de opção (botão de opção) ou uma caixa de seleção detectada em uma página de documento. Use o valor de
SelectionStatus
para determinar o status do elemento de seleção.
Type: String
Valores válidos:
KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT
Obrigatório: Não
-
- ColumnIndex
-
A coluna na qual uma célula de tabela aparece. A primeira posição da coluna é 1.
ColumnIndex
não é retornado porDetectDocumentText
eGetDocumentTextDetection
.Type: Inteiro
Intervalo válido: Valor mínimo de 0.
Obrigatório: Não
- ColumnSpan
-
O número de colunas que uma célula de tabela abrange. Atualmente, esse valor é sempre 1, mesmo que o número de colunas estendidas seja maior que 1.
ColumnSpan
não é retornado porDetectDocumentText
eGetDocumentTextDetection
.Type: Inteiro
Intervalo válido: Valor mínimo de 0.
Obrigatório: Não
- Confidence
-
A pontuação de confiança que o Amazon Textract tem na precisão do texto reconhecido e na precisão dos pontos de geometria em torno do texto reconhecido.
Type: Float
Intervalo válido: Valor mínimo de 0. Valor máximo de 100.
Obrigatório: Não
- EntityTypes
-
O tipo de entidade. Pode ser retornado o seguinte:
-
CHAVE- Um identificador para um campo no documento.
-
VALOR- O texto do campo.
EntityTypes
não é retornado porDetectDocumentText
eGetDocumentTextDetection
.Type: Matriz de strings
Valores válidos:
KEY | VALUE
Obrigatório: Não
-
- Geometry
-
A localização do texto reconhecido na imagem. Inclui uma caixa delimitadora grossa alinhada ao eixo que envolve o texto e um polígono de grão mais fino para obter informações espaciais mais precisas.
Tipo: objeto Geometry
Obrigatório: Não
- Id
-
O identificador para o texto reconhecido. O identificador é exclusivo apenas para uma única operação.
Type: String
Padrão:
.*\S.*
Obrigatório: Não
- Page
-
A página na qual um bloco foi detectado.
Page
é retornado por operações assíncronas. Valores de página maiores que 1 são retornados somente para documentos de várias páginas que estão no formato PDF ou TIFF. Uma imagem digitalizada (JPEG/PNG), mesmo que contenha várias páginas de documento, é considerada um documento de página única. O valor dePage
é sempre 1. Operações síncronas não retornamPage
porque cada documento de entrada é considerado um documento de página única.Type: Inteiro
Intervalo válido: Valor mínimo de 0.
Obrigatório: Não
- Relationships
-
Uma lista de blocos filhos do bloco atual. Por exemplo, um objeto LINE tem blocos filhos para cada bloco WORD que faz parte da linha de texto. Não há objetos Relacionamento na lista para relacionamentos que não existem, como quando o bloco atual não tem blocos filhos. O tamanho da lista pode ser o seguinte:
-
0 - O bloco não tem blocos filhos.
-
1 - O bloco tem blocos filhos.
Type: Matriz deRelationshipobjetos
Obrigatório: Não
-
- RowIndex
-
A linha na qual uma célula de tabela está localizada. A posição da primeira linha é 1.
RowIndex
não é retornado porDetectDocumentText
eGetDocumentTextDetection
.Type: Inteiro
Intervalo válido: Valor mínimo de 0.
Obrigatório: Não
- RowSpan
-
O número de linhas que uma célula de tabela abrange. Atualmente, esse valor é sempre 1, mesmo que o número de linhas estendidas seja maior que 1.
RowSpan
não é retornado porDetectDocumentText
eGetDocumentTextDetection
.Type: Inteiro
Intervalo válido: Valor mínimo de 0.
Obrigatório: Não
- SelectionStatus
-
O status de seleção de um elemento de seleção, como um botão de opção ou caixa de seleção.
Type: String
Valores válidos:
SELECTED | NOT_SELECTED
Obrigatório: Não
- Text
-
A palavra ou linha de texto reconhecida pelo Amazon Textract.
Type: String
Obrigatório: Não
- TextType
-
O tipo de texto que o Amazon Textract detectou. Pode verificar se há texto manuscrito e texto impresso.
Type: String
Valores válidos:
HANDWRITING | PRINTED
Obrigatório: Não
Consulte também
Para obter mais informações sobre como usar essa API em um dos AWS SDKs específicos de linguagem, consulte o seguinte: