Tipo de tarefa compatível Tipos de perturbação Valores computados

Robustez semântica

Avalia o quanto a saída do seu modelo muda como resultado de pequenas alterações que preservam a semântica na entrada. As avaliações do modelo básico (FMEval) medem como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco.

A Amazon SageMaker oferece suporte à execução de uma avaliação de robustez semântica do Amazon SageMaker Studio ou ao uso da biblioteca. fmeval

Executando avaliações no Studio: os trabalhos de avaliação criados no Studio usam padrões pré-selecionados para avaliar rapidamente o desempenho do modelo. Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a fmeval biblioteca.
Executando avaliações usando a fmeval biblioteca: os trabalhos de avaliação criados usando a fmeval biblioteca oferecem opções expandidas para configurar a avaliação de desempenho do modelo.

Tipo de tarefa compatível

A avaliação da robustez semântica é compatível com os seguintes tipos de tarefas com seus conjuntos de dados integrados associados. Os usuários também podem trazer seu próprio conjunto de dados. Por padrão, SageMaker coleta amostras de 100 pontos de dados aleatórios do conjunto de dados para avaliação de toxicidade. Ao usar a fmeval biblioteca, isso pode ser ajustado passando o num_records parâmetro para o evaluate método. Para obter informações sobre como personalizar a avaliação do conhecimento factual usando a fmeval biblioteca, consulte. Personalize seu fluxo de trabalho usando a fmeval biblioteca

Tipo de tarefa	Conjuntos de dados integrados	Observações
Sumarização de texto	Gigaword, conjunto de dados de relatórios governamentais
Respostas a perguntas	BoolQ, TriviaQ NaturalQuestions
Classificação	Resenhas de roupas femininas de comércio eletrônico
Geração aberta	T- REx BOLD, WikiText-2

Tipos de perturbação

A avaliação da robustez semântica faz uma das três perturbações a seguir. Você pode selecionar o tipo de perturbação ao configurar o trabalho de avaliação. Todas as três perturbações são adaptadas do NL-Augmenter.

Exemplo de entrada de modelo:A quick brown fox jumps over the lazy dog.

Butter Fingers: erros de digitação introduzidos devido ao pressionamento da tecla adjacente do teclado.
```
W quick brmwn fox jumps over the lazy dig
```
Maiúsculas aleatórias: Alterando letras selecionadas aleatoriamente para maiúsculas.
```
A qUick brOwn fox jumps over the lazY dog
```
Adicionar e remover espaços em branco: adicionar e remover aleatoriamente espaços em branco da entrada.
```
A q uick bro wn fox ju mps overthe lazy dog
```

Valores computados

Essa avaliação mede a mudança de desempenho entre a saída do modelo com base na entrada original não perturbada e a saída do modelo com base em uma série de versões perturbadas da entrada. Para obter informações sobre a estrutura de solicitações necessária para a avaliação, consulteCrie um trabalho de avaliação automática de modelos no Studio.

A mudança de desempenho é a diferença média entre a pontuação da entrada original e as pontuações das entradas perturbadas. As pontuações medidas para avaliar essa mudança de desempenho dependem do tipo de tarefa:

Resumo

Para tarefas de resumo, a robustez semântica mede as seguintes pontuações ao usar a entrada perturbada, bem como o Delta para cada pontuação. A pontuação Delta representa a diferença absoluta média entre a pontuação da entrada original e as pontuações da entrada perturbada.

ROUGEPontuação delta: a diferença absoluta média na ROUGE pontuação das entradas originais e perturbadas. As ROUGE pontuações são calculadas da mesma forma que a ROUGE pontuação emResumo.
METEORPontuação delta: a diferença absoluta média na METEOR pontuação das entradas originais e perturbadas. As METEOR pontuações são calculadas da mesma forma que a METEOR pontuação emResumo.
DeltaBERTScore: A diferença absoluta média entre BERTScore entradas originais e perturbadas. Eles BERTScores são calculados da mesma forma que o BERTScore inResumo.

Respostas a perguntas

Para tarefas de resposta a perguntas, a robustez semântica mede as seguintes pontuações ao usar a entrada perturbada, bem como o Delta para cada pontuação. A pontuação Delta representa a diferença absoluta média entre a pontuação da entrada original e as pontuações da entrada perturbada.

Pontuação Delta F1 Over Words: A diferença absoluta média nas pontuações F1 Over Words para entradas originais e perturbadas. As pontuações do F1 Over Words são calculadas da mesma forma que a pontuação do F1 Over Words em. Respostas a perguntas
Pontuação da correspondência exata Delta: a diferença absoluta média nas pontuações da correspondência exata para entradas originais e perturbadas. As pontuações da partida exata são calculadas da mesma forma que a pontuação da partida exata emRespostas a perguntas.
Pontuação do Delta Quasi Exact Match: A diferença absoluta média nas pontuações do Quasi Exact Match para entradas originais e perturbadas. As pontuações da Partida Quase Exata são calculadas da mesma forma que a pontuação da Partida Quase Exata em Respostas a perguntas
Pontuação Delta Precision Over Words: A diferença absoluta média nas pontuações de Precision Over Words para entradas originais e perturbadas. As pontuações de precisão sobre palavras são calculadas da mesma forma que a pontuação de precisão sobre palavras emRespostas a perguntas.
Pontuação Delta Recall Over Words: A diferença absoluta média nas pontuações de Recall Over Words para entradas originais e perturbadas. As pontuações de Recall Over Words são calculadas da mesma forma que a pontuação Recall Over Words emRespostas a perguntas.

Classificação

Para tarefas de classificação, a robustez semântica mede a precisão ao usar a entrada perturbada, bem como o Delta para cada pontuação. A pontuação Delta representa a diferença absoluta média entre a pontuação da entrada original e as pontuações da entrada perturbada.

Pontuação de precisão delta: a diferença absoluta média nas pontuações de precisão para entradas originais e perturbadas. As pontuações de precisão são calculadas da mesma forma que a pontuação de precisão emClassificação.

Geração aberta

Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a fmeval biblioteca com GeneralSemanticRobustness. Em vez de calcular a diferença nas pontuações da geração aberta, a avaliação da robustez semântica mede a dissimilaridade nas gerações do modelo entre a entrada original e a entrada perturbada. Essa dissimilaridade é medida usando as seguintes estratégias:

Taxa de erro de palavras (WER): mede a diferença sintática entre as duas gerações calculando a porcentagem de palavras que devem ser alteradas para converter as primeiras gerações na segunda geração. Para obter mais informações sobre o cálculo deWER, consulte o HuggingFace artigo sobre Taxa de erro do Word.
- Por exemplo:
  - Entrada 1: “Isto é um gato”
  - Entrada 2: “Isto é um cachorro”
  - Número de palavras que devem ser alteradas: 1/4 ou 25%
  - WER: 0,25
BERTScoreDissimilaridade (BSD): mede as diferenças semânticas entre as duas gerações subtraindo a de 1. BERTScore BSDpode ser responsável por uma flexibilidade linguística adicional que não está incluída WER porque frases semanticamente semelhantes podem ser incorporadas mais próximas umas das outras.
- Por exemplo, embora WER seja o mesmo quando a geração 2 e a geração 3 são comparadas individualmente com a geração 1, a BSD pontuação é diferente para levar em conta o significado semântico.
  - gen1 (entrada original): "It is pouring down today"
  - gen2 (entrada perturbada 1): "It is my birthday today"
  - gen3 (entrada perturbada 2): "It is very rainy today"
  - WER(gen1, gen2)=WER(gen2, gen3)=0.4
  - BERTScore(gen1, gen2)=0.67
  - BERTScore(gen1, gen3)=0.92
  - BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
  - BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
- As seguintes opções são suportadas como parte do GeneralSemanticRobustnessConfigparâmetro:
  - model_type_for_bertscore: Nome do modelo a ser usado para pontuação. BERTScoreAtualmente, a dissimilaridade suporta apenas os seguintes modelos:
    
    “microsoft/deberta-xlarge-mnli" (padrão)
    
    "roberta-large-mnli"

Modelos não determinísticos

Quando a estratégia de geração do modelo não é determinística, como em LLMs temperaturas diferentes de zero, a saída pode mudar mesmo que a entrada seja a mesma. Nesses casos, relatar diferenças entre a saída do modelo para as entradas originais e perturbadas pode mostrar uma robustez artificialmente baixa. Para explicar a estratégia não determinística, a avaliação da robustez semântica normaliza a pontuação de dissimilaridade subtraindo a dissimilaridade média entre a saída do modelo com base na mesma entrada.

max(0,d−dbase)

d: a pontuação de dissimilaridade (taxa de erro de palavras ou BERTScore dissimilaridade) entre as duas gerações.
dbase: dissimilaridade entre a saída do modelo na mesma entrada.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Estereotipagem imediata

Toxicidade