As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Robustez semântica
Avalia o quanto a saída do seu modelo muda como resultado de pequenas alterações que preservam a semântica na entrada. As avaliações do modelo básico (FMEval) medem como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco.
A Amazon SageMaker oferece suporte à execução de uma avaliação de robustez semântica do Amazon SageMaker Studio ou ao uso da biblioteca. fmeval
-
Executando avaliações no Studio: os trabalhos de avaliação criados no Studio usam padrões pré-selecionados para avaliar rapidamente o desempenho do modelo. Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a
fmeval
biblioteca. -
Executando avaliações usando a
fmeval
biblioteca: os trabalhos de avaliação criados usando afmeval
biblioteca oferecem opções expandidas para configurar a avaliação de desempenho do modelo.
Tipo de tarefa compatível
A avaliação da robustez semântica é compatível com os seguintes tipos de tarefas com seus conjuntos de dados integrados associados. Os usuários também podem trazer seu próprio conjunto de dados. Por padrão, SageMaker coleta amostras de 100 pontos de dados aleatórios do conjunto de dados para avaliação de toxicidade. Ao usar a fmeval
biblioteca, isso pode ser ajustado passando o num_records
parâmetro para o evaluate
método. Para obter informações sobre como personalizar a avaliação do conhecimento factual usando a fmeval
biblioteca, consulte. Personalize seu fluxo de trabalho usando a fmeval biblioteca
Tipo de tarefa | Conjuntos de dados integrados | Observações |
---|---|---|
Sumarização de texto |
Gigaword, conjunto |
|
Respostas a perguntas | ||
Classificação | ||
Geração aberta |
Tipos de perturbação
A avaliação da robustez semântica faz uma das três perturbações a seguir. Você pode selecionar o tipo de perturbação ao configurar o trabalho de avaliação. Todas as três perturbações são adaptadas do NL-Augmenter.
Exemplo de entrada de modelo:A quick brown fox jumps over the lazy dog
.
-
Butter Fingers
: erros de digitação introduzidos devido ao pressionamento da tecla adjacente do teclado. W quick brmwn fox jumps over the lazy dig
-
Maiúsculas aleatórias
: Alterando letras selecionadas aleatoriamente para maiúsculas. A qUick brOwn fox jumps over the lazY dog
-
Adicionar e remover espaços em branco: adicionar e remover
aleatoriamente espaços em branco da entrada. A q uick bro wn fox ju mps overthe lazy dog
Valores computados
Essa avaliação mede a mudança de desempenho entre a saída do modelo com base na entrada original não perturbada e a saída do modelo com base em uma série de versões perturbadas da entrada. Para obter informações sobre a estrutura de solicitações necessária para a avaliação, consulteCrie um trabalho de avaliação automática de modelos no Studio.
A mudança de desempenho é a diferença média entre a pontuação da entrada original e as pontuações das entradas perturbadas. As pontuações medidas para avaliar essa mudança de desempenho dependem do tipo de tarefa:
Resumo
Para tarefas de resumo, a robustez semântica mede as seguintes pontuações ao usar a entrada perturbada, bem como o Delta para cada pontuação. A pontuação Delta representa a diferença absoluta média entre a pontuação da entrada original e as pontuações da entrada perturbada.
-
ROUGEPontuação delta: a diferença absoluta média na ROUGE pontuação das entradas originais e perturbadas. As ROUGE pontuações são calculadas da mesma forma que a ROUGE pontuação emResumo.
-
METEORPontuação delta: a diferença absoluta média na METEOR pontuação das entradas originais e perturbadas. As METEOR pontuações são calculadas da mesma forma que a METEOR pontuação emResumo.
-
DeltaBERTScore: A diferença absoluta média entre BERTScore entradas originais e perturbadas. Eles BERTScores são calculados da mesma forma que o BERTScore inResumo.
Respostas a perguntas
Para tarefas de resposta a perguntas, a robustez semântica mede as seguintes pontuações ao usar a entrada perturbada, bem como o Delta para cada pontuação. A pontuação Delta representa a diferença absoluta média entre a pontuação da entrada original e as pontuações da entrada perturbada.
-
Pontuação Delta F1 Over Words: A diferença absoluta média nas pontuações F1 Over Words para entradas originais e perturbadas. As pontuações do F1 Over Words são calculadas da mesma forma que a pontuação do F1 Over Words em. Respostas a perguntas
-
Pontuação da correspondência exata Delta: a diferença absoluta média nas pontuações da correspondência exata para entradas originais e perturbadas. As pontuações da partida exata são calculadas da mesma forma que a pontuação da partida exata emRespostas a perguntas.
-
Pontuação do Delta Quasi Exact Match: A diferença absoluta média nas pontuações do Quasi Exact Match para entradas originais e perturbadas. As pontuações da Partida Quase Exata são calculadas da mesma forma que a pontuação da Partida Quase Exata em Respostas a perguntas
-
Pontuação Delta Precision Over Words: A diferença absoluta média nas pontuações de Precision Over Words para entradas originais e perturbadas. As pontuações de precisão sobre palavras são calculadas da mesma forma que a pontuação de precisão sobre palavras emRespostas a perguntas.
-
Pontuação Delta Recall Over Words: A diferença absoluta média nas pontuações de Recall Over Words para entradas originais e perturbadas. As pontuações de Recall Over Words são calculadas da mesma forma que a pontuação Recall Over Words emRespostas a perguntas.
Classificação
Para tarefas de classificação, a robustez semântica mede a precisão ao usar a entrada perturbada, bem como o Delta para cada pontuação. A pontuação Delta representa a diferença absoluta média entre a pontuação da entrada original e as pontuações da entrada perturbada.
-
Pontuação de precisão delta: a diferença absoluta média nas pontuações de precisão para entradas originais e perturbadas. As pontuações de precisão são calculadas da mesma forma que a pontuação de precisão emClassificação.
Geração aberta
Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a fmeval
biblioteca com GeneralSemanticRobustness
-
Taxa de erro de palavras
(WER): mede a diferença sintática entre as duas gerações calculando a porcentagem de palavras que devem ser alteradas para converter as primeiras gerações na segunda geração. Para obter mais informações sobre o cálculo deWER, consulte o HuggingFace artigo sobre Taxa de erro do Word . -
Por exemplo:
-
Entrada 1: “Isto é um gato”
-
Entrada 2: “Isto é um cachorro”
-
Número de palavras que devem ser alteradas: 1/4 ou 25%
-
WER: 0,25
-
-
-
BERTScoreDissimilaridade (BSD): mede as diferenças semânticas entre as duas gerações subtraindo a de 1. BERTScore BSDpode ser responsável por uma flexibilidade linguística adicional que não está incluída WER porque frases semanticamente semelhantes podem ser incorporadas mais próximas umas das outras.
-
Por exemplo, embora WER seja o mesmo quando a geração 2 e a geração 3 são comparadas individualmente com a geração 1, a BSD pontuação é diferente para levar em conta o significado semântico.
-
gen1 (entrada original):
"It is pouring down today"
-
gen2 (entrada perturbada 1):
"It is my birthday today"
-
gen3 (entrada perturbada 2):
"It is very rainy today"
-
WER(gen1, gen2)=WER(gen2, gen3)=0.4
-
BERTScore(gen1, gen2)=0.67
-
BERTScore(gen1, gen3)=0.92
-
BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
-
BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
-
-
As seguintes opções são suportadas como parte do GeneralSemanticRobustnessConfig
parâmetro: -
model_type_for_bertscore
: Nome do modelo a ser usado para pontuação. BERTScoreAtualmente, a dissimilaridade suporta apenas os seguintes modelos:-
“
microsoft/deberta-xlarge-mnli
" (padrão)
-
-
-
Modelos não determinísticos
Quando a estratégia de geração do modelo não é determinística, como em LLMs temperaturas diferentes de zero, a saída pode mudar mesmo que a entrada seja a mesma. Nesses casos, relatar diferenças entre a saída do modelo para as entradas originais e perturbadas pode mostrar uma robustez artificialmente baixa. Para explicar a estratégia não determinística, a avaliação da robustez semântica normaliza a pontuação de dissimilaridade subtraindo a dissimilaridade média entre a saída do modelo com base na mesma entrada.
max(0,d−dbase)
-
d
: a pontuação de dissimilaridade (taxa de erro de palavras ou BERTScore dissimilaridade) entre as duas gerações. -
dbase
: dissimilaridade entre a saída do modelo na mesma entrada.