← Voltar ao blog

Medição e métricas

Hyokiyure: como variantes de grafia em japonês quebram a medição com IA — e como contar menções de marca corretamente | Suparanku

Hyokiyure (表記ゆれ) significa múltiplas formas de escrever o mesmo nome — キヤノン, キャノン, Canon. A IA menciona marcas em grafias diferentes, então a busca por uma única string perde menções de forma sistemática. Listas de aliases e análise morfológica são a precondição da medição de visibilidade em IA no japonês.

Maksim Gurchenkov (CEO, Apurichoumi Inc.)

Por que nomes de marca em japonês se dividem em variantes

O japonês oferece várias formas de escrever o mesmo nome: katakana vs. alfabeto latino (スーパーランク / Suparanku), maiúsculas e minúsculas (Canon / CANON), grafia oficial vs. coloquial (o katakana oficial da Canon usa um ヤ grande — キヤノン —, mas muitas pessoas escrevem キャノン, como se pronuncia), além de abreviações e nomes antigos. Todos se referem à mesma empresa; como strings, são diferentes.

Os assistentes de IA aprendem com textos variados da web e usam grafias diferentes nas respostas, conforme o contexto. Imagine fazer a mesma pergunta nove vezes: as respostas poderiam usar a grafia latina três vezes, o katakana oficial quatro e a forma coloquial duas. Essa dispersão é normal — pesquisas mostram que o mesmo prompt quase nunca produz duas vezes a mesma resposta.

O que a correspondência ingênua de strings faz

Busque menções apenas pela string “Suparanku”, e toda menção em katakana é contada como “não mencionado”. A visibilidade parece menor do que a realidade; no pior caso, a conclusão falsa de “presença zero neste tema” manda orçamento para trabalho desnecessário.

O erro oposto também existe: uma abreviação curta como termo de busca acerta palavras comuns sem relação e infla a visibilidade. Em qualquer direção, uma medição quebrada quebra toda decisão construída sobre ela.

Desenhando uma medição que conta de verdade

  1. Mantenha uma lista de aliases — enumere todas as grafias plausíveis por marca (katakana, alfabeto latino, abreviações, nomes antigos). O Suparanku aceita até 50 aliases por marca e destaca menções em qualquer um deles.
  2. Faça a correspondência com análise morfológica — o japonês não separa palavras, então segmentar as frases com um analisador como o kuromoji antes da correspondência suprime falsos acertos parciais.
  3. Aprenda novas variantes a partir das respostas — quando a IA usa uma grafia não cadastrada, o sistema de medição deve detectá-la e propô-la como candidata. Uma lista de aliases cresce com os dados das respostas, não é escrita uma única vez.

Resumo

O hyokiyure é um problema de medição especialmente agudo no japonês — a variação ortográfica também afeta outras línguas, como as grafias de marca em coreano e em russo — e o mais fácil de escapar às ferramentas pensadas primeiro para o inglês. Só com design de aliases e correspondência morfológica por baixo é que os números de visibilidade, sentimento e share of voice merecem confiança. Ainda assim, design de aliases e correspondência morfológica são necessários, mas não suficientes: números de visibilidade confiáveis também exigem amostragem repetida de cada prompt — uma única execução é enganosamente precisa.

Termos relacionados: Hyokiyure, Pontuação de visibilidade, Análise de sentimento

Fontes

  1. Wikipedia (ja), “表記揺れ”
  2. kuromoji (Japanese morphological analyzer)
Diagnóstico gratuito Falar com vendas