← Retour au blog

Mesure et indicateurs

Hyokiyure : quand les variantes d'écriture japonaises faussent la mesure IA — et comment bien compter les mentions | Suparanku

Le hyokiyure (表記ゆれ) désigne les multiples façons d'écrire un même nom — キヤノン, キャノン, Canon. L'IA mentionne les marques sous des graphies variées : une recherche sur une seule chaîne manque systématiquement des mentions. Listes d'alias et analyse morphologique sont le prérequis de la mesure de visibilité IA en japonais.

Maksim Gurchenkov (CEO, Apurichoumi Inc.)

Pourquoi les noms de marque japonais se dispersent en variantes

Le japonais offre plusieurs façons d’écrire un même nom : katakana ou alphabet latin (スーパーランク / Suparanku), casse (Canon / CANON), graphie officielle ou usuelle (le katakana officiel de Canon s’écrit avec un grand ヤ — キヤノン — mais beaucoup écrivent キャノン, comme cela se prononce), sans compter les abréviations et les anciens noms. Tous désignent la même entreprise ; en tant que chaînes de caractères, ils sont différents.

Les assistants IA apprennent à partir de textes web variés et emploient des graphies différentes selon le contexte. Imaginez poser la même question neuf fois : les réponses pourraient employer trois fois la graphie latine, quatre fois le katakana officiel et deux fois la forme usuelle. Une telle dispersion est normale — les études montrent qu’un même prompt ne produit presque jamais deux fois la même réponse.

Ce que produit une correspondance naïve de chaînes

Cherchez les mentions avec la seule chaîne « Suparanku », et chaque mention en katakana est comptée comme « non mentionné ». La visibilité paraît plus basse que la réalité ; au pire, la fausse conclusion « zéro présence sur ce thème » envoie le budget dans des travaux inutiles.

L’erreur inverse existe aussi : une abréviation courte comme terme de recherche accroche des mots courants sans rapport et gonfle la visibilité. Dans un sens comme dans l’autre, une mesure cassée casse toutes les décisions qui s’appuient sur elle.

Concevoir une mesure qui compte juste

  1. Maintenez une liste d’alias — énumérez toutes les graphies plausibles par marque (katakana, latin, abréviations, anciens noms). Suparanku prend en charge jusqu’à 50 alias par marque et met en évidence les mentions sous chacune d’elles.
  2. Faites la correspondance avec une analyse morphologique — le japonais ne sépare pas les mots ; segmenter les phrases avec un analyseur comme kuromoji avant la mise en correspondance supprime les faux positifs partiels.
  3. Apprenez de nouvelles variantes à partir des réponses — quand l’IA emploie une graphie non enregistrée, le système de mesure doit la détecter et la proposer comme candidate. Une liste d’alias se cultive avec les données de réponses, elle ne s’écrit pas une fois pour toutes.

En résumé

Le hyokiyure est un problème de mesure particulièrement aigu en japonais — la variation orthographique touche aussi d’autres langues, comme les graphies de marque en coréen et en russe — et celui que les outils pensés d’abord en anglais ratent le plus facilement. Ce n’est qu’avec une conception d’alias et une correspondance morphologique en dessous que les chiffres de visibilité, de sentiment et de share of voice méritent confiance. La conception d’alias et la correspondance morphologique restent toutefois nécessaires mais pas suffisantes : des chiffres de visibilité fiables exigent aussi un échantillonnage répété de chaque prompt — une exécution unique est d’une précision trompeuse.

Termes associés : Hyokiyure, Score de visibilité, Analyse de sentiment

Sources

  1. Wikipedia (ja), “表記揺れ”
  2. kuromoji (Japanese morphological analyzer)
Diagnostic gratuit Contacter l’équipe commerciale