← ブログ一覧へ戻る

計測と指標

表記ゆれがAI計測を狂わせる — ブランド言及を正しく数える方法 | Suparanku

表記ゆれとは「キヤノン」「キャノン」「Canon」のように同じ対象を指す複数の書き表し方のことです。AIは文脈によって異なる表記でブランドに言及するため、単一の文字列マッチによる計測は言及を系統的に取りこぼします。エイリアス一覧と形態素解析を組み合わせた照合が、日本語のAI可視性計測の前提です。

グルチェンコヴ マクシム(株式会社アプリ調味 代表取締役)

なぜ日本語ブランドは表記が割れるのか

日本語には同じ名前を書き表す方法が複数あります。カタカナと英字(スーパーランク/Suparanku)、大文字小文字(Canon/CANON)、正式表記と慣用表記(キヤノンの「ヤ」は正式には大きい「ヤ」ですが、発音どおり「キャノン」と書く人が多数います)、さらに略称や旧社名。どれも同じ会社を指しますが、文字列としては別物です。

AIアシスタントはウェブ上の多様なテキストから学習し、回答でも文脈に応じて異なる表記を使います。仮に同じ質問を9回投げかけたとすると、回答は3回が英字、4回がカタカナ正式表記、2回が慣用表記 — といったばらつき方も十分にあり得ます。こうしたばらつき自体は正常な現象であり、同一のプロンプトがまったく同じ回答を二度返すことはほとんどないことが調査でも示されています。

単純な文字列マッチで何が起きるか

「Suparanku」という1つの表記だけで言及を検索すると、カタカナで言及された回答はすべて「言及なし」と判定されます。結果として可視性は実際より低く見え、最悪の場合「このトピックでは存在感ゼロ」という誤った結論から、不要な施策に予算が流れます。

逆のエラーもあります。短い略称をそのまま検索語にすると、無関係な一般語にヒットして可視性が過大評価されます。どちらの方向でも、計測が狂えばそこから先の意思決定がすべて狂います。

正しく数えるための設計

  1. エイリアス一覧を整備する — ブランドごとに想定されるすべての表記(カタカナ・英字・略称・旧称)を列挙します。Suparankuではブランドあたり最大50件まで登録でき、回答中の言及はどの表記でもハイライトされます。
  2. 形態素解析で照合する — 日本語は単語の区切りが明示されないため、kuromojiのような形態素解析器で文を分かち書きしてから照合することで、部分一致の誤検出を抑えます。
  3. 新しい表記を回答から学ぶ — AIが使った未登録の表記は、計測システム側が検出して登録候補として提示するべきです。エイリアス一覧は一度つくって終わりではなく、回答データとともに育てるものです。

まとめ

表記ゆれは日本語で特に深刻になる計測課題であり(韓国語やロシア語のブランド表記など、他の言語にも表記の揺れは存在します)、英語圏生まれのツールが最も見落としやすいポイントです。エイリアス設計と形態素解析を前提にした計測基盤があってはじめて、可視性・センチメント・シェア・オブ・ボイスの数字が信頼できるものになります。ただし、エイリアス設計と形態素解析は必要条件であって十分条件ではありません。信頼できる可視性の数値には、各プロンプトを繰り返しサンプリングすることも欠かせません(1回だけの実行は、見かけ上は精密でも実態を見誤らせます)。

関連用語:表記ゆれ可視性スコアセンチメント分析

参考・出典

  1. Wikipedia「表記揺れ」
  2. kuromoji(日本語形態素解析器)
無料診断をはじめる 営業に相談