F.Ko-Jiの「一秒後は未来」

中黒「・」のありなしで検索結果が変わる

キーワードにもよるのですが、中黒「・」があるのとないのとでは検索結果が変わります。

たとえば「シャングリラダイエット」と「シャングリラ・ダイエット」をGoogleで検索すると、結果がずいぶんと違います。

書籍の正式タイトルは中黒ありの「シャングリラ・ダイエット」なのですが、これをパソコンやケータイで検索するときにわざわざ中黒ありで検索するかと考えると、特にケータイの場合は中黒を入れない気がします。だとすると、記事のタイトルに使う場合は中黒なしがいいのかもと思います。

一方で、ウェブページに書かれている文字列をそのままコピペして検索する人もいます。その場合、中黒ありの「シャングリラ・ダイエット」で検索することになります。だとすると、記事のタイトルに使う場合は中黒ありのほうがいいかもと思います。

こういう違いは検索エンジンが吸収してくれるとありがたいのですが、いまいちです。

  1. UmiNana より:

    Googleのシステムを想像してみると…。

    まず、黒点によってふたつの単語が指定されたと判断します。
    Googleはおそらく、形態素解析による検索もスコアリングの要素になっているのでしょう。
    そうすると、単語をそれぞれ検索Queryとして探索し何かしらのアルゴリズムでスコアリングするわけですが…。

    反対に、黒点が無い場合、まずはそのまま形態素解析しようとするでしょうが、一般的な形態素解析は辞書方式ですので、おそらく解析に失敗します。
    その場合のメジャーな手法としては、n-gramで検索するわけですが、n-gramでは単語を文字に分割再構成して検索Queryとするわけですから、当然、形態素解析とは結果が異なります。

    このふたつの検索結果をうまく融合させるのはかなり難問だと思います。ですから、2系統のアルゴリズが用意され、結果、検索結果が異なってしまいます。

    そのあたり、良いアイデアがあれば、検索ロジックもまた一歩前進するんですけど…。

  2. VEGA(ベガ) より:

    はじめまして、とても興味深く読まして頂きました。
    と言いますのも 私のサイト名が、
    「ジェット・セット・インターネット(JET・SET・INTERNET)」
    でして、中黒「・」だらけなのです・・・。
    最初は何も考えずに始めましたので、気にしなかったのですが、ここ最近ちょうど気にしていたところです。
    今更、サイト名を変えるのも抵抗がありますし、この機会にどれだけ影響があるのか検証したいと思います。

    「えもにゅ」ではありませんが、「奥深き中黒・・・」ですね・・・
    ありがとうございました、失礼します。

  3. F.Ko-Ji より:

    >> UmiNanaさん
    コメントありがとうございます。辞書にあるかないか、中黒ありなしが同一のものと見なされるかどうかなどがポイントになるってことですよね。

    >>VEGAさん
    コメントありがとうございます。おぉ、確かに中黒だらけですね(笑)
    でも検索してみると、中黒ありでもなしでも半角空白区切りでも1位に出るので、あまり気にする必要もないのかなぁと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

著者について

fkoji

F.Ko-Ji

Webエンジニアやってます。最近は ドットインストール の開発がお仕事です。その傍ら、個人で Meity電車遅延なう梅酒.in#グラドル自画撮り部 の部室といったネットサービスを開発・運営してます。梅酒と草野球とリアル脱出ゲームが好きです。

» 詳しいプロフィールや運営サービスの一覧など