F.Ko-Jiの「一秒後は未来」

Twitterで日本語検索がほとんど機能しない件と電車遅延なうの暫定対処

5月26日あたりからTwitterの日本語検索がほとんど機能しなくなっています。

インフルエンザ関連のツイートを集めた「Twiflu」というサイトでTwitterの検索結果をクロールしているのですが、「Twifluトレンド – インフルエンザ関連のつぶやき回数をグラフ表示 | Twiflu」のグラフを見ると5月26日から検索できなくなっているのがわかります。

こういう状況だったので数日前に調べていたのですが、日本語の場合2文字以上だとうまく検索できないことが多く、1文字だとある程度検索できるけど無関係なツイートが混じる場合がありました。

日本語のバグなのでTwitter側が認識してないかも、と思ってとりあえず @support@twitterapi に報告してみたりしていたのですが、昨日ツイッターのタイムラインに「Twitter検索APIで日本語検索結果が5/26から少ない件についてTwitterの回答 – MIRAI THE FUTURE」という記事が流れてきました。

この記事では、ありがたいことにカスタマーサポートに問い合わせた結果を載せてくれています。(というか日本のカスタマーサポートでよかったのか・・・w)

検索について不完全な部分があり、特に現在表示・更新されない場合が多くなっています。

他の部分は定型文っぽいのですが、「特に現在」と書かれているのでどうやらTwitter側でも認識してくれているようです。

で、さらに「スペースをあけて検索すると、反映する場合もあります」と書かれていて、参考のリンク先には「漢字とカタカナの間にスペース」とか説明されているのですが、実際に試してみるとそういうレベルじゃなくて、2文字以上の単語の検索はほとんどだめっぽいです。

一文字ずつ区切ってみた

Twitterに投稿された電車の遅延情報を集約した「電車遅延なう」というサイトもこの巻き添えをくらっていて、電車遅延なうbotが遅延路線をツイートできなくなっていました。

電車遅延なうでは「電車遅延」とか「人身事故」といったキーワードをOR検索しています。

どうにかうまく検索できないかなと思い、これまでの議論をふまえて「電 車 遅 延」や「人 身 事 故」のように一文字ずつスペースで区切るようにしてみたところ、ある程度検索結果が返ってきました。

というわけで場当たり的対処ですが、電車遅延なうでは一文字ずつ区切って検索するように暫定対処してます。

当然この方法だと単語で検索してるわけではないので、まったく無関係なツイートも検索結果に含まれることがあります。多くの場合うまくいきません。「電」「車」「遅」「延」とか「人」「身」「事」「故」の4文字がツイートに同時に含まれることなんて電車が遅延した時くらいなので、うまく検索できてるだけみたいです。

ちなみにTwifluのほうは、「インフル」とかを一文字ずつ区切っても無関係なツイートが入りやすいので、Twitter側が直るまで放置してます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

著者について

fkoji

F.Ko-Ji

Webエンジニアやってます。最近は ドットインストール の開発がお仕事です。その傍ら、個人で Meity電車遅延なう梅酒.in#グラドル自画撮り部 の部室といったネットサービスを開発・運営してます。梅酒と草野球とリアル脱出ゲームが好きです。

» 詳しいプロフィールや運営サービスの一覧など