ツイフルに「Twifluホットワード」という機能を実装してみた
いわゆるインフルエンザ版の buzztter か、インフルエンザ版の急上昇ワードみたいな感じですが、ツイフルにも「Twifluホットワード」という機能を実装してみました。
» Twifluホットワード – インフルエンザで話題のワード | Twiflu
この手の機能は初めて作るので、とりあえずそれっぽく結果が出ればいいやと割り切って作ってます。
まずはデータを集めないといけないので、以下のような処理をするバッチを 30 分おきに動かしています。
- 「インフルエンザ」「タミフル」といったインフル関連ワードで Twitter を OR 検索。100件ずつ取得。
- 取得したつぶやきを繋げて Yahoo! の日本語形態素解析 API に POST。単語の出現回数を形容詞と名詞に絞って取得。
- ワードの出現回数をつぶやきの年月日時とともにデータベースに保存。
- これを前回のバッチで取得した最初のつぶやきが出てくるまで繰り返す。
これでインフル関連のつぶやきの中に時間単位で何が何回登場したかが記録されるので、あとはお好みで調理するだけ。
といっても調理の仕方を知らないのでとりあえず次のようにしてみました。
- 現在時刻から過去6時間以内の単語の出現回数を合計し、出現回数の降順で数十件取得。
- 取得した単語ごとに、2時間前から過去6時間の出現回数と比較。
- 2時間前起点の出現回数より増加していればホットワードに採用。
ざっくり過ぎるのですが、インフル関連ワードに絞るとかなり出現回数が少なくなるので、これくらいでもそれっぽい結果が出てくるようです。あとは状況を見つつ微調整をする感じです。
コメントを残す