電車遅延なうに遅延路線で話題のワードを表示するようにしてみました
Twitter のデータを元に遅延路線を推測する「電車遅延なう」に、遅延路線で話題になっているワードを表示する機能を追加しました。
↑ 遅延中の路線でのみ表示します。
単純に単語数をカウントしているだけなので、どの単語も閾値より少ない場合は表示されません。
最初は形態素解析して単語数を数えればできるんじゃないかと考えていたのですが、結構たくさん無関係なワードが抽出されるので、なるべくそれらを除外するように調整していて結構な手間です。
形態素解析は以前から Mecab を利用していて、今回から「neologd/mecab-ipadic-neologd」を IPA 辞書と一緒に使うようにしました。辞書を併用する方法は「MeCab システム辞書への単語追加(mecab-ipadic-neologd) | あぱーブログ」に詳しく書かれてます。それでも足りない鉄道関連の頻出語は、随時ユーザー辞書に追加する形で運用してます。
Twitter アカウント @traindelay のほうでは、遅延路線が 1 つの場合のみ話題のワードもあわせてツイートするようにしてみました。あわせてご利用ください。
東急田園都市線で遅延の可能性(05時12分) 話題のワードは「運転見合わせ / ポイント / 大井町線」 → https://t.co/WLIUqpVdbO
— 電車遅延なう (@traindelay) May 27, 2016
コメントを残す