Yahoo! Pipesに任意のウェブページを切り取って分割できるFetch Pageモジュールが追加された
Yahoo! Pipesに任意のウェブページを切り取って分割できるFetch Pageモジュールが追加されたようです。(via Pipes Blog » Blog Archive » New “Fetch Page” module and nice web path enhancement…)
かなり気になったので、早速試してみました。
Fetch Pageモジュールに入力する項目は以下の3つです。
URL:
取得したいページのURLを入力します。
Cut content from … to …
Fromとtoに文字列を入力。ページからコンテンツを切り取りたい範囲を指定する。
Split using delimiter:
ここで指定した文字列で切り取ったコンテンツを分割する。特にコンテンツに繰り返し部分がある場合に有効。
たとえば、はてなブックマークのトップページにある「最近の人気エントリー」を抽出したい場合は以下のようにします。
↑ まずは以下のように入力
URL: http://b.hatena.ne.jp/
Cut content
from: <h3><span><a href=”/hotentry”>最近の人気エントリー</a></span></h3>
to: <li id=”more-hotentry”><a href=”/hotentry”>もっと見る</a></li>
これで出力のプレビューを見てみると、以下のように表示されます。(クリックで拡大)
プレビューではソースをみることもできます。(クリックで拡大)
ソースを見ながら delimiter に指定する文字列を探します。
↑ ここでは <div class=”entry-body”> を指定してみました。
そうすると、以下のように出力されます。(クリックで拡大)
↑ このように、おおよそエントリーごとに内容を切り出せていることがわかります。
Fetch Pageモジュールでできるのはこんな感じです。
なお、これがそのままフィードになるわけではありません。RSSフィードとして書き出したいなら、そのほかのモジュールと組み合わせて、itemのtitleやlink、descriptionを構築してあげる必要があります。
コメントを残す