コンサデコンサとスクレイピングサイト

先日、Googleの検索エンジンを使用していて、コンサドーレの応援サイトであるコンサデコンサのスクレイピングサイト(この場合のスクレイピングサイトは、悪質なものの方ね)があることに気がついた。

googleで「コンサデコンサ」を検索して、最初のページに表示されるもののうち、真ん中あたりにある3つがそれ。記事のタイトルにコンサデコンサが入っているものの、自動生成された記事で文章がごった煮状態になっていて内容がない。

参考までに該当するサイトのスクリーンショットを載せておく。

文章の構成から見るに、自動で生成されたもののようだ。

スクレイピングサイトというのは「IT用語辞書バイナリ」によれば以下のようなもの。
【以下斜体部引用】

スクレイピングサイト
別名:スクレーピングサイト,スクレーパーサイト
【英】Scraper site
スクレイピングサイトとは、他のWebページからコンテンツの一部を抜き出し、自分のWebページのコンテンツとして使用しているWebサイトのことである。

Webページ(HTMLファイル)から特定の部分を抽出する行為は、Webスクレイピングと呼ばれる。スクレイピングサイトはWebスクレイピングやRSSフィードの取得などによってコンテンツを収集・利用し、自分のWebサイトへの訪問者を増やし、それによって労力を費やさずに広告収入などを得ようとする。

スクレイピングサイトは他人の作成したコンテンツを利用しただけのスパムサイトと見なされる事が多い。Googleは2011年2月に、検索結果ページ(SERP)からスクレイピングサイトを排除する方針を発表している。

今回の3件は、複数のウェブ上のコンテンツから自動で収集した文章の一部をモザイクのように貼り合わせ記事に仕立てている。Googleは、このようなサイトをコンテンツファームと呼び、検索エンジンに載らないようプログラムの改良を続けているが、完全に排除するのが難しいということだろう。コンテンツファームとは下記の様なものです。

Googleが対策に乗り出した“コンテンツファーム”とは(2011年01月25日)より引用。

【以下斜体部引用】

たとえば次のようなコンテンツがコンテンツファームに相当しそうです。

  • スクレイピング
    他のサイトからコンテンツをコピーしてページを自動生成したコンテンツ
  • 自動生成したコンテンツ
    完全に自動化されたものもあるし、多少人の手が加えられたものもあります。
  • 信ぴょう性が担保されていない投稿サイト
    一般人のユーザー同士が助けあうQ&Aサイトは、素人が回答する場合も多いです。
  • 既存のコンテンツを書き直したコンテンツ
    単語を変えたり語順を入れ替えたり、でも言ってることは同じ。
  • 宣伝のためのコンテンツ
    見返りに報酬をもらうために書く、商品やサービスのレビュー記事。
  • ウィキ
    百科事典タイプのコンテンツ

いろんなことを考える人がいるんですねえ。