アフィリエイト初心者が大金を稼ぐブログ

ブラック企業を退職した管理人がアフィリエイトで四苦八苦している様子を公開します

*

スクレイピングサイトはアクセス数に悪影響があるのか?

   

スクレイイング

スクレイピングサイトとアクセス数

以前、「スパムサイトからブログ記事を無断でコピーされた」という記事を書きましたが、アフィリエイトをしているとブログ記事を無断転載するスクレイピングサイトに狙われるケースが多々あります。特にアダルト系のアフィリエイトをしている場合、「アダルト動画まとめ」という感じで、勝手に記事のタイトルや文章、画像などをコピーしていることが多いです。しかも大抵の場合、そのようなスパマーは複数のドメインを取得して似たようなサイトを大量に作成しています。その結果、一度スパマーのターゲットになると、ブログ記事の無断転載が一気に広がるのです。

もし、このようなスパムサイトにブログ記事を無断転載された場合、転載された側のサイトにはどのような影響があるのでしょうか?一番心配なことは、自分のサイトがオリジナルではなく、逆に重複コンテンツであると判断されてしまうことです。Googleはインデックスされたタイミングやリンク構造など複数の観点でオリジナルサイトを判別しているようですが、これはどの程度精度が高いのか私には分かりません。

例えば、スクレイピングされていたサイトを何らかの理由でサイト移転するケースを考えます。この時、移転元から移転先へリダイレクトしていたり、移転元のページに移転先のリンクを掲載していた場合、新規ドメインで作った移転先のサイトもスクレイピングサイトに狙われる可能性があります。新規で取得したドメインですから、記事を投稿したとしてもクロールの巡回頻度は少なく、クロール依頼を出したとしてもコピーした記事の方が先にインデックスされるかもしれません。はたして、このケースでも自分のサイトがオリジナルと判断されるのでしょうか?他にも、サテライトサイトからの自演リンクがSEO上問題になっていますが、このようなスパムサイトから張られたリンクは自演リンクだと誤認されないのでしょうか?

少なくても私の場合、記事のタイトルで検索を行えば、スクレイピングサイトの方が上位に表示されるケースが多いです。実際には、記事のタイトルを完全一致で検索する人はいないので、厳密にはどの程度のアクセスが奪われているか不明ですし、自分が所有しているサイトの価値が低いことが原因と言えばそうなのですが、それでも楽して無断転載している他人のサイトが、苦労して記事を書いた自分のサイトよりも上位に表示されるのは何だか違和感を覚えます。

私が運営していたサイトでアクセスが激減したサイトは、総じてスクレイピングサイトから無断転載を受けていました。例えば、「原因不明のアクセスダウン、私がアクセスアップするために実践したこと」でアクセスが減少したサイトは、数十個のドメインから500本近い記事が無断転載されていました。無断転載されたからアクセスが減ったのかは分かりませんので因果関係は不明ですが、相関関係はありそうです。

無断転載を確かめる方法

スパムサイトは「勝手に」記事をコピーしていますから、オリジナルのサイト運営者が大量の無断転載をされていることに気がつかない可能性があります。そこで、私が実践している無断転載を確かめる方法についてご紹介します。

サイトへのリンクを確認

Google Search Consoleの「サイトへのリンク」という機能では、自分が所有しているサイトに対してリンクを貼っているドメインやページを知ることができます。スクレイピングサイトでは、著作権対策のつもりなのかオリジナルのサイトへリンクを掲載していることがあります。例えば、記事を全文パクっておきながら、「記事の続きはこちら」みたいな感じでリンクを張っているサイトがあります。

サイトへのリンクを使ったスクレイピングの確認

「サイトへのリンク」を時々確認し、不自然な被リンクがついていないか確認しましょう。私の場合、久しぶりに見たら数百件のリンクがついていて驚いた経験があります。

リファラ情報の参照

リファラとは、自分のサイトに対してどこから来たのかリンク元を表す情報のことです。そして、アクセス解析機能では、このリファラ情報を表示できます。スクレイピングサイト経由で自分のサイトを訪問している場合、リファラ情報にはスクレピングサイトのURLが表示されるため、無断転載を知ることができます。

例えば、Googleアナリティクスの場合、「集客」⇒「参照サイト」と進むとリファラ情報を確認することができます。

参照サイト

ただし、注意することは、悪意のあるリファラスパムの可能性もありますので、無闇にアクセス元のWebページを表示するのではなく、事前にGoogleの検索フィールドにURLを入力してスニペットを確認するなどした方が安全です。

タイトルで検索

Google Search Consoleの「サイトへのリンク」は全てのリンクがリアルタイムに表示されていないような気がしますし、リファラの場合はスクレイピングサイト経由で自分のサイトが訪問されるまで無断転載を知ることができません。そこで、自分から能動的に無断転載を確かめる方法として、記事のタイトルで検索することが手っ取り早いと思います。

スパムサイト判定方法

大抵のスクレイピングサイトは記事のタイトルを丸々コピーしていますので、記事のタイトルをダブルクオーテーションで囲み、完全一致として検索すればヒットすると思います。

無断転載されていた時の対処法

もし、残念ながら無断転載を発見してしまった場合にはどうすれば良いのでしょうか?ここでは、私が実践したものを含め、幾つか対処法をご紹介します。詳細は、「スパムサイトからブログ記事を無断でコピーされた」をお読みください。

削除依頼を出す

無断転載したスパマーとメールで連絡を取り、記事を削除してもらう方法です。記事を削除してもらえば将来的にはインデックスからも削除されますし、もしかしたら、それ以降は自分のサイトに対して無断転載を止めてくれるかもしれません。そのため、この方法で円満に解決することが最も好ましいような気がします。

しかし、問い合わせたとしても返信がくる可能性は低いです。私の場合、返信自体は返ってきたのですが、なかなか記事を削除してもらえず、複数回メールでやりとりをしてやっと一部だけ削除してもらえました。そもそも、スパマーと連絡を取る手段が書かれていない場合もあります。サイトのトップページやフッター、コメントの送信フォームまで細かくチェックし、どこにも連絡を取る手段がなければ、スパムサイトのプロバイダを調べ、プロバイダに相談するという選択肢もあるようです。

DMCA侵害の申請

DMCA侵害の申請が受理されれば、無断転載しているページはインデックスから削除されます。しかし、インデックスから削除されるだけなので、削除依頼を出した時と異なってURLの直打ちをすれば表示されますし、DMCA侵害の申請は少し敷居が高い側面もあります。

スパムレポートの報告

スパムレポートを報告することにより、Googleに対してスパムサイトの存在を知らせることができます。しかも、手続きが非常に簡単で、無断転載しているページのURLを入力し、無断転載の状況を簡単に記入するだけで済みます。私の場合、最近は削除依頼を出すことも面倒になって、最初からスパムレポートで報告することが多いです。スパムレポートが受理されればスパムサイトに手動ペナルティが課せられる可能性もありますが、あくまでスパムサイトの報告をすることが目的であるため、DMCA侵害の申請と違ってインデックスの削除を約束するものではありません。

リンクの否認

リンクの否認とは、自分のサイトへ張られているバックリンクのSEO上の効果を無効にする機能です。スパムサイトから大量の「低品質な」リンクを張られているのであれば、それらを個々のリンク単位、またはドメイン単位に否認することが可能です。ただし、私の経験ではあまり効果がなかったように感じます。

IPアドレスのブロック

スパムサイトのIPアドレスを調べ、それをブロックするという手法です。私は利用したことがありませんが、WordPressのプラグインに「WP-Ban」というものがあります。気になる人は調べてみてください。

無断転載を防ぐ方法

無断転載をされた時の対処法を紹介してきましたが、そもそも無断転載されないことが一番です。しかし、手動で記事をコピーする行為も含めれば、完全に無断転載を防ぐことは不可能です。そこで、無断転載されたときの影響を少しでも減らす方法をご紹介します。

RSSを一部配信にする

RSSの情報を元にスクレイピングしているケースがあります。そこで、RSSで全文配信することを止めて一部配信に変えれば、スパムサイト側に表示される無断転載のテキスト量を減らすことができます。

RSS一部配信

WordPressの場合は「設定」⇒「表示設定」と進むと「RSS/Atomフィードでの各投稿の表示」がありますので、ここを「抜粋のみを表示」に変更すれば完了です。

PubSubHubbubを導入する

「PubSubHubbub(パブサブハブバブ)」とは、データが変更されたことをリアルタイムに通知するプロトコルです。記事を投稿した際にPubSubHubbubのタグを設定しておくと、グーグルに対して即座に記事の公開を通知することができるため、結果的にスパムサイトよりも「オリジナル」であると判定される可能性が上がります。

WordPressでは「PubSubHubbub」というプラグインがあるため、インストールして有効化すれば、デフォルトの設定のままで利用することができます。

PubSubHubbub

初期設定では、上図のように2か所のハブが設定されています。記事を新たに投稿すると、このハブサイトに対してPOSTメソッドでリクエストが送信され、ハブサイトが新規記事を確認した後、ハブサイトがPubSubHubbubに対応している「購読者」に対して記事の公開を通知してくれます。

まとめ

アフィリエイトではブログ記事を無断転載されるケースは多々あります。無断転載されても全く悪影響がないのであれば別に放置しておいても良いのですが、Googleのアルゴリズムが100%のケースをカバーしているのか、正確なことはよく分かりません。最近では、無断転載を気にして対応に悩まされるよりも、手を動かして記事を書き続けた方が良いのかなと思ったりもします。

 - アクセスアップ, アフィリエイトの稼ぎ方