コメントの投稿
- クローラ(ロボット)作成
クローラ(ロボット)作成だが、サイト(ページ)が存在するかどうかだけで
いいのだが、現在稼動しているのはつぎはぎだらけで修正する気にならない
作り直しをする。
ページを取得するだけであれば簡単である。
PHPではfsockopenを使用すればOKなのだから
でも、実際にはそれ以外の問題が多くある
すべてのサイト(webサーバー)が、存在する場合200を返してくれれば
いいのだが、存在しないのに、200を返す。(googleではソフト404かな?)
移転の場合302,301なのだが、その先が、ソフト404であるとかである。
手順は
1.DNSに存在する。(存在しない場合、エラー)
2.サーバー接続できる。(接続できない場合、エラー)
3.HTTPステータスが200,301,302,304である。
(200,301,302,304以外、エラー)
4.HTTPステータスが304である。(304はOKとする)
5.HTTPステータスが301,302で場合、移転先URLで再スタート
6.200だがソフト302の場合、移転先URLで再スタート
7.200だがソフト404の場合、エラー
8.END.そのサイト(ページ)は存在する
で、大変厄介なのがソフト302 ソフト404 の判定である。
ソフト302の例
・metaタグ
・frame
・JavaScript
など、考えられるが
JavaScriptは、今回も未対応
ソフト404は、
ページ内の文字で、今回も判断した。
たとえば、
『このページは、存在しません。』
とかである。
最後に、クローラしてみてびっくりしたこと
・文字コードがめちゃくちゃなサイトが多いことである
Content-Type: text/html; charset=UTF-8
で、UTF-8じゃないとか
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
で、UTF-8じゃないとか
一番最悪なのが
ページ内で 文字コードが、混在してる場合であった。
投稿内容の公開方法は、ご指定のメールアドレスに記載しています。