netcat で web サイトのデータを取得します。
Windows 版で行っていますが、基本は Linux 版とも同じだと思います。
用意すること
netcat をダウンロードします。(
Windows 版の netcat 参照)
netcat のプログラム nc.exe を c:\Toolkit\nc111nt に置いておきます。
Web サイトへアクセス
まずは Web サイト(maruton's memorandum)へアクセスしてみます。
※HEAD と HTTP は大文字です。 ↵ は[Enter]キーです。
意味はこのようになります。
nc ・・・ netcat コマンド(nc.exe)
maruton-memorandum.blogspt.jp ・・・ サイトの URL
80 ・・・ ポート番号
HEAD ・・・ ヘッダ情報を取得(ページを取得するなら GET)
/ ・・・ html ファイルへのパス(これはサイトのデフォルトページを取りに行く)
HTTP/1.1 ・・・ HTTP バージョン番号
結果はこのようになりました。
Status Code: 302
3xx は Redirection であって、「リクエストを完了させるためには追加の処理が必要」となっているコードです。
Location:ヘッダに移動先のURLが示されます。
Location ヘッダが存在します。
しかも Google のサイトとなっています。
GET コマンド使ってページの取得を試してみます。
※GET と HTTP は大文字です。 ↵ は[Enter]キーです。
結果です。
上半分のデータは同じです。
そして下半分に追加のデータがあります。
上半分のデータが同じなのは「HEAD コマンドはヘッダ情報のみ取得してページの内容は取らない」という命令だからです。
ちなみに Location に記載された URL にブラウザでアクセスしてみたのですが、Google のページしか出てこなかったです。
これで終わったらちょっと残念なので、今度は ちゃんと
Status Code 200 になるページを見ます。
※HEAD と HTTP は大文字です。今度は HTTP/1.0 にします。 ↵ は[Enter]キーです。
今度の結果はこのようになりました。
Status Code: 200
2xx は Success であって、成功を意味するコードです。
GET コマンドを使うとページが取得できます。
ただし、ブラウザではないので、html 文の表示になります。
大量の html 文が出てくるのであんまり面白くなく、ここではここまでにします。
Windows Tools のページに戻る
0 件のコメント:
コメントを投稿