スキップしてメイン コンテンツに移動

wgetでリンク切れリストを取得する

画像のリンク切れを調べる事になったので、チャチャッと書きました。
wget -r -l 5 -p -nv -nd --spider [URL] > [ファイル名] 2>&1




オプションの解説
-r
与えられたURLから再帰的にリンクを辿り、ファイルを取得します
-l [number]
再帰的に辿る深さを指定します。このオプションは「-r」と共に使います
-p
このオプションが指定されている場合は、「-l」で指定された深さより深い場所にあるファイルでも、既にダウンロードしたHTMLの表示に必要なファイルはダウンロードします
-nv(--no-verbose)
基本情報とエラー情報以外の出力を抑制する
-nd(--no-directory)
ダウンロードしたファイルを保存する際にディレクトリを作成せず、カレントディレクトリにすべて保存します
--spider
ダウンロードは行わず、ファイルの有無を調査するモードで動作します

キモになるオプションは、「-r」「-spider」あたり。「-r」はHTMLを再帰的に解析し、リンクされているドメイン内のファイルを全てダウンロードします。それを「-l」「-l」「-p」で深度を指定し、「-spider」でリンク切れを調査するという寸法です。

リンク切れは標準エラーに出力されるようですので、標準出力と一緒にファイルへ書き出します。
出力された内容の最後に、リンク切れだったファイルが一覧で出力されています。欲しいのはこの部分です。
あとは、出力されたURLを手がかりにアップロードしてあげます。

これでリンク切れは解消されるはずです。

wgetも便利だ~

see also
wget vs curl - コマンドラインダウンロードツール頂上決戦
Wget は必ず最新版を使います


コメント

このブログの人気の投稿

[VB.NET]オレオレ証明書でSSL通信するための短絡的な解決法

VB.NETソフトウェアでサーバーと通信することはよくある事だと思いますが、最近はHTTPを使って明けっ広げに刺しに行くよりHTTPSを使って暗号化してこそこそやった方が時代の流れに即した感じですよね(違うか)。 いちいちテスト環境でSSL証明書を用意するのも面倒だということで、セキュリティ的には全くよろしくない方法で迂回できるので紹介します。

[JS]Canvasでよく使う描画テクまとめ

HTMLで画像をいじくりたい時は、canvasを利用して編集するのは一般的ですが、WindowsストアアプリではHTML+CSS+JSでのアプリ開発ができる事もあって、簡単な画像編集であれば、C#やVBを使うより分かりやすいし資料が多く、C++でDirectXをガリガリ書くよりお手軽。入出力もファイルピッカーを使えば簡単に実装できます。今回は、Windowsのコードではなく、Canvasを利用する時のJavaScriptを使いどきに合わせてまとめていきます。

curl の基本的な使い方 -設定編-

今回のcurl TIPSは、curlをより日常的に使っていくためのHow toです。curlには、数多くのオプションが用意されていて、それらを組み合わせる事で様々な事が楽になるでしょう。サービス監視の自動化などにはまさにcurlの得意分野です。 今回は、curlを更に自分のものにしていくために大事なカスタマイズの部分を解説します。