7. 例
URL="https://bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Examples"
"wget/例"へのコメント(無し)
例は,その複雑さから大まかに三つのセクションに分けています.
7.1 簡単な使用方法
URL="https://bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Simple+Usage"
"wget/簡単な使用方法"へのコメント(無し)
7.2 高度な使用方法
URL="https://bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Advanced+Usage"
"wget/高度な使用方法"へのコメント(無し)
- ダウンロードを行ないたいURLを含むファイルがあるでしょうか?`-i'を 使用します.
ファイル名として`-'を指定した場合,URLは標準入力から読み込ま れます.
- GNUのウェブサイトの五階層までの深さのミラーイメージを,動作のログを `gnulog'に保存しながら,オリジナルと同じディレクトリ構造で,ドキュ メントごとに一度の挑戦だけで作成します.
|
wget -r http://www.gnu.org/ -o gnulog
|
- 以下は上記と同じですが,オフラインでドキュメントが閲覧できるように, HTMLファイル内のリンクをローカルファイルを指し示すものに変換しま す.
|
wget --convert-links -r http://www.gnu.org/ -o gnulog
|
- 一つのHTMLのみを回収し,内部の画像と外部のスタイルシートもダウン ロードされるように,そのページを表示するために必要な全ての要素が確実に 回収します.また,ダウンロードされたリンクもダウンロードしたページを確 実に参照します.
|
wget -p --convert-links http://www.server.com/dir/page.html
|
HTMLページは`www.server.com/dir/page.html'に保存され,そして 画像とスタイルシートなども,リモートのサーバにあった場所に依存して, `www.server.com/'以下に保存されます.
- 上記と同じですが,`www.server.com/'ディレクトリを用いないようにし ます.実際,これらのランダムなサーバディレクトリを全く持ちたいとは思い ません---現在のディレクトリのサブディレクトリ`download/'以下に, これらのファイル全部をそのまま保存したいと思います.
|
wget -p --convert-links -nH -nd -Pdownload \
http://www.server.com/dir/page.html
|
- オリジナルのサーバのヘッダを表示しながら,`www.lycos.com'の index.htmlを回収します.
|
wget -S http://www.lycos.com/
|
- サーバヘッダをファイルに保存し,それはおそらく処理後のためです.
|
wget -s http://www.lycos.com/
more index.html
|
- `wuarchive.wustl.edu'の最初の二階層を回収し,`/tmp'に保存し ます.
|
wget -r -l2 -P/tmp ftp://wuarchive.wustl.edu/
|
- HTTPサーバ上のディレクトリから全てのGIFダウンロードしたいと します.`wget http://host/dir/*.gif'を試しても,HTTPの回収は globをサポートしないので動作しません.その場合は以下を使用してください.
|
wget -r -l1 --no-parent -A.gif http://www.server.com/dir/
|
より冗長ですが,効果は同じです.`-r -l1'は,最大深度が1の再帰的な 回収(see 節 3. 再帰的な回収)を意味します.`--no-parent'は親 ディレクトリへの参照を無視すること(see 節 4.3 ディレクトリベースの制限)を意 味し,`-A.gif'はGIFファイルのみをダウンロードすることを意味 します.`-A "*.gif"'も動作します.
- Wgetが中断されたときダウンロード中だったとします.さて,既に存在するファ イルを壊したくはありません.そして,以下のようにします.
|
wget -nc -r http://www.gnu.org/
|
- HTTPやFTPのユーザ名とパスワードを符号化したい場合,適切な URL構文(see 節 2.1 URLの書式)を使用してください.
しかし,この使用方法は,ps
の出力を見たユーザにパスワードがされ られるので,複数ユーザのシステムでは推奨されないことに注意して下さい.
- 出力されるドキュメントをファイルの代わりに標準出力にしたいでしょうか?
|
wget -O - http://jagor.srce.hr/ http://www.srce.hr/
|
二つのオプションを組み合わせ,リモートのホットリストからドキュメントを 回収するパイプラインを作成することも可能です.
|
wget -O - http://cool.list.com/ | wget --force-html -i -
|
7.3 非常に高度な使用方法
URL="https://bookshelf.jp/cgi-bin/goto.cgi?file=wget-ja&node=Very+Advanced+Usage"
"wget/非常に高度な使用方法"へのコメント(無し)
- ページ(またはFTPサブディレクトリ)のミラーをWgetに保持させたい場合, `-r -l inf -N'に対する省略形の`--mirror' (`-m')を使用し てください.日曜日ごとにサイトの再調査を依頼するため,Wgetをcrontabファ イルに書くことが可能です.
|
crontab
0 0 * * 0 wget --mirror http://www.gnu.org/ -o /home/me/weeklog
|
- 上記と同様に,ローカルで閲覧するためにリンクを変換したいとします.しか し,このマニュアルを読んだ後では,リンクの変換がタイムスタンプのように うまく動作しないことが分かるので,変換前にWgetにオリジナルのHTML ファイルをバックアップさせたいとします.Wgetの呼び出しは以下のようにな ります.
|
wget --mirror --convert-links --backup-converted \
http://www.gnu.org/ -o /home/me/weeklog
|
- しかし,HTMLファイルが`.html'以外の拡張子で保存されるときは, ローカルでの閲覧はうまく動作しないことに気付いていて,それはおそらく `index.cgi'として保存されているためです.そのためWgetで, content-type `text/html'の全てのファイルを, `name.html' に名前を変えたいことでしょう.
|
wget --mirror --convert-links --backup-converted \
--html-extension -o /home/me/weeklog \
http://www.gnu.org/
|
または,より入力が少ない以下を用います.
|
wget -m -k -K -E http://www.gnu.org/ -o /home/me/weeklog
|