注意:本記事の内容はあくまで参考だけとし、実際には行わないでください。
何を思ったか久々に English Grammar in Use(英文法の本です)を読み返していたときのこと。
ふとネットで本について検索したら、以下の URL で書籍の画像キャプチャにアクセスできる状態になっているとのコメントをどこかで見かけた。
https://content.cambridgeone.org/cup1/products/egiu5eebk/25/assets/images/xlrg/English%20grammar%20in%20use%205th%20edition%20book_with%20new%20pages1.jpg
おそらく末尾の pages に続く数字がページ数を意味していて、確かにこの数字を変えていくと他のページのキャプチャが表示される。ちなみに 1 から始まって 392 ページが最後のページの様子。
ということは、例えばターミナルで以下を実行すれば、すべての画像を一発でダウンロードできてしまう。
curl -O "https://content.cambridgeone.org/cup1/products/egiu5eebk/25/assets/images/xlrg/English%20grammar%20in%20use%205th%20edition%20book_with%20new%20pages[1-392].jpg"
コマンドの説明をすると、
-O
オプションでファイルとしてダウンロードする。-O
オプションは指定した URL を保存するファイル名として使う。ファイル名を指定したい場合は小文字の-o <file_name>
を使用しましょう。pages[1-392].jpg
と指定して curl をイテレートさせる。これで 1 から 392 まで数字をイテレートさせながら実行してくれる。
また、上記だと直列実行になるので、時間短縮のために並列実行させる場合は --parallel
オプショナルをつけて実行する。
curl -O --parallel "https://content.cambridgeone.org/cup1/products/egiu5eebk/25/assets/images/xlrg/English%20grammar%20in%20use%205th%20edition%20book_with%20new%20pages[1-392].jpg"
で、これで画像をダウンロードして、あとは JPG から PDF への変換ツールなどに流せば書籍同等のデータができてしまう。
という悪いことを発見しました。が、そもそも私は実物を持っているのでこんなことやる必要もないですね。というかやってはダメ、ゼッタイです。
先の画像はおそらく Ebook とかで特定のユーザのみに表示している画像だと思うのですが、運営側としてもちゃんとアクセス制限かけておかないといけないですね。