プログラミングをはじめて3ヶ月が経ちました。
これまでやったことは、
・python3入門
・エクセル業務自動化に挑戦
・PyQ
オンラインPython学習サービス「PyQ™(パイキュー)」
PyQをすすめているなかで、スクレイピングに出会いました。
スクレイピングとは、ウェブサイトから(プログラミングを使って)情報を抽出する技術のことです。
なんかわかりませんが、スクレイピングめっちゃ面白いってなって、今はPyQを一旦ストップして、スクレイピングのみを勉強しています。
感覚的にはスクレイピングを通してPythonを勉強している感じ。
今使っているのは、PythonによるWebスクレイピング(第2版)という本。
スクレイピングの専門書です。
インターネットからデータを機械的に集め、必要な情報を抽出するWebスクレイピングにより、インターネット上の膨大な情報の中から、検索エンジンだけでは入手できない本当に必要な情報を入手できるようになります。
Webスクレイパーの基礎をていねいに解説するだけでなく、データの抽出、データの格納、データ収集後のクリーニング、さらには、JavaScript実行、Seleniumによる自動化、OCRを含めた自然言語処理、並列処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般だけでなく、問題に遭遇した際の対処法まで紹介します。
豊富な事例から、自分の問題に合ったツールを選択し、解決することが容易となります。
この本で勉強したら、スクレイピングのことが一通りわかりそうだったので選びました。
実際にやってみると、スクレイピングの基礎から説明はしているけれど、かなりハイレベルな内容。
たくさんの項目がありますが、ページ数が限られているので、各項目の要点を説明するような形です。
自分は初心者ということもあって、わからない言葉ばかりでインターネットで調べながら進めています。
(新しい章に進むごとに全くわからなくなるので、その都度、絶望を感じながら学習しています(笑))
かなりやりごたえのある内容ですが、決してできないということではなく、地道に調べながらやっていけば、理解できるようになってきました。
今はだいたい2/3が終わったくらいです。
スクレイピングだけではなく、当然ながらPythonを使うのでPython自体にも慣れてきました。リスト、辞書、タプル、引数、戻り値、型、関数化、正規表現など、Pythonの基本的なプログラミング文法を身につけられてきています。
とりあえず、この本を一通りやって、いくつか興味あるwebサイトへのスクレイピングをやってみます。
その後、PyQに戻ってWebアプリ製作か機械学習(データ分析)分野をやってみようと思います。