人工知能にブロックチェーンに、データ解析と業務・私用関係なくPythonに触れる機会が多い昨今。, 今までWordPressや他のブログエンジンでメディア運営されていた方の中には、「WebでPython使えた方が学習効率よくない?」と思われる方もいらっしゃるのでは。, そこで今回は、Pythonの学習事例で多い「スクレイピング」で取得するデータをWebページに反映させる、ということを行ってみます。, "CodeCampus"はオンラインプログラミングスクール No.1のCodeCampが運営するプログラミング未経験の方のための学習メディアです, 今回は、サンプルのプロフィールページに、フリーランス仲介サイトで公開されている実績数などを引用してみます。, 仲介サイトで表示されるデータを自分のプロフサイトに反映できますので、仕事の実績がライブで反映。, これでイチイチ自分のプロフィール・データ更新を気にしなくても、仕事に集中するだけで数字が伸びます。, PythonコードをWebブラウザで手っ取り早く実行させようと思うと「Bottle」というWebフレームワークが便利です。 To perform web scraping, you should also import the libraries shown below. "Web scraping (web harvesting or web data extraction) is a computer software technique of extracting information from websites." HTML parsing is easy in Python, especially with help of the BeautifulSoup library. Posted in Mini Projects, Python, R and tagged automation, coding, JupyterNotebook, miniproject, NoAnaconda, pdftoimage, Programming, Python, R, Rkernel on June 24, 2019 by Kok Hua. フレームワークというと初期設定や内容理解に時間が、、、と思われるかもしれませんが、今回は bottle.py と index.html、 スクレイピング用Pythonファイルの 3つのみ使います。, Jupyter Notebook は、Webスクレイピングしていく中で最終抜き取りたいデータまでのプログラム加工に便利なため、使用します。, 今回は、Webスクレイピングで有名な「Beautiful Soup4」を使って作業していきます。, シュフティ新規アカウント作成するも、データ反映されないためトップユーザーの Y.Matsuzaki_fortyoneさんのプロフィールを参考にさせて頂きました。ご了承ください。, 403:アクセスしたページはインターネット上に存在するが、閲覧することが許可されていません。, あとの2件は読み込み可能なので、クラウドワークスとシュフティの2つからプロフィールデータを引用してみます。, まずは自分のプロフィールページ https://crowdworks.jp/public/employees/14218 にアクセスして、実績数の CSS を確認。, span.score contracts とスクレイピングに適した CSS です。, 欲しいデータを引用できたので、一旦ここで Webページに表示される作業をしてみます。, Pythonでスクレイピングしたデータを変数化して、それを Bottle の書式にあてはめることでスクレイピングしたデータをWeb上に表示できます。, そして指定したローカルホスト http://localhost:1029 にアクセスします。, まず scraping.py の方では、『クラウドワークスのデータをスクレイピング』の章でご紹介したコードを get_number1() と get_number2() にモジュール化。, そしてそれを index() 関数内の number1 と number2 という変数に代入。, 最後に template() 関数に number1 と number2 を out1 、 out2 に変数化して出力。, こちらは {{out1}}、 {{out2}} とダブル波カッコで先ほどの out1 、 out2 を囲むと出力。, ちょっと見た目が寂しいので、上記の index.html のようにコード編集しています。, シュフティは自分のアカウントがリストアップされていないため、トップユーザーの Y.Matsuzaki_fortyone さんを参考にさせて頂きました。, それでクラウドワークスと同じ要領で作業しようと思った矢先、なんと欲しいデータのCSS構造が他のデータと一緒。つまりデータを特定できないんですね。, そこでシュフティの場合は、段階的にコードを絞って、最終的なデータ抽出に結び付けたいと考えました。, まずWebページの抽出方法を、response.text, "html.parser" から page.content, "lxml" に変えます。, 理由は、CSSコードではなくHTMLコードで取得したいデータまでたどり着きたいからです。, 次に欲しいデータ(納品実績)の周辺HTMLコードを見ていくと、リストタグの