「Python 実践データ分析100本ノック」の感想文と注意点



Python 実践データ分析100本ノック」を読みました。
普段はエクセルしか使わないんですが、Pythonでもデータ分析できるようになりたいな~と思っていたところちょうどいよいテーマの本が出ていたので購入。1本ずつ写経を続け、100本達成したので、感想文と注意点(正誤表?)を備忘録代わりにまとめます。

・自習用にデータファイルと.ipynb形式のノートブックとその解答がついているため、本文に記載されているプログラムを写経しながら分析の流れを自分の手で実行できます。
・データの前処理のやり方が最初の章になっています。データ分析はデータの前処理が一番大変(?)と言っても過言ではないので、ここにページを割いているのはいいなぁとおもいました。もちろん、これだけで前処理を極められるものでは当然ないですが、こういう処理が必要ですよ、と認識できるのは良いと思いました。
・データのプロットだけではなく、画像処理や自然言語処理まで触れるので楽しいです。もちろん表層だけなので細かいところは専門書で更に突き詰める必要があります。
・後半のネットワーク分析や動画処理のところは、自前PCだと少し重かったりするので、Google colab notebookなどのクラウド上で処理したほうが速いとおもいます。パッケージさえ使えれば、Notebookの使い勝手は変わりませんから。
・今回自前PCのAnaconda 環境で処理を実行しましたが、ところ所、プリインストールされていないパッケージが利用されていますので、適宜必要なパッケージをインストールする必要があります。これが案外大変なので要注意です。その点、上記のColab等のほうがやはり、やりやすいかもしれません。
・今回データ分析の雰囲気がつかめたので、今度は自然言語処理とかでもう少し深く勉強していきたいなと思っています。おもしろいので。
まあ、仕事では一切使わないスキルですが、、、

以下、気になった注意点(自環境での正誤表)です。
オリジナルの正誤表はこちらのサポートページで確認できます。
なお、じぶんの使用した私用PC(ドッw)のスペックと環境はこちらの記事のとおりです。
一文字打つたびにフリーズする労働で使用しているPCの100倍有能です><
全般
・こちらの本(第一版第一刷)が想定する環境はPython3.7(Anaconda)です。自分の使用していた環境はPython3.6でしたので、Anaconda を最新版に再インストールして更新しました。他にもNumpy等が最新版でないと上手く動かないパッケージ等もあったので、必要に応じて最新版の環境に更新する必要があります。
・文章中のソース・コードと参考画像として載っている実行時のノートブック画面が一致していない場合があります。文章中のソース・コードで上手く行かない場合は画像の方をよく観てみましょう。そちらが正解の場合もあります。
第3章
Page 76:.isna() → isnull()にするとエラー解消
Page 83:パッケージ”dateutil”をインストールする必要あり。
".iloc[i]"の部分でなぜか警告がでるが、実行は可能。
Page 87:encoding="utf8"を入れるとエラー解消
第4章
Page 108:encoding="utf8"を入れるとエラー解消
第5章
Page 129:If文中の”オールタイム、デイタイム、ナイト”のところは、
”campaign_name”→”class_name”にするとエラー解消
(こうしないと意味が通らない気がする)
第6章
Page 143: pd.merge()中について、on→left_onに変更、right_index=Trueを追加するとエラー解消。
Page 153: len(G.edges)→ len(G.edges(data=True))にするとエラー解消
第7章
Page 178:このページのソース・コードを実行するには、
”pyparsing”、”ortoolpy”、”pulp”の最新版をインストールする必要性がある。
第8章
Page 195:相図のところは計算が少し重いので、クラウド上で実行したほうが容易い。特にノック79。正直ここだけ重すぎる。重すぎてコードが間違ってるかもわからない。
第9章
パッケージ”OpenCV”をインストールする必要がある。こちらのOpenCVをインストールするための記事を参考にしました。
パッケージDlib”をインストールする必要がある。こちらのDlibをインストールするための記事を参考にしました。
第10章
Page 236: survey["comment"].head() → survey.head()
にすると参考画像の通りの出力となる。
パッケージ”MeCab”をインストールする必要がある。こちらのMeCabをインストールするための記事を参考にしました。

コメント

  1. Water Hack Burns 2lb of Fat OVERNIGHT

    Over 160,000 men and women are using a easy and SECRET "liquid hack" to burn 1-2 lbs every night while they sleep.

    It is scientific and works on anybody.

    This is how you can do it yourself:

    1) Hold a glass and fill it up with water half the way

    2) Proceed to use this proven HACK

    you'll be 1-2 lbs skinnier as soon as tomorrow!

    返信削除
  2. わたしも同じ本を最近読んでいます。が、初心者のためか、意味のわからないところがあります。教えてもらえませんか?
    具体的には、第6章P152のところで、

    num_pre = 0
    (省略)
    # エッジの重みの追加
    if num_pre<len(G.edges):
    num_pre = len(G.edges)
    weight = 0

    とあるのですが、num_preがなんのために設定された変数なのか
    よくわからず、この3行の処理の意味も理解ができないのです。
    もしよかったら教えてください。

    返信削除

コメントを投稿

このブログの人気の投稿

学振採用者はどこへ消えた?

物理系研究関係者、ツイッターやりすぎランキング(ぶひん調べ)

オレ達はあと何本論文を書けば東大教授になれるんだ?