jupyter lab でアニメ映画シリーズのデータセットを劇場公開数が多い順で可視化してみた!

はじめに

メディア芸術データベースのgithubに、劇場で公開されたアニメ映画のタイトル・公開年・配給元などの情報をJSONとしてまとめたデータセットが公開されていたので、このデータセットを利用して、アニメ映画公開数を作品毎に集計してどの作品が一番公開数が多いか可視化したい!と思いました。

以前の記事でpythonコードをブラウザ上で記述・実行できる jupyter notebook を入れてみましたが、その後続というか進化版であるjupyter labを今回は入れて、このデータセットを可視化します!

インデックス

python環境、jupyter lab環境がすでに構築済みの方は、環境構築は省略して、事前準備からご参照ください。

環境構築

まず python 環境を構築します。今回はM1 mac での手順になります。

  • 実施環境

macOS Monterey 12.2.1(M1 mac)

  • pythonインストール

M1 Macだと、python 3.9以上にしないと、pythonライブラリのpandas / numpy / matplotlib がインストールできませんでした。

デフォルトで入っているpythonバージョン(筆者は3.8.2)で、pipインストールしても、途中でエラーになりました><
ということで、python3.9以上を別途インストールします。

まず、Pythonのバージョン指定してインストールできるpyenvをインストールします。ターミナルを開き以下コマンドを実行します。

pyenvインストールが完了したら、下記コマンドを実行し、インストールできるpythonバージョンリストを確認します。

ベータ版ですが3.11まであるようですね。

今回は、3.10.2をインストールします。下記コマンドを実行し、インストールします。

下記コマンドを実行し、pyenvでインストールしたpythonのパスを設定します。

下記コマンドを実行し、pythonバージョン3.10.2に切り替えます。

下記コマンドを実行し、pythonのバージョンが切り替わっているか確認します。

バージョンが「3.10.2」に切り替わっていますね。

  • 仮想環境作成

次にjupyter lab作業用の仮想環境を用意します。作業用フォルダーなど任意の場所で、下記コマンドを実行します。

これで my_jupyter_labフォルダー内にpythonの仮想環境が構築できました。

仮想環境で作業するため、作成した仮想環境をアクティブ化します。

これで仮想環境で作業ができる状態になりました。

  • jupyter lab含むライブラリインストール

それでは、pipコマンドで、必要なライブラリをインストールします。

jupyter lab も、pipコマンドインストールできます。

インストールできたか確認します。

これで環境構築はできました。

事前準備

  • データセットダウンロード

今回はgithubで公開されているメディア芸術データベースにある、「an210:アニメ映画シリーズ」のデータセットをダウンロードします。Downloadから、JSONファイルをダウンロードします。

ちなみに、データセットは、2010年代までのデータで、2020年代のデータはまだ反映されていないようでした。最新データも早く更新されると良いですねー。

ダウンロードしたファイルを、上記で作成した仮想環境のディレクトリーに datasetディレクトリーを作成して、格納します。

  • データセット加工

ダウンロードしたファイルを集計しやすいように加工しておきます。

オリジナル作品名(原作名)を、劇場タイトルから抽出して設定します。

今回は、公開数が多そうなタイトル(と自分が好きなタイトルも^o^)をピックアップして抽出します。

公開年を10年間隔で集計したいので、screeningYearカラムを追加します。公開年が未設定のものがあるので、集計欠損避けるため、’情報なし’と設定します。

コードは下記のようにしました。

作成したコードを実行します。ファイル名は prework.py で作成しています。

実行すると、datasetディレクトリーに animation_movies_dataset.csv という名前で以下の内容のCSVファイルが作成されます。

このCSVファイルを使用して jupyter labでグラフ化します。

アニメ映画公開数を作品毎に集計して jupyter lab で可視化してみよう!

  • jupyter lab起動

下記コマンドで jupyter lab が起動します。

コマンド実行すると、ブラウザ画面が起動します。

  • ノートブック作成

python3 を選択し、 notebookを作成します。

作成したノートブックは、untitleになっているので rename します。

ファイル名を選択して右クリックし、rename でファイル名を変更します。

作成したノートブックに下記コードを記述します。

事前準備で作成した animation_movies_dataset.csv を読み込んで、作品毎に公開年でグループ化し、公開数合計が多い順でグラフ描画しています。

それでは、コードを実行します。実行ボタンを押下することでコードが実行できます。

 

するとコードの下にグラフが描画されます!

ドラちゃんダントツですね!次に、アンパンマンと国民的アニメが上位に来ていますね。ガンダムもシリーズが多いため3番目になっています。クレヨンしんちゃんは、1990年代から一定数の公開になっていて映画シリーズが根強い人気なのが見えてきますね。

上位を除いて各年代で見てみると

1980年代は うる星やつら が公開数が多い(水色部分)

1990年代は DRAGON BALL が公開数が多い(黄色部分)

2000年代は ONE PIECE、ポケモン、名探偵コナンが公開数が多い(オレンジ部分)

2010年代はプリキュアが圧倒的に公開数が多い(赤色部分)

とその時代で人気のアニメ作品が見えてきますね。

おわりに

今回は、アニメ映画シリーズのデータセットをjupyter labで、劇場公開数が多い作品を集計して可視化してみました。こういうデータセットがあると、興味も湧きますし、色々試してみたいと意欲も湧きますね!


--------------------------
システム開発のご要望・ご相談はこちらから

コメントを残す

メールアドレスが公開されることはありません。