【Power BI】更新が遅くなる境界線は? ファイル数による影響をテストしてみた

みなさんはデータ分析を実施する際にPower BIは活用されていますでしょうか。Power BIでは様々なデータソースからデータの可視化を行うことができます。データソースの更新方法の一つとしてデータソースにフォルダを指定し、そのフォルダ内に同じ形式のエクセルファイルやCSVファイルを保存していくだけで更新を行うことができます。ただ、フォルダにファイルが増えていくたびにPower BIが参照するファイル数が増加し、更新時間が遅くなるといった影響もあります。今回は同じデータ件数でファイル数が異なる場合更新時間にどのような影響があるのか検証してみましたので紹介します。

■検証環境・条件

検証環境、検証データ、検証項目は以下となります。

表1:PCスペック一覧
表2:検証データ一覧
表3:検証項目一覧

検証で表示させるPower BIのグラフは「折れ線グラフ及び集合縦棒グラフ」を使用します。

図1:検証表示用グラフ(月ごとのICT機器の売上と販売数の関係)

■仮説

以下のような仮説を立ててみました。

更新時間が速い No1≦No2<No3<No4 更新時間が遅い

仮説の理由として表3の検証項目一覧でファイル数を指数関数的に増加させる条件を設定したためNo3以降から更新時間が大幅に遅くなると予想されます。

■結果

表4:検証結果一覧

更新時間が速い No2≦No1≦No3<No4 更新時間が遅い

No1~No3は同じくらいの更新時間でした。No4に関してはNo1~No3の時間の約3倍の時間が掛かる結果となりました。1000ファイルを超えると更新時間に影響が表れてくる結果となりましたが、今回の検証ではデータを結合する以外のクエリ処理は全く含めていないシンプルなデータのためクエリ処理を含めた場合さらに更新時間に影響が出てくると考えられます。任意のフォルダをデータソースとしてPower BI上で可視化する際には更新時間を考慮した適切なファイル数、データ構造を意識することがポイントとなります。本コラムを参考に更新時間も意識し、よりよいデータ構造を検討していただけたらと思います。

cropped-logo-1.png

技術とノウハウでデジタルシフトをサポート
中小企業の頼れるパートナー

執筆者: 村瀬 俊昭(株式会社クロスディーズ システム技術統括エンジニア)

前職では社内システムの運用、サーバーの監視、システム運用業務の構築、システム開発業務といった業務に幅広く携わる。2021年より株式会社佐々木総研にてロボットの設計・開発、社内SEとして従事している。釣りが趣味で、大のビール好き。