ビッグデータを用いて経済や地域、企業活動などの可視化を行うためには、ビッグデータを読み取りやすくしたKPI指標が必要であり、そのような指標は「研磨済みデータ」と「アルゴリズムの組み合わせ」によって作り出される。そのため、データサイエンティストにとってデータを分析が可能な形式にするための前処理である「データ研磨」は重要なスキルとなっている。 本講義では、「研磨済みデータ」を正しく作成・評価ができる人材の養成を目的に、オープンデータを用いてデータ研磨能力の習得を目指す。講義形式は毎週1コマ実施し、講義毎にアンケートとレポートを課す。使用する言語はR。 なお、2022年度は、新型コロナウイルス感染の状況によって同時双方向型オンライン形式で実施する可能性がある(基本的には対面)。
なお、本講義の成績優秀者には、帝国データバンク/滋賀大学DEMLセンターでの勤務を承認するものとする.
|
|
|
・与えられたデータを、解析可能な状態に研磨し、構造化するための研磨工程の設計・プログラミングが独力でできる ・完成品となった構造化データに対する検査・報告ができる
|
|
|
1.講義導入「ビッグデータのバリューチェーン理解、データ活用の実際」 -データリテラシー -データ研磨の過程を報告する研磨報告書の作成 -Rの導入「パッケージ・ライブラリの利用」 2.スキル習得①「表形式のファイル操作」 -様々な形式のデータ読み込み -読み込んだデータの確認 -ファイルへの出力 -実データでの宿題① 3.スキル習得②「カラム(列)操作」 -カラムの選択 -新しいカラムの作成 -カラム名の変更 -カラムの属性の確認・変更 -実データでの宿題② 4.スキル習得③「値操作」 -文字列の切り出し -文字列の結合 -文字の置換 -四則演算と小数点以下の処理 -実データでの宿題③ 5.スキル習得④「レコード(行)操作①」 -上のレコードの情報を保持 -レコードの並び替え -レコードの重複削除 -レコードの選択 -行間の演算処理 -実データでの宿題④ 6.スキル習得④「レコード(行)操作②」 -レコードの累積 -条件による置換 -ランキングの付与 -実データでの宿題⑤ 7.スキル習得⑤「結合処理 / 集計処理」 -データフレームの縦結合 -データフレームの横結合 -横構造から縦構造への変換 -グループ集計 -クロス集計 -リアルオープンデータでの宿題⑥ 8.スキル習得⑥「データ概要把握のための可視化」 -散布図の作成 -ヒストグラムの作成 -棒グラフの作成 -箱ひげ図の作成 -TOP10のグラフ化 9.特別講演「データ分析の実情」 10.データ研磨演習①「降水量・気温」の説明・実施 11.データ研磨演習①の実施 12.データ研磨演習②「RESAS地方財政」の説明・実施 13.データ研磨演習③「待機児童」の説明・実施 14.データ研磨演習③の実施 15.データ研磨最終レポート課題「経済センサス」の説明・実施
|
|
|
講義前半のスキル習得ではデータ研磨の演習課題を毎講義課す。履修者は期日までに、研磨したデータ、作成したプログラムを提出する。 講義後半の演習では、レポートの提出期日を設け、講義内でも演習実施の時間を確保するが、必要に応じて講義時間外にも演習に取り組むこと。
|
|
|
・スキル習得のための演習課題:40点 ・演習問題①~③:30点 ・最終研磨レポート:30点
|
|
|
与えられたデータを、解析可能な状態に研磨し、構造化するためのプログラミングができることを、演習の提出物である研磨済みデータ及びそのプログラムで、完成品となった構造化データに対するチェック検査・報告ができることを研磨報告書で、それぞれ評価する。具体的には、以下の基準で提出物を採点し、上記の配分に従って重みをつけて合計したものを100点に換算した得点に基づき、90点以上を秀、80点以上を優、70点以上を良、60点以上を可、60点未満を不可とする
・提出データが仕様通りに正しく作成されている(100点) -軽微な修正を要する(ヘッダー名の修正)(-10点) -軽微な修正を2点以上or重大な修正(データカラムが異なる、値が異なる)を要する(-30点) -プログラムが不完全(-60点)
|
|
|
|
|
|
|
|
|
本講義は、帝国データバンクにおいて多くの企業信用調査やオープンデータなどを扱う中で、それらの整理、統合、構造化を行ってきた実務経験のある教員による講義です。本講義の履修はRを扱った経験があることが望ましいです。
|
|
|
|