ビッグデータを用いて経済や地域、企業活動などの可視化を行うためには、ビッグデータを読み取りやすくしたKPI指標が必要であり、そのような指標は「研磨済みデータ」と「アルゴリズムの組み合わせ」によって作り出される。そのため、データサイエンティストにとってデータを分析が可能な形式にするための前処理である「データ研磨」は重要なスキルとなっている。 本講義では、「研磨済みデータ」を正しく作成・評価ができる人材の養成を目的に、オープンデータを用いてデータ研磨能力の習得を目指す。講義形式は毎週1コマ実施し、講義毎にアンケートとレポートを課す。使用する言語はR。 2023年度は、基本的に対面で講義を進めるものとする。
なお、本講義の成績優秀者には、帝国データバンク/滋賀大学DEMLセンターでの勤務を承認するものとする.
|
|
|
・与えられたデータを、解析可能な状態に研磨し、構造化するための研磨工程の設計・プログラミングが独力でできる ・完成品となった構造化データに対する検査・報告ができる
|
|
|
第1回
|
講義導入「ビッグデータのバリューチェーン理解、データ活用の実際」 -データリテラシー -データ研磨の過程を報告する研磨報告書の作成 -Rの導入「パッケージ・ライブラリの利用」
|
第2回
|
スキル習得①「表形式のファイル操作」 -様々な形式のデータ読み込み -読み込んだデータの確認 -ファイルへの出力 -実データでの宿題①
|
第3回
|
スキル習得②「カラム(列)操作」 -カラムの選択 -新しいカラムの作成 -カラム名の変更 -カラムの属性の確認・変更 -実データでの宿題②
|
第4回
|
スキル習得③「値操作」 -文字列の切り出し -文字列の結合 -文字の置換 -四則演算と小数点以下の処理 -実データでの宿題③
|
第5回
|
スキル習得④「レコード(行)操作①」 -上のレコードの情報を保持 -レコードの並び替え -レコードの重複削除 -レコードの選択 -行間の演算処理 -実データでの宿題④
|
第6回
|
スキル習得④「レコード(行)操作②」 -レコードの累積 -条件による置換 -ランキングの付与 -実データでの宿題⑤
|
第7回
|
スキル習得⑤「結合処理 / 集計処理」 -データフレームの縦結合 -データフレームの横結合 -横構造から縦構造への変換 -グループ集計 -クロス集計 -リアルオープンデータでの宿題⑥
|
第8回
|
スキル習得⑥「データ概要把握のための可視化」 -散布図の作成 -ヒストグラムの作成 -棒グラフの作成 -箱ひげ図の作成 -TOP10のグラフ化
|
第9回
|
データ研磨演習①「降水量・気温」の説明・実施
|
第10回
|
データサイエンス活用企業による特別講演①
|
第11回
|
データ研磨演習②「RESAS地方財政」の説明・実施
|
第12回
|
データサイエンス活用企業による特別講演②
|
第13回
|
データ研磨演習③「待機児童」の説明・実施
|
第14回
|
データ研磨演習③の実施
|
第15回
|
データ研磨最終レポート課題「経済センサス」の説明・実施
|
|
|
|
|
講義前半のスキル習得ではデータ研磨の演習課題を毎講義課す。履修者は期日までに、研磨したデータ、作成したプログラムを提出する。 講義後半の演習では、レポートの提出期日を設け、講義内でも演習実施の時間を確保するが、必要に応じて講義時間外にも演習に取り組むこと。
|
|
|
・スキル習得のための演習課題:40点 ・演習問題①~③:30点 ・最終研磨レポート:30点
|
|
|
与えられたデータを、解析可能な状態に研磨し、構造化するためのプログラミングができることを、演習の提出物である研磨済みデータ及びそのプログラムで、完成品となった構造化データに対するチェックができることを一致確認で、それぞれ評価する。具体的には、以下の基準で提出物を採点し、上記の配分に従って重みをつけて合計したものを100点に換算した得点に基づき、90点以上を秀、80点以上を優、70点以上を良、60点以上を可、60点未満を不可とする
・提出データが仕様通りに正しく作成されている(例:7点満点) -軽微な修正を要する(ヘッダー名の修正)(-2点) -軽微な修正を2点以上or重大な修正(データカラムが異なる、値が異なる)を要する(-5点) -プログラムが不完全(-6点)
|
|
|
|
|
|
参考図書:データサイエンスの必須スキル!データ研磨入門ー大学生のためのデータサイエンスーオフィシャルスタディノート
|
|
|
|
データ研磨、データクレンジング、データの前処理、実務経験
|
|
|
本講義は、帝国データバンクにおいて多くの企業信用調査やオープンデータなどを扱う中で、それらの整理、統合、構造化を行ってきた実務経験のある教員による講義である。 本講義の履修はRを扱った経験があることが望ましい。 また、連絡にはteamsを利用する。
|
|
|
|