タイトル
時間割番号: 7023101101
データ研磨
 
担当教員
大里 隆也[OHSATO Takaya]
開講学部等 データサイエンス学部 対象年次   単位数 2
開講時期 秋学期 開講曜時 金3 クラス  
ナンバリング DSAP23014
授業形態 【オ】ハイブリッド授業(対面+同時双方向)
授業の目的と概要  
ビッグデータを用いて経済や地域、企業活動などの可視化を行うためには、ビッグデータを読み取りやすくしたKPI指標が必要であり、そのような指標は「研磨済みデータ」と「アルゴリズムの組み合わせ」によって作り出される。そのため、データサイエンティストにとってデータを分析が可能な形式にするための前処理である「データ研磨」は重要なスキルとなっている。
本講義では、「研磨済みデータ」を正しく作成・評価ができる人材の養成を目的に、オープンデータを用いてデータ研磨能力の習得を目指す。講義形式は毎週1コマ実施し、講義毎にアンケートとレポートを課す。使用する言語はR。
2023年度は、基本的に対面で講義を進めるものとする。

なお、本講義の成績優秀者には、帝国データバンク/滋賀大学DEMLセンターでの勤務を承認するものとする.
 
授業の到達目標  
・与えられたデータを、解析可能な状態に研磨し、構造化するための研磨工程の設計・プログラミングが独力でできる
・完成品となった構造化データに対する検査・報告ができる
 
授業計画  
No内容
第1回 講義導入「ビッグデータのバリューチェーン理解、データ活用の実際」
-データリテラシー
-データ研磨の過程を報告する研磨報告書の作成
-Rの導入「パッケージ・ライブラリの利用」
第2回 スキル習得①「表形式のファイル操作」
-様々な形式のデータ読み込み
-読み込んだデータの確認
-ファイルへの出力
-実データでの宿題①
第3回 スキル習得②「カラム(列)操作」
-カラムの選択
-新しいカラムの作成
-カラム名の変更
-カラムの属性の確認・変更
-実データでの宿題②
第4回 スキル習得③「値操作」
-文字列の切り出し
-文字列の結合
-文字の置換
-四則演算と小数点以下の処理
-実データでの宿題③
第5回 スキル習得④「レコード(行)操作①」
-上のレコードの情報を保持
-レコードの並び替え
-レコードの重複削除
-レコードの選択
-行間の演算処理
-実データでの宿題④
第6回 スキル習得④「レコード(行)操作②」
-レコードの累積
-条件による置換
-ランキングの付与
-実データでの宿題⑤
第7回 スキル習得⑤「結合処理 / 集計処理」
-データフレームの縦結合
-データフレームの横結合
-横構造から縦構造への変換
-グループ集計
-クロス集計
-リアルオープンデータでの宿題⑥
第8回 スキル習得⑥「データ概要把握のための可視化」
-散布図の作成
-ヒストグラムの作成
-棒グラフの作成
-箱ひげ図の作成
-TOP10のグラフ化
第9回 データ研磨演習①「降水量・気温」の説明・実施
第10回 データサイエンス活用企業による特別講演①
第11回 データ研磨演習②「RESAS地方財政」の説明・実施
第12回 データサイエンス活用企業による特別講演②
第13回 データ研磨演習③「待機児童」の説明・実施
第14回 データ研磨演習③の実施
第15回 データ研磨最終レポート課題「経済センサス」の説明・実施
 
事前学習・事後学習など授業時間外の学習  
講義前半のスキル習得ではデータ研磨の演習課題を毎講義課す。履修者は期日までに、研磨したデータ、作成したプログラムを提出する。
講義後半の演習では、レポートの提出期日を設け、講義内でも演習実施の時間を確保するが、必要に応じて講義時間外にも演習に取り組むこと。
 
成績評価の方法  
・スキル習得のための演習課題:40点
・演習問題①~③:30点
・最終研磨レポート:30点
 
成績評価の基準  
与えられたデータを、解析可能な状態に研磨し、構造化するためのプログラミングができることを、演習の提出物である研磨済みデータ及びそのプログラムで、完成品となった構造化データに対するチェックができることを一致確認で、それぞれ評価する。具体的には、以下の基準で提出物を採点し、上記の配分に従って重みをつけて合計したものを100点に換算した得点に基づき、90点以上を秀、80点以上を優、70点以上を良、60点以上を可、60点未満を不可とする

・提出データが仕様通りに正しく作成されている(100点)
 -軽微な修正を要する(ヘッダー名の修正)(-10点)
 -軽微な修正を2点以上or重大な修正(データカラムが異なる、値が異なる)を要する(-30点)
 -プログラムが不完全(-60点)
 
教科書  
 
参考書  
教材に関する補足情報  
必要な教材は授業前に配布する
 
参考文献一覧  
 
履修上の注意事項  
2年生以上を対象とする
 
キーワード(「実務経験のある教員による授業科目」は「実務経験」で検索)  
データ研磨、データクレンジング、前処理、実務経験
 
備考(実務経験の内容と授業との関連を含む)  
本講義は、帝国データバンクにおいて多くの企業信用調査やオープンデータなどを扱う中で、それらの整理、統合、構造化を行ってきた実務経験のある教員による講義である。
本講義の履修はRを扱った経験があることが望ましい。
また、連絡にはteamsを利用する。
 
参照ホームページ  
 
教員からの一言  
 
オフィスアワー  
 
連絡先(研究室他)  
 
連絡先(電話番号)  
 
連絡先(メールアドレス)  
 
ホームページ  
 
備考(教員情報)  
 
↑ページの先頭へ戻る