タイトル
時間割番号: 7022102001
テキストマイニング
 
担当教員
南條 浩輝, 和泉 志津恵[NANJO Hiroaki, Shizue Izumi]
開講学部等 データサイエンス学部 対象年次 2~ 単位数 2
開講時期 秋学期 開講曜時 火2 クラス  
ナンバリング DSST23003
授業形態  
授業の目的と概要  
大量のテキストから有益な情報を見つけ出すテキストマイニングについて学ぶ。テキストマイニングのための基礎的な事項およびテキスト処理手法を理解できるようになることを目指す。講義では,様々なテキスト言語資料および、それらから情報を取り出すための基本的な自然言語処理技術やツール,その使い方などについて学ぶ。


・1回目から3回目では、テキストマイニングに必要な基礎事項を学ぶ
・4回目から10回目では、テキストマイニングの背景技術を学び、ツールを使用してテキストマイニングを体験する。分析結果の解釈についても学ぶ
・11回目から15回目では、テキスト処理のための基本的な深層学習モデルについて学ぶ
 
授業の到達目標  
テキストマイニングについての基礎的な事項を理解する
テキストマイニングのためのテキスト処理手法を理解する

 
授業計画  
No内容
第1回 授業の進行具合や受講生の理解度によって、予定を変更する場合があります

概説、テキストマイニングとは、テキストマイニングを支える技術(南條)
第2回 テキストデータの収集と加工(南條)
第3回 形態素解析と構文解析、n-gram(南條)
第4回 語の共起関係の抽出1: KH-Coder、単語の関連度(和泉)
KH-Coderと教科書を用いた演習
第5回 語の共起関係の抽出2: 単語の関連度、共起ネットワーク(和泉)
KH-Coderと教科書を用いた演習
第6回 語の共起関係の抽出3: クラスター分析、対応分析、多次元尺度構成法(和泉)
KH-Coderと教科書を用いた演習
第7回 文書の検索1: 全文検索、Bag-of-Words、単語文書行列、転置インデックス(和泉)
KH-Coderと教科書を用いた演習
第8回 文書の検索2: ベクトル空間モデル、TF-IDF法、検索精度の評価(和泉)
KH-Coderと教科書を用いた演習
第9回 文書の検索3: トピックモデル(和泉)
KH-Coderと教科書を用いた演習
第10回 分析結果とその解釈(和泉)
KH-Coderと教科書を用いた演習
第11回 深層モデル1: ニューラルネットワーク、単語のベクトル表現、分散表現(南條)
第12回 深層モデル2: 文脈を考慮した単語のベクトル表現(南條)
第13回 深層モデル3: 文書のベクトル表現、系列モデリング(南條)
第14回 深層モデル4: 系列変換、Encoder-Decoder、Attention(南條)
第15回 深層モデル5: Transformer、BERT、GPT、その他最近の動向(南條)
 
事前学習・事後学習など授業時間外の学習  
毎回の学習内容について予習を行うこと
毎回の学習内容について復習を行い、知識を確実に身につけること
 
成績評価の方法  
期末試験 : 60%
課題(南條担当回): 20% 課題の達成度により評価する
課題(和泉担当回): 20% 課題の達成度により評価する
※発表課題がある場合には、積極的に参加することで高い評価を与える

 
成績評価の基準  
テキストマイニングについての基礎的な事項を理解している
テキストマイニングのためのテキスト処理手法を理解している
 
教科書  
教科書1 ISBN 9784779516399
書名 動かして学ぶ!はじめてのテキストマイニング : フリー・ソフトウェアを用いた自由記述の計量テキスト分析
著者名 樋口, 耕一, 1978-,中村, 康則,周, 景龍,樋口耕一, 中村康則, 周景龍 著 出版社 ナカニシヤ出版 出版年 2022.3
 
参考書  
参考書1 ISBN 9784274222771
書名 Rによるやさしいテキストマイニング 活用事例編
著者名 小林 雄一郎 出版社 株式会社オーム社 出版年 2018
参考書2 ISBN 9784274221002
書名 Rによるやさしいテキストマイニング 機械学習編
著者名 小林 雄一郎 出版社 株式会社オーム社 出版年 2017
参考書3 ISBN 9784065274101
書名 Pythonではじめるテキストアナリティクス入門
著者名 榊, 剛史,石野, 亜耶,小早川, 健,坂地, 泰紀, 1984-,嶋田, 和孝,吉田, 光男, 情報通信,郡司, 直之,榊剛史 編著,石野亜耶, 小早川健, 坂地泰紀, 嶋田和孝, 吉田光男 著,郡司直之 プログラム監修 出版社 講談社 出版年 2022.3
参考書4 ISBN 978477951474
書名 社会調査のための計量テキスト分析 : 内容分析の継承と発展を目指して : KH Coder OFFICIAL BOOK
著者名 樋口, 耕一, 1978-,樋口耕一 著 出版社 ナカニシヤ出版 出版年 2020.4
参考書5 ISBN 9784780607161
書名 音声・テキスト・画像のデータサイエンス入門(データサイエンス大系)
著者名 市川治, 飯山将晃, 南條浩輝 著 出版社 学術図書出版社 出版年
参考書9 ISBN
書名
著者名 出版社 出版年
教材に関する補足情報  
教科書は必ず購入してください。
追加資料をSULMSから配布します。

2年次春学期「マルチメディア処理入門」で使用した「音声・テキスト・画像のデータサイエンス入門」を持っている人は参考書とすることをおすすめします。
 
参考文献一覧  
特になし
 
履修上の注意事項  
講義では、KH-Coder, pythonを使い、テキストマイニングやその基礎となる自然言語処理技術、手法の解説を行う。
扱った手法を受講者自身で確認することで理解が深まる。KH-Coder, pythonが動作するWindowsパソコンを用意でき、かつ授業時に持参できること。
KH-Coderはマシン設定(ウイルス対策ソフトなど)によりうまく動かないことがあるため、初回の授業前にインストールと簡単な動作確認をしておくことを強く推奨する。

MacではKH-Coderの利用が難しいこと、またMacに起因する問題全般に担当教員ではトラブル対応できないため、推奨しない。
 
キーワード(「実務経験のある教員による授業科目」は「実務経験」で検索)  
 
備考(実務経験の内容と授業との関連を含む)  
 
参照ホームページ  
 
教員からの一言  
 
オフィスアワー  
 
連絡先(研究室他)  
 
連絡先(電話番号)  
 
連絡先(メールアドレス)  
 
ホームページ  
 
備考(教員情報)  
 
↑ページの先頭へ戻る