大量のテキストから有益な情報を見つけ出すテキストマイニングについて学ぶ。テキストマイニングのための基礎的な事項およびテキスト処理手法を理解できるようになることを目指す。講義では,様々なテキスト言語資料および、それらから情報を取り出すための基本的な自然言語処理技術やツール,その使い方などについて学ぶ。
|
|
|
テキストマイニングについての基礎的な事項を理解する テキストマイニングのためのテキスト処理手法を理解する
|
|
|
第1回
|
授業の進行具合や受講生の理解度によって、予定を変更する場合があります。
概説、テキストマイニングとは、テキストマイニングを支える技術
|
第2回
|
テキストデータの収集と加工
|
第3回
|
形態素解析と構文解析
|
第4回
|
語の共起関係の抽出1: KH-Coder、単語の関連度
|
第5回
|
語の共起関係の抽出2: 単語の関連度、共起ネットワーク、n-gram
|
第6回
|
語の共起関係の抽出3: クラスター分析、共起ネットワーク、対応分析、多次元尺度構成法
|
第7回
|
文書の検索1: 全文検索、Bag-of-Words、単語文書行列、転置インデックス
|
第8回
|
文書の検索2: ベクトル空間モデル、TF-IDF法、検索精度の評価
|
第9回
|
文書の検索3: トピックモデル、潜在意味解析
|
第10回
|
文書の検索4: トピックモデル、非負値行列因子分解、pLSA, LDA
|
第11回
|
深層モデル1: ニューラルネットワーク、単語のベクトル表現、分散表現
|
第12回
|
深層モデル2: 単語予測、RNN、LSTM
|
第13回
|
深層モデル3: 文脈を考慮した単語のベクトル表現、文書のベクトル表現、BiLSTM、系列モデリング
|
第14回
|
深層モデル4: 系列変換、Encoder-Decoder、Attention
|
第15回
|
深層モデル5: Transformer、BERT、その他最近の動向
|
|
|
|
|
毎回の学習内容について予習を行うこと。 毎回の学習内容について復習を行い、知識を確実に身につけること
|
|
|
期末テスト 60% 授業内・授業外の課題の達成度 40%
|
|
|
テキストマイニングについての基礎的な事項を理解している テキストマイニングのためのテキスト処理手法を理解している
|
|
|
|
|
9784065274101
|
|
Pythonではじめるテキストアナリティクス入門
|
|
榊剛史 編著,石野亜耶, 小早川健, 坂地泰紀, 嶋田和孝, 吉田光男 著,郡司直之 プログラム監修,榊, 剛史,石野, 亜耶,小早川, 健,坂地, 泰紀, 1984-,嶋田, 和孝,吉田, 光男, 情報通信,郡司, 直之,
|
|
講談社
|
|
2022
|
|
|
|
|
|
|
社会調査のための計量テキスト分析 第2版
|
|
樋口耕一
|
|
ナカニシヤ出版
|
|
2020
|
|
|
|
|
|
|
|
|
毎回資料をSULMSから配布します。 教科書は補助的に使用します。
2年次春学期「マルチメディア処理入門」で使用した「音声・テキスト・画像のデータサイエンス入門」(一般書店ではまだ購入できないと思います)を持っている人は参考書とすることをおすすめします。
|
|
|
|
講義では、KH Coder, pythonを使い、テキストマイニングやその基礎となる自然言語処理技術、手法の解説を行う。 扱った手法を受講者自身で確認することで理解が深まる。KH Coder, pythonが動作するWindowsパソコンを用意でき、かつ授業時に持参できること。 KH Coderはマシン設定(ウイルス対策ソフトなど)によりうまく動かないことがあるため、初回の授業前にインストールと簡単な動作確認をしておくことを強く推奨する。
MacではKH Coderの利用が難しいこと、またMacに起因する問題全般に担当教員ではトラブル対応できないため、推奨しない。
|
|
|
|
|
|