大量のテキストから有益な情報を見つけ出すテキストマイニングについて学ぶ。テキストマイニングのための基礎的な事項およびテキスト処理手法を理解できるようになることを目指す。講義では,様々なテキスト言語資料および、それらから情報を取り出すための基本的な自然言語処理技術やツール,その使い方などについて学ぶ。
・1回目から3回目では、テキストマイニングに必要な基礎事項を学ぶ ・4回目から10回目では、テキストマイニングの背景技術を学び、ツールを使用してテキストマイニングを体験する。分析結果の解釈についても学ぶ ・11回目から15回目では、テキスト処理のための基本的な深層学習モデルについて学ぶ
|
|
|
テキストマイニングについての基礎的な事項を理解する テキストマイニングのためのテキスト処理手法を理解する
|
|
|
第1回
|
授業の進行具合や受講生の理解度によって、予定を変更する場合があります
概説、テキストマイニングとは、テキストマイニングを支える技術(南條)
|
第2回
|
テキストデータの収集と加工(南條)
|
第3回
|
形態素解析と構文解析、n-gram(南條)
|
第4回
|
語の共起関係の抽出1: KH-Coder、単語の関連度(和泉) KH-Coderと教科書を用いた演習
|
第5回
|
語の共起関係の抽出2: 単語の関連度、共起ネットワーク(和泉) KH-Coderと教科書を用いた演習
|
第6回
|
語の共起関係の抽出3: クラスター分析、対応分析、多次元尺度構成法(和泉) KH-Coderと教科書を用いた演習
|
第7回
|
文書の検索1: 全文検索、Bag-of-Words、単語文書行列、転置インデックス(和泉) KH-Coderと教科書を用いた演習
|
第8回
|
文書の検索2: ベクトル空間モデル、TF-IDF法、検索精度の評価(和泉) KH-Coderと教科書を用いた演習
|
第9回
|
文書の検索3: トピックモデル(和泉) KH-Coderと教科書を用いた演習
|
第10回
|
分析結果とその解釈(和泉) KH-Coderと教科書を用いた演習
|
第11回
|
深層モデル1: ニューラルネットワーク、単語のベクトル表現、分散表現(南條)
|
第12回
|
深層モデル2: 文脈を考慮した単語のベクトル表現(南條)
|
第13回
|
深層モデル3: 文書のベクトル表現、系列モデリング(南條)
|
第14回
|
深層モデル4: 系列変換、Encoder-Decoder、Attention(南條)
|
第15回
|
深層モデル5: Transformer、BERT、GPT、その他最近の動向(南條)
|
|
|
|
|
毎回の学習内容について予習を行うこと 毎回の学習内容について復習を行い、知識を確実に身につけること
|
|
|
期末試験 : 60% 課題(南條担当回): 20% 課題の達成度により評価する 課題(和泉担当回): 20% 課題の達成度により評価する ※発表課題がある場合には、積極的に参加することで高い評価を与える
|
|
|
テキストマイニングについての基礎的な事項を理解している テキストマイニングのためのテキスト処理手法を理解している
|
|
|
|
|
|
|
|
9784065274101
|
|
Pythonではじめるテキストアナリティクス入門
|
|
榊, 剛史,石野, 亜耶,小早川, 健,坂地, 泰紀, 1984-,嶋田, 和孝,吉田, 光男, 情報通信,郡司, 直之,榊剛史 編著,石野亜耶, 小早川健, 坂地泰紀, 嶋田和孝, 吉田光男 著,郡司直之 プログラム監修
|
|
講談社
|
|
2022.3
|
|
|
|
|
|
|
|
|
|
|
|
教科書は必ず購入してください。 追加資料をSULMSから配布します。
2年次春学期「マルチメディア処理入門」で使用した「音声・テキスト・画像のデータサイエンス入門」を持っている人は参考書とすることをおすすめします。
|
|
|
|
講義では、KH-Coder, pythonを使い、テキストマイニングやその基礎となる自然言語処理技術、手法の解説を行う。和泉先生担当回はKH-CoderがインストールされたPCがある演習室で行う。
扱った手法を受講者自身で確認することで理解が深まる。 ・pythonが動作するWindowsパソコンを用意でき、かつ授業時に持参できること。 ・KH-Coderについては必ずしも各自のPCにインストールする必要はないが、可能であればインストールしておくこと(無料版:Starting Editionでよい)。マシン設定(ウイルス対策ソフトなど)によりうまく動かないことがあるため、初回の授業前にインストールと簡単な動作確認をしておくことを強く推奨する。
MacではKH-Coderの利用が難しいこと、またMacに起因する問題全般に担当教員ではトラブル対応できないため、推奨しない。
|
|
|
|
|
|