- ベンチャー体験工房4
- 機械学習とディープラーニングによる自然言語処理システム
- テキストマイニング、TFIDF、NLTK、機械学習、ディープラーニングの各手法、Word Embeddingの手法などを学ぶ。その後、この記述を利用して、文書分類(ウェブ文書、Twitterなどソーシャルメディアのデータ)システムの構築と性能改良のプロジェクトを実施する。シラバス詳細
2021年5月
5月10日
授業内容:TFIDFを用いて文章分類に必要な特徴量を獲得する。Cosine類似度により文章同士の類似度を計算する。Web上のテキストを収集し、TFIDFを用いて類似度計算をする。
5月17日
授業内容:体験工房では普段の授業では体験できないような内容なので他の授業に比べて面白いです。まだ授業は機械学習やディープラーニングの触り程度ですが、これから学ぶことは楽しみです。
5月24日
授業内容:実際にwebスクレイピングして、それらのテキストを動詞・形容詞・名詞に分け、それぞれの文のコサインシミラリティを求めたりしました。それによって、それらの文のベクトル方向の類似性が知れたりして、とても面白いです。
2021年6月
6月14日
活動:今まで学んだことを使いつつ、自分で考えながらプログラムの実装を行なっています。実装を通して、Web スクレイピング、テキスト処理、機械学習についての理解を深めることができます。
6月21日
感想:私は、ディープラーニングに興味があり、今回の授業に参加しました。私は今後研究として、ディープラーニングを使っていきたいと考えているので、それに向けての基礎的な理論及び実装方法を理解することができました。
6月28日
感想:私は自然言語処理や機械学習に興味を持っていたので、この授業に参加しました。授業内では白先生による講義を聴くだけではなく、実際に手を動かし演習するので、学んだことが身につきやすいと感じました。また、プログラミング言語を Java または Python から選べるので、自分のより慣れた方を使って、演習をスム ーズに進めることが出来ました。
2021年10月
10月4日
授業内容:Course introduction : Introduction to data mining and text mining.
2021年11月
11月1日
授業内容:Fundamentals of text mining 1 and introduction to the Term frequency-inverse document frequency (TF-IDF). This meant to provide the student the ability to understand the basics of documents representation with vectors.
11月8日
授業内容:Fundamentals of text mining 2 and introduction to cosine similarity. Class activity on contents of TFIDF. This aims to introduce a use of document vectorization step.
11月15日
授業内容:Class activity: Calculation of TFIDF and cosine similarity. This exercise involves text retrieval, mining, and processing before applying any calculation algorithms.
11月22日
授業内容:Tagging of natural language sentences using natural language toolkit NLTK. This library has comprehensive tools for text mining and provides high end skills to be used in the future.
11月25日
授業内容:Stanford natural language library POS tagging in Java.This exercise provides experience on natural language processing using libraries in Java
11月29日
授業内容:SVM example from Sklearn library
Document classification using SVM and SVM light. This neural network model is a good introduction for students who want to apply machine learning on an NLP task such as classification.
2021年12月
12月6日
授業内容:Evaluation and classification: This session aims to give to the student an intuitive understanding of how machine learning models performance is evaluated through a basic example of calculating Precision and Recall metrics
12月13日
授業内容:Start of the First Term project
12月20日
授業内容:Continue with the term project II: TFIDF calculation with filtering by Stanford NLP library in Java
2022年1月
1月4日
授業内容:Third Term project:Data crowling and processing,Word embedding using TFIDF
1月17日
授業内容:Fourth Term Project:Document classification using SVM algorithm
1月24日
授業内容:5th Term project:Data augmention to improve the classification model accuracy
1月31日
授業内容:Final Evaluation:Filtering entities like nouns, adjectives and apply TFIDF