この内容は金明哲さんの「テキストアナリティクスの基礎と実践」のRでの実装をpythonで書き換えながら読んでいくものです。 提供されているデータは、すでに形態素解析されてある程度集計されたデータとなります。 説明が不十分であること、参考書通りの解析ができているわけではないことはご了承ください。 詳しくは本を読んでいただければと思います。 前回 テキストの特徴分析 4. トピック分析 4.1 トピックモデルとは テキストにおける名詞は文章の主題や内容から大きく影響を受けるため、人による読みを経なくても、語句を集計したデータから、テキストの話題を推定できる可能性がある。 テキストをテキスト内に出現する毒と頻度によってのみ捉えるという点で、主成分分析や対応分析、潜在意味解析の手法と変わらないが、 線形代数の行列分解をベースとした方法では、高次元データの場合にデータの内在構造を十分に理解できない可