動かして学ぶ! はじめてのテキストマイニング

動かして学ぶ! はじめてのテキストマイニング
フリー・ソフトウェアを用いた自由記述の計量テキスト分析

KH Coder オフィシャルブック II 
樋口耕一、中村康則、周景龍 著
単行本 140ページ
出版社: ナカニシヤ出版
言語: 日本語
978-4779516399
発売日:2022/3/4

書籍内容

ネット上のクチコミ、SNSでの評判、アンケートの自由回答……
どのように分析しますか?

学術論文や企業などで幅広く使われている定評あるフリーソフトウェア「KH Coder」を使ったテキストマイニングを、開発者自らがやさしく解説。事例を手順を追って解説することで、誰でもテキスト分析ができるようになるやさしい入門書。

本書では、フリー・ソフトウェアKH Coderを使ってテキストマイニングを行なう手順を、はじめての人にもわかりやすく、それでいて使いこなすためのポイントも含めてご紹介します。テキストマイニングとは、クチコミのようなテキスト(文章)について個人の感想や印象で語るのではなく、統計を使って正確かつ客観的に分析する方法です。(「まえがき」より)

目次

まえがき

 第1部  入門テキストマイニング

第1章 プロローグ テキストマイニングを始める前に
1.1 クチコミデータを分析するねらい
1.1.1 データの内容
1.1.2 数値データの探索①:性別による違い
1.1.3 数値データの探索②:年齢層と性別の組み合わせ
1.1.4 テキストマイニングのねらいをしぼる
1.2 KH Coderと仮想クチコミデータの準備
1.3 この章で分かったこと

第2章 なぜテキストマイニングが必要なのか
2.1 計量テキスト分析とは
2.1.1 もし目で読むだけだと
2.1.2 計量テキスト分析の利点 ―データ探索と信頼性向上
2.1.3 分析の2つの段階
2.2 KH Coder
2.2.1 開発と公開
2.2.2 3つの機能
2.3 この章で分かったこと

第3章 テキストマイニングは意外と簡単そうだ!
3.1 コピー&ペーストで簡単に分析用ファイルを準備する
3.2 KH Coderを起動する
3.3 プロジェクトを作成する
3.4 前処理をする
3.5 共起ネットワークで概観を捉える
3.6 この章で分かったこと

第4章 「あの言葉がない!」というときには
4.1 「あの言葉がない」のはなぜかを調べる
4.2 強制的に語として抽出する
4.3 強制抽出すべきかもしれない語を探す
4.3.1 頻出語をチェック
4.3.2 「未知語」のチェック
4.3.3 複合語の検出
4.4 この章で分かったこと

第5章 多く出現した話題 共起ネットワーク その1
5.1 共起ネットワークを作成する目的
5.2 共起ネットワークを調整する
5.2.1 「一般的すぎる」語を分析から取り除く
5.2.2 共起ネットワーク上にあらわれない語
5.3 文脈を確認しながら話題を命名する
5.4 共起ネットワークを保存してWordやPowerPointに貼り付ける
5.5 この章で分かったこと

第6章 外部変数を使うためにExcelでデータを準備
6.1 分析用ファイルをExcelで作成する理由
6.2 Excelファイルのフォーマット
6.3 Excelファイル作成時の注意点
6.4 ExcelファイルからKH Coderのプロジェクトを作成する
6.5 この章で分かったこと

第7章 外部変数を使って部分ごとの特徴語を見る
 対応分析
7.1 対応分析の手順
7.2 対応分析の結果を読み解くポイント
7.3 ポイントを押さえて結果を見ると
7.4 値の種類が増えると
7.5 この章で分かったこと

第8章 同じ言葉でも文脈によって意味が変わるとき
 共起ネットワーク その2
8.1 この機能で調べられる文脈の変化とは
8.1.1 共起語の違いから文脈の違いを見る
8.1.2 外部変数を使って違いを探る
8.1.3 特徴語ではなく特徴的な共起を見る
8.2 「年齢」による文脈の変化を探る手順
8.3 結果の読みとり方
8.4 この章で分かったこと

第9章 コンセプトを取り出す コーディングルール作成
9.1 コーディングルールとは
9.2 コーディングルールで取り出すべきコンセプト
9.3 コーディングルール作成の手順
9.4 より複雑なコーディングルール
9.4.1 カッコによるグループ化
9.4.2 語と文字列
9.5 この章で分かったこと

第10章 コンセプトを使って分析を深める クロス集計
10.1 クロス集計の手順
10.2 クロス集計の結果を読み解くポイント
10.3 バブルプロットを作成して視覚的に結果を読みとる
10.4 この章で分かったこと

第11章 エピローグ

 第2部  「入門」を超えて
 
第12章 いろいろなデータの準備
12.1 アンケート自由記述
12.2 インタビュー逐語録
12.3 レポート
12.4 作業記録
12.5 特許文書
12.6 新聞記事
12.7 データ準備は分析の目的にあわせて

第13章 対応分析によるプロットのしくみと結果の読みとり方
13.1 外部変数の値が2カテゴリーの場合
13.1.1 対応分析に入力するデータ
13.1.2 行ごとの割合を計算
13.1.3 それぞれの列を軸として使うプロット
13.1.4 原点の設定
13.1.5 カテゴリー名を内側に移動
13.2 外部変数の値が3カテゴリーの場合
13.2.1 入力データと割合の計算
13.2.2 それぞれの列を軸として使うプロット
13.2.3 原点の設定,回転,カテゴリー名の移動
13.3 外部変数の値が4カテゴリー以上の場合
13.3.1 次元の縮約
13.3.2 「成分」があらわすもの
13.4 この章で分かったこと

第14章 よくある質問
14.1 分析するデータ
Q1 KH Coderでの分析には,どの程度以上のテキスト量が必要ですか
Q2 大量のテキストをKH Coderで分析できますか
Q3 欠損値があるときはどうすればよいですか
Q4 分析を始めた後にデータを修正するには
14.2 セキュリティ
Q5 KH Coderには分析データを外部へ送信する機能がありますか
Q6 KH Coderを共有PCで使用する際の注意点はありますか
14.3 語の取り出しと前処理
Q7 (抽出語を使った分析で)表記ゆれや同義語をまとめるには
Q8 語を取り出すための辞書を入れ換えて,現代語を取り出したり,あるいは古文テキストを分析することはできますか
Q9 前処理を実行するとエラーが発生します。あるいは,エラーが発生しなくても,入力データの行数よりも「H5」単位の文書数が少なく表示されます
14.4 分 析
Q10 「抽出語リスト」「共起ネットワーク」などのメニュー項目の文字が灰色になっていてクリックできません
Q11 対応分析よりもシンプルな方法で,外部変数を使った部分ごとの比較を行なえませんか?
Q12 分析しようとすると「選択されたファイルはコーディングルール・ファイルに見えません」というエラーがでます
14.5 Jaccard係数とは
Q13 共起の強さを測るJaccard係数とはどういうものですか
Q14 語と語だけでなく,外部変数と語の共起についてもJaccard係数で測れるのですか
Q15 Jaccard係数がいくつ以上なら「共起があった」と言えますか
14.6 コーディング・その他
Q16 コーディングルールを作ってみましたがエラーになります
Q17 クチコミのようなランダムサンプリングをしていないデータで検定をしてもよいのですか?
Q18 学会発表・報告書・論文などの文献リストにKH Coderを載せたいときは,どう書けばよいですか
Q19 疑問や問題が解決しないので,質問をしたいときには?

Tips 一覧
Tips 1.a 「WindowsによってPCが保護されました」と表示されたとき
Tips 1.b KH Coderが正しく動作しない?
Tips 1.c KH Coderがぼやけて見える?
Tips 2.a 計量テキスト分析のルーツ
Tips 2.b フリー・ソフトウェアとは
Tips 3.a 使い慣れたテキストエディターでも分析用ファイルを作成できる
Tips 3.b 分析結果を説明するには
Tips 4.a 形態素解析とは
Tips 4.b 前処理の実行時間
Tips 4.c 前処理で抽出された語の数を把握するには
Tips 4.d 抽出語はどこまで確認しておくべき?
Tips 4.e KWICコンコーダンス機能を用いて抽出語を確認する
Tips 4.f 強制抽出はどこまで設定するべき?
Tips 5.a 語の取捨選択を設定した後,前処理は必要?必要ではない?
Tips 5.b 集計単位とは
Tips 5.c 共起ネットワークの語の位置に意味はある?
Tips 5.d 共起ネットワークのグループが分かれても話題が分かれるとは限らない
Tips 5.e 最小スパニング・ツリーで共起ネットワークをスッキリさせる
Tips 5.f 共起ネットワークの端が「切れて」しまったとき
Tips 5.g 語がもとのテキスト中で否定されているかどうか区別するには
Tips 6.a ファイルサイズが大きい場合
Tips 6.b 実は便利なプロジェクトメモ
Tips 6.c 分析対象とする列を間違えると
Tips 6.d 分析対象とする列は1プロジェクトあたり1つだけ
Tips 7.a 白黒印刷ではグレースケール版のプロットを
Tips 7.b 対応分析では分析に使用する抽出語を増やすとよい場合も
Tips 7.c 対応分析の縦軸と横軸になっている「成分」とは?
Tips 8.a インタビューデータでの活用について
Tips 8.b 共起パターンの変化を探る(相関)オプションの注意点
Tips 9.a データ収集の段階で工夫できれば分析が効率的に
Tips 9.b 「コンセプト」と「コード」は同じもの?
Tips 9.c コーディングルールの記述法
Tips 9.d コーディングルール公開の利点

 文献
 索引
 あとがき

このサイトをフォロー

質的データ分析研究会の最新情報を受け取る

月1~2回、本サイトの更新情報、質的研究や混合研究法、ツールの使い方、イベント情報などEmailで受け取ることができます。