ひっぱるくんを使ったテキスト分析

ひっぱるくんとは

自然言語の文章から簡単にその特徴を掴むことができるツールです。 機械任せのツールではなく、分析者自身が考えながら作っていく必要があります。 ボタンをぽちっと押したら結果が自動的に出力されるツールではありません。

ツールの名前の由来は、このツールは「ひっぱる」というアクションを主体にしているためです。

論文にもしています。

使用環境の準備

ひっぱるくんは、Windows専用です。Mac等では使えません。 ひっぱるくん ここから起動。

IEから起動するのが手間がかからないでIE奨励。

警告が発生しますが、無視して実行。そうすると起動します。

基本的な画面

ひっぱるくん画面構成

使い方

ファイルの読み込み

メニューバーにある「入力データ」→「テキストファイル」→「UTF8」からファイルを読み込んでください。 Rawlerで取得したデータはUTF8なので、UTF8のところから読み込んでください。SJISは昔の名残です。

削除語の指定

ファイルを読み込んだら、単語選択エリアから、意味を成さない単語を削除します。意味を成さないと思う単語を選択肢、「↓削除候補にする」ボタンを押してください。ある程度、削除語の指定したら、「再解析」ボタンを押します。そうすると、単語のランキングがスッキリします。

スタート単語を指定

自分の気になる、興味のある単語を選択し、「Add Node」ボタンを押してください。そうすると「キャンバスエリア」にノード(黒丸)が表示されます。

グラフを自身で作っていく

ノード(黒丸)をクリックするとその周囲に関係する単語が表示されます。その単語を「ひっぱる」と黒い線で繋がれて新しいノードとなります。そして、それをクリックするとまた、周囲に関係する語が表示されます。これを繰り返すことで、グラフを作ることができます。

赤い線

ひっぱるくんで、ひっぱっていくとたまに「赤い線」で単語同士が結ばれることがあります。これは、データに基づく線です。データの中からすでにあるノードの中から関係の強い単語間を赤い線で結びます。 これは、データとして「確認」と「発見」の意味があります。

青い線

赤い線と同様です。生成するロジックを変えているのですが、効果的に意味は発生していませんね。

緑の線

単語間に挟まれている点をクリックすると、その2つの単語と関係の強い語が表示されます。これを引っ張ると緑の線になります。

ビューを見る

ノードをクリック時に下のビューエリアも更新されます。 ここを見ることで、本来のテキストを見ることができるので、仮説の構築に役立ててください。

いいグラフの作り方

ひっぱるくんで作るグラフは、主観的であり恣意的であるので、ただ漫然と作っただけでは説得力がありません。 コンセプトがしっかりしたいいグラフを作る必要があります。