ユーザーローカルの無料テキスト・マイニング・ツールを使ってみた

標準

ユーザーローカル、無料のテキストマイニングツール提供開始、自分のツイートもマイニング可能という、ニュースが出ていたので、早速試してみた。テキスト・マイニングは私の好きな分野である。

太宰治著の「走れメロス」をテキストマイニングした結果 太宰治著の「走れメロス」をテキストマイニングした結果

会社で変なエピソードがあるくらいだ。テキスト・マイニングを使って、自分の会社の机にあったUNIXのサーバーに全文検索システムNamazuを導入して、会社に怒られたというエピソードだ。社内のイントラに、wgetという、ロボット回して、Namazu入れて、イントラ内検索エンジン作ったんですが、社内のサーバーのトラフィック増えるとかで、なんとシステム部門におこなれる始末。うーん、インターネットではありえないルールだなと、思ったのを覚えています。その時に、社内の文章の文章解析したんですが、意味なく部署名が多く出てくるんですが、その表記揺れが多いことに驚いたのを覚えています。(実は、このプログラムを使って、しばらく競合のSEOルールを勉強したのだが、本当に一貫性がないことだけは明確になったんですが)

さて、そんな私が好きな文章解析、とうとう人のプログラムが無料で使える時代に。さっそく、私が参加している数学イノベーション委員会の第19回議事録という公的な文章を分析してみることに。まぁ、Open Dataの活用というやつですね。テキストをtxtファイル形式で作成したら、いよいよに行って、分析します。

数学イノベーション委員会(第19回)の議事録の共起ネットワーク

数学イノベーション委員会(第19回)の議事録の共起ネットワーク

当然、数学という言葉が多く出て、さまざまな発言と関連が一番多くなります。

数学イノベーション委員会(第19回)の議事録の ワードクラウド

数学イノベーション委員会(第19回)の議事録の ワードクラウド

この時は、ある先生の発表が主たる内容だったので、その固有名詞が多く出てきますね。

このように、テキストを形態素解析や構造分析を行うと様々なことがわかります。これはテストなんですが、実際には以下のような業務に私は使っているので、少し紹介しますね。

競合のSEO対策を理解しよう

競合や気になるWebサイトをtxt形式にしてダウンロードします。そして、いくつかのページをひとつのtxtファイルにして、このユーザーローカルのテキスト・マイニングのサイトに入れて見ましょう。自分のサイトと単語の出現頻度や種類は一緒ですか?

見慣れない単語はありませんか?Webサイトは公開されている情報なので、このような分析は誰でも気軽にできるわけです。

でも、これ前にも書いたように、あまりルールはないようなので、あまり真剣にやらないようにね。単語のヒントくらいです。

SNSの発言の分析をしてみよう

日本人は、古来から言葉遊びが好きな民族です。「顔用石鹸」→「花王石鹸」みたいな言葉遊びは多いですよね。

そして、そんな遊びはSNSでも残っています、特に、製品名がニックネームになっていたりしますよね。そんな探索のために、すべてのSNSを読んでいいれば良いのですが、時間がないときにはこのようなテキスト・マイニングを使いましょう。

良くSNSでは、ポジ、ネガを見ましょうと、分析の方が説明しますが、その後どうするの?と聞きたくなります。結局、SNSは個人の会話の集積なので、誰かが対話するしかないのです。理解促進や、誤解の解消には。分析では、誤解解消はされません。なので、どんな単語を使っているか、これが一番のヒントなんですよね。

最後に、やはりテキスト・マイニングが無料に誰でも使えるようになったのはすごいですね。ユーザーローカルさん、ありがとう。そして、今後誰か公的な辞書の整備をして頂けないでしょうかね。本当に、日本語は公的な誰でも使える辞書が少なくて、困りますよ。

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください