マイムの部屋

社内SEが,興味をもったことを書いていきます.

Malletでトピック抽出

機械学習ツールキットであるmalletでトピック抽出をしたいと思います. 以下の条件でトッピク抽出を行いました.
  • 対象データ:wikipediaから「四月は君の嘘」の有馬公生(ありま こうせい)の説明文
  • 形態素解析mecab
  • 対象品詞:名詞
結果は,以下のようになります.
Coded LDA: 100 topics, 7 topic bits, 1111111 topic mask
max tokens: 28
total tokens: 28
<10> LL/token: -6.49949
<20> LL/token: -6.60045
<30> LL/token: -6.48871
<40> LL/token: -6.82014

0 0.01 初対面
1 0.01
2 0.01
3 0.01
4 0.01
5 0.01
6 0.01
7 0.01
8 0.01
9 0.01
10 0.01
11 0.01 コンクール 勘違い
12 0.01
13 0.01
14 0.01
15 0.01
16 0.01 かをり 国内外
17 0.01
18 0.01
19 0.01
20 0.01 ピアノ
21 0.01
22 0.01
23 0.01
24 0.01
25 0.01
26 0.01
27 0.01
28 0.01
29 0.01
30 0.01
31 0.01
32 0.01
33 0.01 ピアニスト
34 0.01
35 0.01
36 0.01
37 0.01
38 0.01
39 0.01
40 0.01
41 0.01
42 0.01
43 0.01
44 0.01
45 0.01
46 0.01
47 0.01
48 0.01
49 0.01
50 0.01
51 0.01
52 0.01
53 0.01
54 0.01
55 0.01
56 0.01
57 0.01
58 0.01 東日本
59 0.01
60 0.01 ところ
61 0.01
62 0.01
63 0.01
64 0.01
65 0.01
66 0.01
67 0.01 幼なじみ バイト メトロノーム
68 0.01
69 0.01
70 0.01
71 0.01
72 0.01
73 0.01 コンサート プレゼント
74 0.01
75 0.01
76 0.01
77 0.01
78 0.01
79 0.01
80 0.01
81 0.01
82 0.01
83 0.01
84 0.01
85 0.01 サンド 見舞い ヒューマン
86 0.01
87 0.01
88 0.01
89 0.01
90 0.01
91 0.01
92 0.01
93 0.01
94 0.01
95 0.01
96 0.01
97 0.01
98 0.01
99 0.01 ばいいん

<50> LL/token: -6.41731

Total time: 2 seconds
ピアニスト-33 国内外-60 コンクール-11 ヒューマン-73 メトロノーム-11 コンクール-11 ピアニスト-33 コンサート-73 コンサート-73 プレゼント-12 ばいいん-0 ピアノ-20 ピアノ-20 バイト-11 幼なじみ-66 かをり-16 初対面-66 勘違い-83 かをり-16 かをり-16 見舞い-83 かをり-16 ところ-20 ピアノ-20 東日本-85 コンクール-11 かをり-16 サンド-83
0 0.035 ばいいん (1)
1 0.000
2 0.000
3 0.000
4 0.000
5 0.000
6 0.000
7 0.000
8 0.000
9 0.000
10 0.000
11 0.173 コンクール (3) バイト (1) メトロノーム (1)
12 0.035 プレゼント (1)
13 0.000
14 0.000
15 0.000
16 0.173 かをり (5)
17 0.000
18 0.000
19 0.000
20 0.138 ピアノ (3) ところ (1)
21 0.000
22 0.000
23 0.000
24 0.000
25 0.000
26 0.000
27 0.000
28 0.000
29 0.000
30 0.000
31 0.000
32 0.000
33 0.069 ピアニスト (2)
34 0.000
35 0.000
36 0.000
37 0.000
38 0.000
39 0.000
40 0.000
41 0.000
42 0.000
43 0.000
44 0.000
45 0.000
46 0.000
47 0.000
48 0.000
49 0.000
50 0.000
51 0.000
52 0.000
53 0.000
54 0.000
55 0.000
56 0.000
57 0.000
58 0.000
59 0.000
60 0.035 国内外 (1)
61 0.000
62 0.000
63 0.000
64 0.000
65 0.000
66 0.069 初対面 (1) 幼なじみ (1)
67 0.000
68 0.000
69 0.000
70 0.000
71 0.000
72 0.000
73 0.104 コンサート (2) ヒューマン (1)
74 0.000
75 0.000
76 0.000
77 0.000
78 0.000
79 0.000
80 0.000
81 0.000
82 0.000
83 0.104 サンド (1) 見舞い (1) 勘違い (1)
84 0.000
85 0.035 東日本 (1)
86 0.000
87 0.000
88 0.000
89 0.000
90 0.000
91 0.000
92 0.000
93 0.000
94 0.000
95 0.000
96 0.000
97 0.000
98 0.000
99 0.000
0 0.20500000000000165
ちょっと,データ量が少なかったのかいい結果なのかよくわかりませんでした.今度は他のデータでやってみます.