昨日ChasenCorpusReaderを利用して取り込んだ日本語データを確認してみます。
PlaintextCorpusReaderから取り込んだ時が前文で320語 単語数169でした。
グラフ描画してみます。
全文の中から単語を検索してみます。
出現数カウント
では単語の出現をdispersion_plotしてみます。
len(zenbun_corpus.words())413
len(set(zenbun_corpus.words()))171
PlaintextCorpusReaderから取り込んだ時が前文で320語 単語数169でした。
グラフ描画してみます。
frequency = nltk.FreqDist(zenbun_corpus.words()) frequency.plot(30,cumulative=True)
全文の中から単語を検索してみます。
data_t = Text( w for w in zenbun_corpus.words() )
data_t.concordance('国民')
Displaying 11 of 11 matches: 国民 は 、 正当 に 選挙 さ れ た 国会 における 代表 者 を通じて 行 じて 行動 し 、 われ ら と われ ら の 子孫 の ため に 、 諸 国民 と の 協和 による 成果 と 、 わが国 全土 に わ たつ て 自由 こと の ない やう に する こと を 決意 し 、 ここ に 主権 が 国民 に 存する こと を 宣言 し 、 この 憲法 を 確定 する 。 そもそ を 宣言 し 、 この 憲法 を 確定 する 。 そもそも 国政 は 、 国民 の 厳粛 な 信託 による もの てあつ て 、 その 権威 は 国民 に 、 国民 の 厳粛 な 信託 による もの てあつ て 、 その 権威 は 国民 に 由来 し 、 その 権力 は 国民 の 代表 者 が これ を 行使 の てあつ て 、 その 権威 は 国民 に 由来 し 、 その 権力 は 国民 の 代表 者 が これ を 行使 し 、 その 福利 は 国民 が これ 権力 は 国民 の 代表 者 が これ を 行使 し 、 その 福利 は 国民 が これ を 享受 する 。 これ は 人類 普遍 の 原理 で あり 、 に 反する 一切 の 憲法 、 法令 及び 詔勅 を 排除 する 。 日本 国民 は 、 恒久 の 平和 を 念願 し 、 人間 相互 の 関係 を 支配 な 理想 を 深く 自覚 する ので あ つて 、 平和 を 愛する 諸 国民 の 公正 と 信義 に 信頼 し て 、 われ ら の 安全 と 生存 を ある 地位 を 占め たい と 思ふ 。 われ ら は 、 全 世界 の 国民 が 、 ひとしく 恐怖 と 欠乏 から 免 かれ 、 平和 の うち に 係 に 立た う と する 各国 の 責務 で ある と 信ずる 。 日本 国民 は 、 国家 の 名誉 に かけ 、 全力 を あげ て この 崇高 な
出現数カウント
data_t.count('国民')11
data_t.count('平和')4
では単語の出現をdispersion_plotしてみます。
data_t.dispersion_plot(['国民','平和'])