2016年06月23日

ブログ統計2016/6

観測期間は、 2016/6/2 12:00 − 6/9 12:00 でした。
この間に確認した総異なりURLは 4399071
しかしRSS feed はおそらく全てのURLをカバーしていません。
実数はこの数字よりもずっと多そうでした。

内訳はこうでした
Livedoor  1052365
楽天  57735
FC2  564137
goo  158405
So-net  195887
Yahoo  273638
cocolog  106320
はてな  22395
webry  20037
seesaa  164836
Ameblo  1680073
Jugem  68004
carview  35239

blog20161



内容を確認してのsplog率ですが
  blog  splog  not found  protected  計
Livedoor  32  240  9  2  283
楽天  3  11  2  0  16
FC2  61  91  7  4  163
goo  26  8  10  0  44
So-net  13  45  0  0  58
Yahoo  76  10  2  0  88
cocolog  4  26  0  0  30
はてな  5  1  0  0  6
webry  4  1  1  0  6
seesaa  13  40  1  0  54
Ameblo  397  59  13  21  490
Jugem  6  13  1  0  20
carview  13  1  1  0  15
計  653  546  47  27  1273

その量率グラフです。
blog20162

何かFC2の、特にsplogだけが全部livedoorの方に流れて行ったような感じですよ。

続きを読む

2016年06月17日

twitterユーザ統計 2016/06

データ取得日は、2016/6/5−6/10 ぐらいです。


ユーザIDを 5000000000 以上まで確認したのですが、
全体の 0.262ぐらいのユーザアカウントが埋まっていて、
0.251 ぐらいがsuspend
0.487 ぐらいがnot foundです。

と、言う事は、現在有効なユーザ数は1310816225ぐらい?
それと同じぐらいのアカウント数がsuspendされています。

前回2015/10の時は1246500000ぐらいだったので、この期間ではそんなにユーザは増えてないみたいです?


もう何回も云ってますがtwitterではユーザ削除してもIDは新しい人に使いまわされます。
多分、現在IDの最前線は4926700000ぐらい?



ユーザアカウント情報から、
ユーザが最後に使ったsourceが分かるので、
それを利用すれば言語と使用デバイスの内訳が分かります。

twitter201606

これを見れば世界でどのデバイスがどの程度普及しているのか何となくわかります。

下はこの量率グラフの数字です。続きを読む

2016年06月10日

Attention modelの勉強



というAttention modelで、私が期待した機能が実現できるらしいので
見ておくことにしました。

Neural Machine Translation by Jointly Learning to Align and Translate
Dzmitry Bahdanau, Jacobs University Bremen
Kyunghyun Cho, Yoshua Bengio Universite de Montreal
arXiv preprint arXiv:1409.0473, 2014.

3 LEARNING TO ALIGN AND TRANSLATE

このアーキテクチャは、
翻訳デコード時に入力文検索をエミュレートするencoderとdecoderで双方向RNNとして構成される。

3.1 DECODER: GENERAL DESCRIPTION

既存のエンコーダ・デコーダアプローチとは異なり、
ここでは確率が、
各ターゲット単語yiのための明確な文脈ベクトルciを条件とされていることに留意すべきです。

NMT1

t番目の単語yt は、 入力文(x1,x2,...,xT)から作られる。

隠れ層?hiがannotationであり、この加重平均でstを決定
Intuitively, this implements a mechanism of attention in the decoder.
The decoder decides parts of the source sentence to pay attention to.
By letting the decoder have an attention mechanism, we relieve the encoder from the burden of having to encode all information in the source sentence into a fixed length vector.
With this new approach the information can be spread throughout the sequence of annotations, which can be selectively retrieved by the decoder accordingly.

デコーダをさせることにより、
attentionのメカニズムを持って、
固定長のベクトルに文内のすべての情報を符号化することの負担を、エンコーダから軽減します。

この新しいアプローチで、
情報を選択的に応じて、デコーダによって取得することができ、注釈の順序、全体に広がることができます。



3.2 ENCODER: BIDIRECTIONAL RNN FOR ANNOTATING SEQUENCES

提案方式で、我々は、各単語の次の単語だけでなく、前の言葉も要約する注釈を用い
音声認識で最近使用されている双方向RNNを使用する。

文書分類の時と同じ構造に見えますが...?
続きを読む

adsense
Categories
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村

amazon
Profile
Archives
blogchart
QRコード
QRコード
Recent Comments
o