2010年10月08日
spwitter対策してtweet trend
![]() | Tweet |
![]() |
twitter/trend
リアルタイムに更新しています
spwitterの定義はsplogの定義に準じます。
繰り返しですが、webスパムはすべてこの1文で規定できます。
これだけで
SEOがどうとか、
アフィリエイトがどうとか、
アダルトコンテンツがどうとかもすべてカバーしきります。
アフィリエイトとかアダルトコンテンツがどうとかコンテンツも、全てコピーコンテンツであるからです。
実際のwebコーパスを検証して例外は0件だったので間違いありませんと言い切れます。
定義から
タイトルとURLだけなど、はもちろんスパムとなります 。
リツイートなども、もちろんスパム扱いします
情報量が無いからです。
140文字でユニークなオリジナルコンテンツとはかなり厳しいような気がしますが、
spwitter扱いされたtweetは、全体の14%程度です。
もちろん実際のtweetを読みましたが、その程度です。
hashtagやその他メタデータなんかは必要ありません。
tweetの字面,文面しか見ません。
形態素解析もしません。
普段はこんな感じです。
固有名詞などはほとんど出現しません。
blogosphereの傾向と同じですが、ほとんどの人は自分の身の回りのことばかりtweetしています(普段は)ニュースとか業界の動向なんか気にしてる人の方がずっと少ないです

しかし
何かあれば 非常に敏感に察知します。


形態素解析なんかしていたらこんなword cloudは作れませんね
スパム対策も含めて、このようなワード・クラウドを作る
この技術はもう確立できたので
どんなコーパスに対しても実現できます。
ご興味がある方はご連絡ください。
リアルタイムに更新しています
spwitterの定義はsplogの定義に準じます。
繰り返しですが、webスパムはすべてこの1文で規定できます。
コンテンツのすべてが他コンテンツのコピーであること。
(換言)オリジナルコンテンツが0%である
(換言)100%がコピーコンテンツである。
(補足1)「他のコンテンツ」は万人がアクセスできるコンテンツとは限らない
(補足2)コピーコンテンツであるかどうかだけが問題であり、著作権的にクリアーしていることは関係ない
これだけで
SEOがどうとか、
アフィリエイトがどうとか、
アダルトコンテンツがどうとかもすべてカバーしきります。
アフィリエイトとかアダルトコンテンツがどうとかコンテンツも、全てコピーコンテンツであるからです。
実際のwebコーパスを検証して例外は0件だったので間違いありませんと言い切れます。
定義から
タイトルとURLだけなど、はもちろんスパムとなります 。
リツイートなども、もちろんスパム扱いします
情報量が無いからです。
140文字でユニークなオリジナルコンテンツとはかなり厳しいような気がしますが、
spwitter扱いされたtweetは、全体の14%程度です。
もちろん実際のtweetを読みましたが、その程度です。
hashtagやその他メタデータなんかは必要ありません。
tweetの字面,文面しか見ません。
形態素解析もしません。
普段はこんな感じです。
固有名詞などはほとんど出現しません。
blogosphereの傾向と同じですが、ほとんどの人は自分の身の回りのことばかりtweetしています(普段は)ニュースとか業界の動向なんか気にしてる人の方がずっと少ないです

しかし
何かあれば 非常に敏感に察知します。


形態素解析なんかしていたらこんなword cloudは作れませんね
スパム対策も含めて、このようなワード・クラウドを作る
この技術はもう確立できたので
どんなコーパスに対しても実現できます。
ご興味がある方はご連絡ください。