livedoor グルメの DataSet を公開

カテゴリ
ブックマーク数
このエントリーを含むはてなブックマーク はてなブックマーク - livedoor グルメの DataSet を公開
このエントリーをはてなブックマークに追加

櫛井です。

以前 livedoor clip のデータを学術研究用に公開しましたが,おかげさまで,たまに発表等で livedoor clip という名前が引用されているのを見かけるようにもなり感慨深い限りです。

さて,今回は第二弾としまして,livedoor グルメのデータをまとめてダウンロード & 利用可能にしようと思います。

今回はいろいろと余裕がなかったため

  • 豪華なイラスト付きページが用意できませんでした
  • livedoor clip のデータとは違い,定期アップデートはされません。2011年4月22日の時点のデータのみとなります

...が,なにかしら皆様の研究のお役に立てればと思います。

よくありそうな質問と答え

  • ライブドアグルメのユーザですが,自分の個人情報が公開されちゃうってこと?困ります!
    • 公開されるのは,もともとライブドアグルメのサイトで誰でも見れるようになっている情報だけです。また,ユーザ名はハッシュ化されています。ライブドアグルメのサイト本体を閲覧すれば分かる内容以上のことは,このデータセットからも分かりません。
  • サイト本体と同じデータしかないのなら,このデータセットを公開する意味はなんですか?
    • 研究者がサイトからデータを取得するには,自動的にサイトを巡回してデータをもれなく読み出す専用のプログラムを作る必要があります。これをクローリングやスクレイピングと呼びます。しかし,(1) 研究自体よりもこの準備の方に時間をとられてしまいがち (2) サイト上のデータは日々変化するので,クローリングで取得したデータに再現性がない (他の研究者が同一のデータを使って検証実験をすることができない) という問題がある (3) サイト運営側としても,クローリングでサーバに負荷をかけられるよりは最初からダウンロードしてもらった方が問題が少ない ... という双方のメリットがあります。
  • 利用上の注意事項,制限事項などがあれば教えて
    • 下に規約を載せてありますので,これに沿って利用してください。
  • データにはどんな内容が含まれますか?
    • レストランの基本データと,それに対する口コミ,さらに口コミに対する投票から成ります。このページの一番下に詳しい説明と定義を載せてありますので参考にしてください。
  • 最新のデータもほしい。
    • ライブドアグルメには データAPIもあります。クローラを作るよりは使いやすいかもしれませんのでご検討下さい。
  • ライブドアグルメじゃなくて食べログのデータがほしいです
    • デスヨネー

利用規約

・ 「livedoorグルメDataSets」は、株式会社ライブドア(以下、「弊社」といいます。)が提供する「livedoorグルメ」サービスを利用する「livedoorグルメ会員」(以下、「会員」といいます。)が、「livedoorグルメ」に登録した店舗情報、会員が登録した情報等(以下「本件情報」といいます。)を、CSVファイルにまとめたものです。なお、ユーザIDは、会員のプライバシー保護のため、暗号化されています。

・ livedoorグルメDataSetsにおけるデータは、平成23年(2011年) 4年22日時点のものであり、それ以降の店舗移転や閉店、その他本件情報の変更について反映しておりませんのでご注意下さい。

・ livedoorグルメDataSetsのご利用は、学術研究の目的に限ります。livedoorグルメDataSetsは、商用目的には提供いたしませんので、あらかじめご了承下さい。

・ livedoorグルメDataSetsのお申込みにあたっては、弊社のプライバシーポリシーが適用されます。

【プライバシーポリシーへのリンクの設定】

・ livedoorグルメDataSetsから得られる情報のうち、氏名、団体名等個人を識別または特定する要因となり得る情報につきましては、いかなる目的または方法であっても、これを使用または複製してはならないものとします。

・ 弊社からlivedoorグルメDataSets内の特定の情報の削除を求められた場合、これに応じなければなりません。

・ 本件情報のうち、会員が登録した情報の著作権は、当該情報を登録した会員に帰属します。そのため、当該情報の無断利用は、会員の著作権侵害となる可能性がありますのでご注意下さい。

・ 弊社は、livedoorグルメDataSetsの正確性、完全性、最新性、有用性等について一切保証しておりません。また、弊社は、livedoorグルメDataSetsのお申込みまたはご利用により生じたあらゆる障害、不利益、損害等に対して、一切責任を負わず、また損害賠償の義務を負いません。

・ livedoorグルメDataSetsの提供は、弊社の判断により、予告なく内容が変更されたり、または終了したりすることがあります。

データセット詳細

ダウンロードは [こちら]

フィールドの名前や内容の説明は以下の通りです。

※ネーミングは,すでに公開している livedoor グルメ API に準じていますのでこちらもご覧&ご利用ください。

  • restaurants.csv お店データ
    • id お店ID
    • name 店名
    • property 支店名
    • alphabet 店名欧文
    • name_kana 店名ひらがな
    • pref_id 都道府県ID (prefs.csv参照)
    • area_id エリアID (areas.csv参照)
    • station_id1, station_time1, station_distance1 最寄り駅ID(stations.csv参照),時間(分),距離(m)
    • station_id2, station_time2, station_distance2 (同上)
    • station_id3, station_time3, station_distance3 (同上)
    • category_id1カテゴリID(categories.csv参照)
    • category_id2, category_id3, category_id4, category_id5 (同上)
    • zip 郵便番号
    • address 住所
    • north_latitude 北緯
    • east_longitude 東経
    • description 備考
    • purpose お店利用目的
    • open_morning モーニング有
    • open_lunch ランチ有
    • open_late 23時以降営業
    • photo_count 写真アップロード数
    • special_count 特集掲載数
    • menu_count メニュー投稿数
    • fan_count ファン数
    • access_count 類型アクセス数
    • created_on 作成日
    • modified_on 更新日
    • closed 閉店
  • prefs.csv 都道府県マスタ
    • id 都道府県ID
    • name 都道府県名
  • areas.csv エリアマスタ
    • id エリアID
    • pref_id 都道府県ID
    • name エリア名
  • stations.csv 駅マスタ
    • id 駅ID
    • pref_id 都道府県ID
    • name 駅名
    • name_kana 駅名ひらがな
    • property 路線名
  • categories.csv カテゴリマスタ
    • id カテゴリID
    • name カテゴリ名
    • name_kana カテゴリ名ひらがな
    • parent1, parent2 親カテゴリID
    • similar 類似カテゴリ名
  • ratings.csv 口コミデータ
    • id 口コミID
    • restaurant_id 対象お店ID
    • user_id ユーザID
    • total 総合評価(0-5)
    • food 料理評価(0-5)
    • service サービス評価(0-5)
    • atmosphere 雰囲気評価(0-5)
    • cost_performance コストパフォーマンス評価(0-5)
    • title 口コミコメントタイトル
    • body 口コミコメント
    • purpose 利用目的
    • created_on 投稿日時
  • ratings_votes.csv 口コミへの投票データ
    • rating_id 対象口コミID
    • user ユーザID
    • 投票日時

(以上)