2010年06月14日

研究者向け
Bioinformatics誌 Next Generation Sequencing特集

SEQanswers ツール、シーケンサー比較、ジョブフォーラム、あぁ

次世代シーケンサーのスペック比較表を作っています

概要を手短に知りたい人向け
50万円で自分のゲノムを解読できる時代がやって来ます

Google Search 2010/06/14
-次世代シーケンサー 103,000
-次世代シーケンサ 91,300
-次世代シークエンサー 58,000
-次世代シークエンス 53,900
-次世代シーケンス 51,500
-次世代シークエンサ 15,300


(22:54)

2010年06月12日

NGSデータ解析の会社

ツール類の簡単な解説があり、役立ってくれそうな会社群


具体的な解説はないが受託解析を行ってる会社群


-DDBJ Read Annotation Pipeline



(00:15)

2008年12月30日

400ml献血ポスターに吉沢さんが出ていてもモーニング娘。のなかで一番元気そうな吉沢さんじゃ、私は吉沢さんほど元気じゃないから200mlで、と思われてしまうのじゃないかと新宿駅構内の献血ルーム前の吉沢さんのポスターを見るたびにいつも懸念する。

野球のピッチャーの勝利数が一番多いことを「ハーラーダービートップ」って言いますが、「ハーラー」って何ですか。検索エンジンがあればすぐ回答が出る問題だからこそ、こんな時代だからこそ大切に、検索エンジンですぐ回答を出すのではなく、偶然その答えと出会いたい、そんな大切にしたい問題があることは幸せだと思う。

「田母神論文」はすぐ忘れてしまうだろう。去年の「分母減らし」は忘れないであろう。子供が分数のドリルをやる年齢(約5年後)になったら突然「分母減らし」と言ってやろう、「損保ジャパンを辞めて散々だったな村瀬長官」と子供が答えてくれるかな。

「言うよねー」、「どんだけー」。そうか。オカマキャラの人は「おやじだろ」と突っ込まれて言われっぱなしだと面白くない。怒るのは論外。「ヤダーもう」「ひどいー」では普通で面白くない。当意即妙に答えるのは技術がいる。そうか何を言われてもすぐに返せて盛り上がりのある文言を用意するのがオカマキャラの必須事項と今になり気づく年の瀬。



(22:50)

2008年11月01日

昔(2007/01/20)書いたものの更新

  • 日本語情報サイトがない物にチュートリアルのリンク等探す予定
~カテゴリ 本家リンク / Google検索数 *1) 日本語情報サイト 概要
環境 KNOB 659/602 *2) 同左 バイオインフォマティクスの解析、学習のために作成された 1 CD bootable Linuxである、Knoppix for Bio (KNOB, ノブ)
パッケージ EMBOSS 1,930,000/498,000 JAMBO 翻訳PJがあり充実。 EMBOSSとは、European Molecular Biology Open Software Suiteの略で、フリーでオープンソースな分子生物学の配列解析アプリケーションの統合パッケージです。
パッケージ? BioMoby 318,000/252,000 日本語ユーザーズサイトがあったが消滅。でも日本語ドキュメントは増えた。 バイオインフォマティクスツールやデータベース上の情報をフォーマットを意識せずに利用できる仕組み
パッケージ G-language 134,000/4,220 本家ページの"Document"から。チュートリアル等充実。日本語検索結果は少ないが、日本発。英語ドキュメントが充実しているため? 汎用ゲノム解析パッケージ。GUI、Perlモジュール
ライブラリ BioPerl 389,000/125,000 BUGJAユーザーズグループだが情報少 BioPerlへの道 BioPerl による生物情報の解析 Perl用バイオインフォマティクスライブラリ
ライブラリ BioJava 74,000/1,590 BioJava In Anger HowTo形式で充実しているが更新なし。日本語ユーザーズサイトなし? Java用バイオインフォマティクスライブラリ
ライブラリ Biopython 86,000/1,740 BioPython 本家チュートリアル&クックブックの和訳あり充実←消滅!!!
ライブラリ BioRuby 34,400/15,100 日本語ページ消滅? BioRuby のインストール BioRuby の使い方 Ruby用バイオインフォマティクスライブラリ
ライブラリ BioPHP 75,500/78
ライブラリ BioDAS 7,360/220 DASが結ぶgenome annotation とfunctional annotation
ライブラリ BioFlash 22,500/1,060 *3) 同左
ライブラリ BioBike(BioLisp) 11,900/65

|ライブラリ|BioCaml 624/180|開発者は日本人だが日本語ドキュメントは無いよう| |

ライブラリ BioShell 8,120/93
ライブラリ BioC++ 57/3 -
ライブラリ BioGroovy 323/8 -
ワークベンチ? Taverna 13,200/76*4) チュートリアルを試してみた GUIのワークフローツール
統計 BioConductor 245,000/14,400 BioConductorの紹介 [[BioConductorチュートリアル>http://bioconductor.g.hatena.ne.jp/nakao_mitsuteru/20070618/bioc>]] PPTによる紹介 書籍あり*5) ユーザーズグループJRBUGは消滅? Rのバイオインフォマティクス用ライブラリ群
統計 BioWeka 2,790/36 Wekaの日本語情報 "Weka" の使い方 WEKA解説ページ はあるがBioWekaの日本語情報は乏しい
DBスキーマ BioSQL 21,900/276 BioSQLのインストールと使用 OBDA標準の一部で、Open Bioinformatics Foundation内の異なる言語プロジェクトのための共通のシークエンスデータベース用スキーマ
可視化 Cytoscape 192,000/13,000 Cytoscape Info. 充実 あらゆる複雑ネットワークを可視化、解析するためのプラットフォーム
  • bioSqueakはページはあるがドキュメント等ない模様

オープンソースで学ぶバイオインフォマティクス



(16:50)
*比較する
-bioPerl, bioRuby, bioJava, bioPython, EMBOSS
-libSVM, SVM-light, tinySVM
-統計はR(bioconductor)でよいのかでもbioconductorで配列を扱うのかbioPerlか配列ならEMBOSSかでも配列からコドン頻度出してSVMするならRでlibSVMを呼び出すのかならbioconductorがよいかbioWekaがあるよG-languageできまりじゃでも描画するでしょ画像のライブラリがそんでもって最終的にデータがたまってDB化するならやはりbioJavaでStrutsでSeasarっていうかbioRubyでRailsでしょ
**使いやすさで比較する インストール手順で比較
-英語というだけでなくどこから手をつけていいかわからないHPが多すぎる。インストール集、チュートリアル集を日本語で作ればよいですか。
**機能で比較、精度で比較、解析速度で比較
-こういうことなのですか The Bio* toolkits -- a brief overview
-それとも A comparison of common programming languages used in bioinformatics. がHighly accessedなのはみんなみんな悩んでいるんじゃないですか。「バイオインフォマティクス」がまだ何も答えてないじゃないですか。逃げるんですか。快児さんみたいじゃないですか。
*BioMobyやらBioclipseやらTavernaはどうするのですか。日本語検索にしても、「インストール」「使い方」などキーワードに加えても大して情報が得られないじゃないですか。オープンバイオ研究会に頼っているだけじゃなくて自分から何かできないのですか。

(03:10)
Hacks 010 遺伝子の格差社会
Entrez GeneにてStatisticsからHomo sapiensを選択します。
Showの隣の隣の"Sort by Rerevance"を"Sort by Gene Weight"にするとGene Weight順に並びます。
以前、遺伝子ランキングを算出したことがありますがブラウザ上で似たことが簡単にできました。
Entrez Geneのヘルプを見ると
Gene Weight. Gene Weight is calculated from multiple lines of evidence geared toward evaluating how well a gene has been characterized. These lines include:
1. Informative Gene-PubMed links. Informativeness is inversely proportional to the number of Genes connected to a PubMed record.
2. Informative symbols or full names. A gene with a symbol constructed as LOC+GeneID is weighted less, for example, than a gene with the symbol 'ABCA1'. A gene with a description that starts with the word 'hypothetical' is weighted less than one with a description that starts with 'cystic fibrosis'.
3. Inclusion in HomoloGene or Protein Clusters. Genes (or their products) that are known to be conserved are weighted more highly.
4. Inclusion in OMIM or Books.
Gene symbol

とのこと。格差社会ここに極まれり。

(01:01)

2008年10月31日

Hacks 009 ダウンロード
NCBI、Ensembl、UniProt等々のデータソースダウンロードサイトのミラー。ネット状況にもよるかと思いますが本家サイトより半分から3/1程度の速度でダウンロードできるようです。頻繁にダウンロードされる方には有用と思います。Bio-Mirror

こちらは東京大学医科学研究所ヒトゲノム解析センターのミラーサイトですNCBI以外にも多種のミラーサイトを準備しています。



(00:06)

2008年10月25日

Hacks001 NCBIミニコース日本語版
膨大なNCBIのチュートリアル的存在にミニコースがありますがそのJST提供和訳版です。

1. MapViewerクイックスタート
2. 疾患遺伝子の同定
3. 疾患遺伝子と表現型の相関関係
4. BLASTクイックスタート
5. EntrezGeneクイックスタート
6. Structure Analysisクイックスタート
7. Entrezクイックスタート


Hacks002 UniProtにないIsoformが、NCBI-nrに存在するか?
濃すぎ

Hacks003 NCBI Genome WorkBench

こんなよいローカルのゲノム閲覧ツールがあるならわかりやすいところにリンクしてください。
トップページからのたどり方がわからない。Googleで偶然見つけた

Hacks004 ヒトゲノムブラウザーユーザーズガイド
NCBI、Ensembl、UCSCのゲノムブラウザーのガイド。昔は日本語版もあったが見当たらず、英語版

Hacks005 Entrez Programming Utilities
コマンドラインあるいはプログラムからEntrez検索ができる代物
適当な解説ページが見つからないと自分が書く羽目に

Hacks006 NCBI Books
バイオテクノロジーの本
古い版とか一部だけとか制約がありますが、The Cellなどバイオインフォマティクス系の本が無料で読めるのだよ。トップページからリンクがありますが意外と知らない人が多いので。

Hacks007 PubMedの詳細な使い方
[au]で著者、[title]でタイトル、[journal]で論文誌を特定できるとかいろいろあるのだよ。PubMedの使い方だけで1冊の本になるからなぁ。でも大学の人が作った手引きがたくさんあるな。

Hacks008 NCBIのページに行かずBLASTを手元のPC内でする方法(コマンドラインでなく)
wwwblastって有名なのかなぁ。知らない人が多そうなので。高い金で開発を依頼しなくてもちょっとの努力で無料でWEB版BLAST(wwwblast)が使えるというお話。


(03:23)
Bioperl1.4チュートリアル(http://www.bioperl.org/Core/Latest/bptutorial.html)の和訳



このBlogにPDFがおけないのでこちらに

以下、チュートリアルの目次
(訳注:訳し終わったところの目次は和訳してあります)

----
NAME

BioPerlTutorial - a tutorial for bioperl

VERSION

1.4

AUTHOR

Written by Peter Schattner

Copyright Peter Schattner

Contributions, additions and corrections have been made
to this document by the following individuals:

Jason Stajich
Heikki Lehvaslaiho
Brian Osborne
Hilmar Lapp
Chris Dagdigian
Elia Stupka
Ewan Birney

概要

 モジュールのドキュメント、スクリプトの例、"t"テストスクリプトのドキュメントを含むbioperlドキュメントからのコードと文章の「断片」がこのチュートリアルには含まれています。perl自身と同じ条件の下でユーザーはことチュートリアルを配布できます。

 このドキュメントはperl POD(plain old documentation)フォーマットで書かれています。より使いやすいフォーマットにしたいのであればpod形式変換ツール(pod2html、pod2man、pod2text、など)でフォーマットを換えることができます。
(訳注:翻訳後は必ずしもPODに則っておりません)

目次

* I. イントロダクション
o I.1 概要
o I.2 クイックスタート
o I.3 ソフトウエアに必要なもの
o I.3.1 bioperlの最小インストール(bioperlの「コア」インストール)
o I.3.2 完全なインストール
o I.4 インストール
o I.5 非UNIXユーザーのための付記
o I.6 補足のドキュメントの場所
* II. bioperlオブジェクトの概略
o II.1 配列オブジェクト(Seq, PrimarySeq, LocatableSeq, RelSegment, LiveSeq, LargeSeq, RichSeq, SeqWithQuality, SeqI)
o II.2 Location オブジェクト
o II.4 インターフェースオブジェクトと実装オブジェクト
* III. bioperl使用法
o III.1 ローカルとリモートのデータベース上の配列データへのアクセス
o III.1.1 リモートデータベースへのアクセス(Bio::DB::GenBank, など)
o III.1.2 ローカルデータベース (Bio::Index::*, bp_index.pl, bp_fetch.pl, Bio::DB::*)のインデックス化とアクセス
o III.2 Transforming formats of database/ file records
o III.2.1 Transforming sequence files (SeqIO)
o III.2.2 Transforming alignment files (AlignIO)
o III.3 Manipulating sequences
o III.3.1 Manipulating sequence data with Seq methods
o III.3.2 Obtaining basic sequence statistics (SeqStats,SeqWord)
o III.3.3 Identifying restriction enzyme sites (Bio::Restriction)
o III.3.4 Identifying amino acid cleavage sites (Sigcleave)
o III.3.5 Miscellaneous sequence utilities: OddCodes, SeqPattern
o III.3.6 Converting coordinate systems (Coordinate::Pair, RelSegment)
o III.4 類似配列の検索
o III.4.1 BLASTの実行(RemoteBlast.pmを用いて)
o III.4.2 Parsing BLAST and FASTA reports with Search and SearchIO
o III.4.3 Parsing BLAST reports with BPlite, BPpsilite, and BPbl2seq
o III.4.4 Parsing HMM reports (HMMER::Results, SearchIO)
o III.4.5 Running BLAST locally (StandAloneBlast)
o III.5 Manipulating sequence alignments (SimpleAlign)
o III.6 Searching for genes and other structures on genomic DNA (Genscan, Sim4, Grail, Genemark, ESTScan, MZEF, EPCR)
o III.7 Developing machine readable sequence annotations
o III.7.1 Representing sequence annotations (SeqFeature,RichSeq,Location)
o III.7.2 Representing sequence annotations (Annotation::Collection)
o III.7.3 Representing large sequences (LargeSeq)
o III.7.4 Representing changing sequences (LiveSeq)
o III.7.5 Representing related sequences - mutations, polymorphisms (Allele, SeqDiff)
o III.7.6 Incorporating quality data in sequence annotation (SeqWithQuality)
o III.7.7 Sequence XML representations - generation and parsing (SeqIO::game, SeqIO::bsml)
o III.7.8 Representing Sequences using GFF (Bio:DB:GFF )
o III.8 Manipulating clusters of sequences (Cluster, ClusterIO)
o III.9 Representing non-sequence data in Bioperl: structures, trees and maps
o III.9.1 Using 3D structure objects and reading PDB files (StructureI, Structure::IO)
o III.9.2 Tree objects and phylogenetic trees (Tree::Tree, TreeIO, PAML)
o III.9.3 Map objects for manipulating genetic maps (Map::MapI, MapIO)
o III.9.4 Bibliographic objects for querying bibliographic databases (Biblio)
o III.9.5 Graphics objects for representing sequence objects as images (Graphics)
o III.10 Bioperl alphabets
o III.10.1 Extended DNA / RNA alphabet
o III.10.2 Amino Acid alphabet
* IV. Auxiliary Bioperl Libraries (Bioperl-run, Bioperl-db, etc.)
o IV.1 Using the Bioperl Auxiliary Libraries
o IV.2 Running programs (Bioperl-run, Bioperl-ext)
o IV.2.1 Sequence manipulation using the Bioperl EMBOSS and PISE interfaces
o IV.2.2 Aligning 2 sequences with Blast using bl2seq and AlignIO
o IV.2.3 Aligning multiple sequences (Clustalw.pm, TCoffee.pm)
o IV.2.4 Aligning 2 sequences with Smith-Waterman (pSW)
o IV.3 bioperl-db and BioSQL
o IV.4 Other Bioperl auxiliary libraries
o V.1 Appendix: Finding out which methods are used by which Bioperl Objects
o V.2 Appendix: Tutorial demo scripts


(02:35)