名前

runWolfPsortHtmlTables - 細胞内局在化予測プログラムWoLF PSORTを実行し、予測結果の詳細をhtml形式ファイルとして出力する


書式

runWolfPsortHtmlTables [オプション] 生物種 outputDir [queryName]

runWolfPsortHtmlTables (--usage|--help|--man)

配列は標準出力から読み取る。


概要

細胞内局在化予測プログラムWoLF PSORTを実行し、予測結果の詳細をhtml形式ファイルとして出力する。

配列は標準出力から読み取る。

予測結果の要約はファイル outputDir/htdocs/results/queryName.htmlに書き込まれる。 以下のような情報が出力される。

  seq1 details extr_plas: 11.5, plas: 11, extr: 10, E.R.: 4, lyso: 4, pero: 1.5, cyto_pero: 1.5, vacu: 1
  seq2 details extr: 25, lyso: 3, plas: 2, nucl: 1, E.R.: 1
  seq3 details extr: 31, lyso: 1

``details''のリンクを追うと、予測の根拠となった、局在特徴がクエリと類似しているデータセット中の 蛋白質についての詳細情報が表としてまとめられている。

各行には複数の局在部位とスコアが表示される。局在部位は以下の通り:

        略  局在部位                 GO番号
        extr 細胞外                  0005576, 0005618
        cysk 細胞骨格                0005856
        cyto 細胞質(細胞骨格を除く)  0005829
        E.R. 小胞体                  0005783
        golg ゴルジ体                0005794
        mito ミトコンドリア          0005739
        nucl 核                      0005634
        plas 細胞膜             0005886
        pero ペルオキシソーム        0005777
        vacu 液胞膜                  0005774
        chlo 葉緑体                  0009507, 0009543
        lyso リソソーム              0005764

この表ではGO cellular componentの番号が書いてあるが、現在WoLF PSORTデータセットの大部分はUniprotのsubcellular localization記載 に基づいている。下線文字 ``_'' を含む局在クラスは多局在を表して いる。例えば ``cyto_nucl''は細胞質と核の2局在を表している。条件付き 2局在と常在2局在の区別はされていない。

プログラムの出力で局在部位の後にある数値は大体その局在部位が類似蛋白質 の中でどのぐらいの数を占めているかを表している。上記の例ではWoLF PSORT データセットではseq2に最も類似している蛋白質の中で25本が細胞外に局在す る。もっと正確に書けば、2局在を考慮した数値が出力される。例えば、 ``extra_plas''の後にある数値は

  #extra_plas + 0.5 * #extra + 0.5 * #plas
=head1 オプション
-n, --just-print
コマンドを実行せずに、画面に表示する。主にバグ取り用。 覚え方:make -nと同じ。

-p, --preserve-temporary-files
処理中にできる一時ファイルを残す。

--no-psort-classical-prediction
古典的PSORT II予測を行なわない。この予測方法はWoLF PSORTの予測と 似ているが、古いデータに基づいている。将来、これがデフォルトになる可能性 がある。

--no-psort-verbose-output
古典的PSORT IIの予測も局在化特徴量についての出力も行なわない。


引数

生物種
生物種。現在の選択肢は``animal''、``plant''、と``fungi''のみ。クエリ配列の 本当の生物種と違う生物種を指定しても警告なしに予測は行なわれるので 注意していただきたい。

outputDir
出力ファイルを書き込むディリクトリ。既に存在しているディリクトリを使う必要がある。

[queryName]
表示におけるクエリ配列の名前。デフォルト値は``query''


runWolfPsortHtmlTables animal outdir < hamster.fasta


ファイル

../data/animal.psort
../data/fungi.psort
../data/plant.psort
データセットのアミノ酸配列と局在部位

../data/animal.wolff
../data/fungi.wolff
../data/plant.wolff
データセットの局在化特徴量

../data/animal.wolfw
../data/fungi.wolfw
../data/plant.wolfw
特徴量の重み

../data/animal.wolfu
../data/fungi.wolfu
../data/plant.wolfu
予測効用行列。クラスAに属するアミノ酸配列をクラスBと予測した場合の損得の大きさを指定する。

出力ファイル

ここではrunWolfPsortHtmlTablesが入っているディレクトリをscriptDirと書くことにする。 seqNoはクエリ配列の番号。multifasta形式入力ファイルの最初の配列なら``1''、次 の配列なら``2''...

outputDir/htdocs/results/queryName.html
予測結果のホーム・ページ

outputDir/htdocs/results/queryName.PSORTverboseOutput.html
古典的PSORT IIのverbose mode 出力

outputDir/htdocs/WoLFPSORTdoc/
WoLF PSORT特徴量についての一般情報

outputDir/htdocs/results/queryName.detailedseqNo.html
詳細情報。seqNo番目のクエリ配列とそれに最も類似している配列の局在化特徴量 を記載した表などを提供する。

outputDir/htdocs/results/queryName.alignmentseqNo.html
seqNo番目のクエリ配列と(局在化特徴量が)それに最も類似している配列のアラインメント。

outputDir/htdocs/results/alignment.queryName.html
局在化特徴量と関係なく、クエリ配列と配列類似度の高い蛋白質のアラインメント。 これは現在サポートされていない。

outputDir/htdocs/results/alignment.queryName.html

一時ファイル

scriptDir/tmp/queryName.fasta
クエリ配列をcheckFastaInput.plで形式整理した結果。

scriptDir/tmp//query.wolff
クエリ配列の局在化特徴量


開発者

Paul Horton horton-p AT aist.go.jp


著作権

このプログラム: Copyright (C) 2004-2006, Paul B. Horton, All Rights Reserved.

ここで使われるPSORT: Copyright (C) 1997, 2004-2006, Kenta Nakai & Paul B. Horton, All Rights Reserved.


参考文献

Paul Horton, Keun-Joon Park, Takeshi Obayashi & Kenta Nakai, ``Protein Subcellular Localization Prediction with WoLF PSORT'', Proceedings of the 4th Annual Asia Pacific Bioinformatics Conference APBC06, Taipei, Taiwan. pp. 39-48, 2006.


関連情報

http://wolfpsort.org/

runWolfPsortHtmlSummary