2018年の収入

 

2017年の年収はこれくらいでした。

2018年の年収は、

f:id:tonets:20181228175315p:plain

でした。来年はもう少し上がると良いな。

 

追記:忘れてたけど、これの+数%分くらいの、兼業収入(単発の講演の類、印税等)があります。

IQ1の結婚記念日

この記事は IQ1の2まいめっ Advent Calendar 2018の20日目の記事です。

 

本日12月20日は私tonetsの結婚記念日です。

結婚してから5年が経ちました。つまり、2013年12月20日に結婚したわけです。

 

2013年12月20日といえば、tonetsはD3で、D論発表(公聴会)の5日前でした。

その日は区役所に行ったこと以外はあまり覚えていませんが、前日と翌日にそれぞれTSUBAME 2.5を420ノード予約していることを示すGoogle Calendarのメモは残っていました。

きっとD論公聴会のためにデータ取りを続けていたんですね。

 

IQが1しかなくても、相手がいれば結婚できます。

結婚に必要なものは、ぐぐれば調べられます。

こちらのサイトのコピペですが、

  1. 婚姻届 1通
  2. 戸籍謄(抄)本 (もとの本籍地でない役所に届ける場合)
  3. ふたりの旧姓印鑑
  4. ふたりの身分証明書
  5. 20歳以上の証人ふたりの署名と捺印

が揃っていれば、婚姻届をAcceptしてくれます。不備があったらMinor Revisionです。

婚姻届のテンプレートは、任意の役所の戸籍担当のところで「ください」と言えばくれます。

証人も任意です。大学院生の友人とか、そのへんのおっさんでも構いませんが、実用上は親とかが選ばれることが多いです。

役所の人は窓口にIQ1の人が現れても対処できるように訓練されてますので、IQが1しかなくても、大学院生でも、誰でも結婚できます。相手さえいれば。

 

結婚に関する一般的な知識をサーベイしたい場合は、結婚の専門誌である「ゼクシィ」を読めば大丈夫です。CellとかNature Chemistryみたいなもんです。

 

結婚CFPの解説でした。

 

おしまい。

IQ1のD進リターンズ

この記事はIQ1 AdC 2018の19日目の記事です。

 

参考記事

 

みなさん。

 

IQが1なので僕はD進しました。

 

なぜD進するのでしょう?

 

就活が面倒だったからです。

 

研究が楽しかったからです。

 

IQ1にリクなんとかとかマイなんとかはレベルが高すぎます。

 

D進しない人はなぜD進しないのでしょう。

 

D進しない人は、早く働きたいと言います。

 

しかしD進しない人は、だいたい修士=M進はします。

 

Mは研究することが課せられます。Dと同じです。

 

M進するくらいならD進すればいいのにと思います。

 

働きたいなら学部を出てすぐに働いた方が、生涯のお金はたくさんもらえます。

 

年収ならD卒が1番高いです。

 

いまやあたりまえのようにD卒者がいます。

 

D卒じゃないと相手にされない企業もあります。

 

人はなぜM卒にこだわるのか。

 

IQが1なのでわかりません。

 

おしまい

 

 

 

 

タンパク質間相互作用予測の話


この記事は創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) の14日目の記事です。
連載3日目は、化合物を選ぶバーチャルスクリーニングから少し離れて、タンパク質間相互作用という生命現象を予測する話をします。


タンパク質間相互作用と創薬
タンパク質間相互作用、Protein-Protein Interaction、略してPPIとよく呼ばれます。狭義にはタンパク質同士が結合して複合体を形成すること、広義にはタンパク質同士がなんらかの影響を及ぼし合っていることを指します。創薬としては、PPIするタンパク質同士をPPIさせなくするような薬=PPI阻害薬を開発できないかと、ここ10年以上[要出典]、試行錯誤がされています。
話題の抗体医薬品であるオプジーボニボルマブ)も、PD-L1とPD-1というタンパク質同士のPPIを阻害するので、PPI阻害薬と呼ぶことができます。が、一般に抗体医薬のことをわざわざPPI阻害薬と呼ぶことはほとんどありません[要出典]。抗体医薬が狙うのは細胞膜上に刺さっている膜タンパク質(オプジーボであればでT細胞のPD-1)であり、この膜タンパク質に覆いかぶさってはたらきを阻害します。しかし、2000年代から注目されている[要出典]PPI阻害薬の創薬は、細胞の中のPPIを標的として、細胞膜を通過できる低分子などで薬を作ろうというものですので、抗体医薬の創薬とは少し毛色が異なってきます。
なお、抗体医薬については中外製薬のウェブサイトがわかりやすいです。(たとえばこちら https://chugai-pharm.info/bio/antibody/antibodyp14.html

狭義のPPI、タンパク質の複合体には、いろいろな形が存在します。構造ベース創薬をやるなら複合体構造の形を知りたくなりますが、すでにたくさんの複合体構造が解かれてProtein Data Bankに登録されています。以下はその一例です。(Scott DE, et al. Nat Rev Drug Discov 15: 533, 2016 より引用)

この中で、たとえばインターロイキン2 (IL-2) については低分子の阻害剤の設計がいくつか論文等でも報告されています。(Scott DE, et al. Nat Rev Drug Discov 15: 533, 2016 より、一部改変)

細胞膜上のタンパク質は抗体医薬によって数多く狙われていますが、細胞の中のタンパク質にはまだまだ手付かずのものも多いです。PPI阻害薬は、創薬過程にたくさんの課題はありますが、新奇の標的が狙えるとして注目されているのです。


タンパク質間相互作用を予測する
タンパク質間相互作用の予測は、化合物の世界のバーチャルスクリーニングと様相がよく似ています。すでにPPIの相方が分かっているタンパク質同士を機械学習にぶち込んで未知のPPIを予測する機械学習ベースの方法と、ドッキングなどの方法で立体構造から相方を探す構造ベースの方法が存在します。

機械学習ベースの方法は、創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) 13日目の記事として紹介した薬剤標的相互作用予測 (http://d.hatena.ne.jp/tonets/20171213/1513094866) の方法がほぼそのまま使えます。つまり、タンパク質Aとタンパク質Bのペア (A, B) をなんらかの方法で特徴ベクトルにし、Y2Hなどの実験によって得られた相互作用の有る無しを {+1, -1} としてラベル付けし、SVMや無敵のディープラーニング[要出典]に突っ込んであげればよいのです。
実際に2006〜2007年ごろから機械学習によるPPI予測が試みられて、おそらく現在までに50報くらいは論文があると思います。昔は"-1"のラベル、「相互作用しないよ」というラベル情報がほとんどなく、相互作用するペアの相方をランダムに入れ替えたものを便宜的に使っていたりしましたが、最近では「相互作用しない」という情報を集めたデータベースなんかもでてきています(http://mips.helmholtz-muenchen.de/proj/ppi/negatome/)。

構造ベースの方法は、タンパク質同士の複合体構造を予測し、そのときのエネルギースコアの値を使って相互作用するかしないかを判定します。タンパク質同士の複合体を予測すると言った論文もこれまた山ほどあります(ざっと数百報の規模)。実は計算機による複合体予測の歴史はずっと古く、はじまりは1972年と言われています。以下の図は、私が調べた中で世界初だと思う複合体予測(BPTIとα-chymotrypsin)の論文 (Blow DM, et al. J Mol Biol 69, 137-144, 1972) の図です。

今ではたくさんのフリーソフトウェアやサーバーが出てきて、とても気軽に複合体構造が予測できるようになりました。例えばClusPro (http://cluspro.bu.edu/) は、タンパク質複合体構造予測コンペのCAPRIでとても優秀な成績を収めているサーバーで、よく使われています。Glideで有名なSchrödinger社がPIPERという名前で販売しているものと中身はほぼ同じです。

1つのタンパク質ペアに着目して複合体構造を予測したり、数ペア程度のタンパク質のPPI有る無しを知りたいという場合には、ClusProを使うのが良いかもしれません。しかし、例えば調べたいタンパク質のペアが1,000とか10,000とか、百万通りとかある場合には、なかなか構造ベースの方法では計算が大変で追いつきません。



MEGADOCK

そんな要望に応える形で我々が開発したのがMEGADOCK (http://www.bi.cs.titech.ac.jp/megadock/) です。MEGADOCKは、ClusProほどの精度は無いものの、速くたくさんのタンパク質ペアのドッキングが計算ができる唯一のソフトウェアです。流行りのGPU計算やスパコンでの計算にも対応しており、たとえば1台に4基のGPUが刺さったワークステーションでもGPUをすべて使って計算することができます。

しかし、ご家庭にスパコンはありません。自分の知りたいタンパク質ペアがどういう予測結果になるのか、かんたんには計算ができない場合もあるでしょう。そんなときのために、MEGADOCKの計算を予めやっておいたデータベースも作っています (MEGADOCK-Web: http://www.bi.cs.titech.ac.jp/megadock-web/)。論文はopen access誌のBMC Bioinformaticsという論文誌に2018年にpublishされることが決まっておりますので、興味のある人はpublishされたら読んでみてください。中身としては、ヒトのタンパク質鎖約7500個の全対全、 (\mbox{}_{7500}C_2 + 7500 \simeq 28{,}000{,}000)ペアのPPI予測結果と複合体モデル構造が閲覧できるようになっており、JavaとPlay Frameworkを用いて構築されています。



まとめ
最後は脱線気味でしたが、新しいPPI標的を探して、PPI阻害薬を設計していくのは、創薬としてはかなり壮大な旅です。そんな旅を支えるツールとして、様々なソフトウェアが開発され、利用されていますので、興味がわきましたら是非調べてみてくださいね。

薬剤標的相互作用予測の話

この記事は創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) の13日目の記事です。
昨日に引き続き、化合物を選び出すバーチャルスクリーニングのお話です。

バーチャルスクリーニングにはいろんなアプローチがあり、毎日のように新しい手法やアルゴリズムの論文が出版されています。
薬剤標的相互作用予測は、バーチャルスクリーニングの中の1ジャンル名です。英語で、Drug-Target Interaction (DTI) Predictionとか、Compound-Protein Interaction (CPI) Predictionとか言われます。Chemogenomics-based Virtual Screening (CGBVS) と言う人もいます。本稿ではDTI予測と言うことにします。

結構定義が難しいのですが、DTI予測は、「複数の化合物と複数のタンパク質の情報があるとして、それらの間の相互作用(活性の有る無しなど)を予測する」問題と言うことができます。リポジショニング(既知標的以外の標的を探す)を直接的に計算機で予測する方法としても知られます。

方法
ざっくりとした方法を示します。化合物が d_1, d_2, ..., d_n、タンパク質が t_1, t_2, ..., t_mとあったとして、それらがフィンガープリントでベクトル化されているとします。
(フィンガープリントについては6日目の記事を参照ください →化合物をベクトルにして比較しプロットする - Qiita https://qiita.com/Mochimasa/items/f1b60246ece7da46f6a9

すでに相互作用の有る無しが分かっている化合物-タンパク質のペア  (d, t) と、その間の相互作用の情報 y=\{+1, -1\} をとってきて、機械学習にぶち込みます。機械学習にぶち込むときに化合物-タンパク質のペア  (d, t) の特徴ベクトルが必要になりますが、だいたい dtをそのまま繋げたものや、 d \otimes tというテンソル積(=ここでは単に行列 d t^{\top} の全要素 (d_1t_1, d_1t_2, ...) を縦に並べたベクトル)などが使われます(カーネル法に突っ込んだときに良い性質が得られるのでカーネル法が使われることが多い)。また、yを並べた相互作用行列Yを非負値行列因子分解などを使って2つの行列  U Vに分解し、Uの行ベクトルやVの列ベクトルを特徴として用いる場合もあります。最近はこちらの行列分解アプローチが流行りです。

歴史
はじまりは2008年だと思います。Yamanishiら (https://academic.oup.com/bioinformatics/article/24/13/i232/231871) とJacob&Vert (https://academic.oup.com/bioinformatics/article/24/19/2149/247731) がこの問題に取り組みました。このとき、Yamanishiらが、Enzyme, GPCR, Nuclear Receptor, Ion Channelに分けた4つのDTI情報と、特徴ベクトルをまとめたデータセットを公開しました (http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/)。これがきっかけとなり、このデータセットベンチマークとして様々な機械学習の方法が開発され、一気にレッドオーシャン化します。最近ではNRLMF (http://dx.plos.org/10.1371/journal.pcbi.1004760) と呼ばれる行列分解による方法が最高精度だと思っていますが、これを書いている間にも新しい方法が出ていたので、もはやよく分かりません。手法に関するマトモなレビュー論文が存在しないので、頑張ってサーベイすればレビュー論文が1本書けます(私はやりたくないですが)。化合物とタンパク質の2部グラフのリンク予測と見立てて、その筋の人たち(グラフマイニングとかの人)も多く参入しています。

まとめ
ちょっと雑な記事でしたが、こんな方法があるんだなあと知ってもらえれば幸いです。(図を追記予定)

エスプレッソ(Spresso)の話


この記事は創薬 Advent Calendar 2017 (http://adventar.org/calendars/2412) の12日目の記事です。
Spressoという計算ツールの紹介です。論文はこちら。

Yanagisawa K, Komine S, Suzuki SD, Ohue M, Ishida T, Akiyama Y. Spresso: An ultrafast compound pre-screening method based on compound decomposition, Bioinformatics, 33(23): 3836-3843, 2017.
https://academic.oup.com/bioinformatics/article-lookup/doi/10.1093/bioinformatics/btx178
(オープンアクセスです)

ツールのURLはこちら : http://www.bi.cs.titech.ac.jp/spresso/


はじめに
創薬の初期段階に、計算で有望な化合物を選び出すという過程(=バーチャルスクリーニング)があります。
バーチャルスクリーニングにはいろんなアプローチがあり、毎日のように新しい手法やアルゴリズムの論文が出版されています。
Spressoも、そんなバーチャルスクリーニングのためのツールの1つです。


Spressoが前提とするのは、

  • 分子標的薬の設計である
  • 標的となるタンパク質の構造が解かれている
  • 化合物ライブラリがある

の3点です。いわゆる「構造ベースのバーチャルスクリーニング(structure-based virtual screening, SBVS)」をやります。何も無いところから新しい化合物を生み出す最近流行りのde novo設計はできませんが、たくさんの(数千万個の)候補化合物の中から、構造ベースで、高速に、有望な化合物を選ぶことができます。


しくみ
Spressoのしくみを説明します。

  1. まず化合物を、フラグメントにブツ切りにします。
  2. 次に、ブツ切りにしたフラグメントとタンパク質を、ドッキングツールでドッキングします。ドッキングツールはGlideでもGoldでもAutoDockでもmyPresto/sievgeneでもなんでも良いですが、Spressoが現行でサポートしているのはGlideのみです。
  3. 最後に、フラグメントのドッキングスコア(GlideScoreなど)を使って、ある数式に基いて元の化合物の有望度を計算します。

以上です。図にするとこんな感じです。



なぜフラグメント?
色々と疑問が出てくると思いますが、まずは「わざわざフラグメントにブツ切りにする」ことのメリットから説明しましょう。

世の中に化合物はたくさんあるのですが、単純にすべてをドッキングしようとすると結構大変です。たとえばZINCと呼ばれる有名な化合物ライブラリには、化合物がだいたい2千万個とかあります。ドッキング自体は1化合物あたり1秒くらいで終わりますが、2千万個の化合物だと5500時間=230日ぐらいかかる計算です。もちろん、230台の計算機があれば1日で、460台の計算機があれば半日で、920台あればたった6時間で終わりますが、なかなか大変です。しかし、化合物を構成するフラグメントの種類は、化合物に比べるとそんなに多くないのです。

たとえばこの例では、28,629,602化合物が263,319種類のフラグメントだけで構成されていることがわかりました。要するに、フラグメントのなんらかの計算結果を使って化合物を評価するならば、263,319種類のフラグメントの計算だけをやっておき、あとは計算結果を再利用すればよいということになります。


フラグメントから化合物にどうやって戻す?
さて、次の疑問は「どうやってフラグメントに切ったものから化合物に戻すのか?」ですかね。
Spressoでは、フラグメントから化合物の形に戻すことをしません。なので、有望な化合物を選ぶだけでなく、結合構造を知りたい人はSpressoは(ほぼ)使えません。

フラグメントのドッキングスコアから化合物の評価をするには、たとえばフラグメントのドッキングスコアを単純に足したり、最良値をとったり、平均値をとったりすれば良いことになります。色々試した結果、3乗一般化総和{GS_3}(フラグメントスコアを3乗した値をすべて足して3乗根を取る)が一番良かったのでそれを使っています。
{GS_3 = \sqrt[3]{\sum_f (s_f)^3}}
ここで、fはフラグメントを、s_fはフラグメントのドッキングスコアを表します。\sum_fはある化合物に着目したときに構成されているフラグメントのすべてについて総和を取る操作を表します。


Spressoの性能
最後に、肝心の結果についてです。

まず計算速度ですが、ZINCの28,629,602個の化合物をGlide HTVSモード(速いモード)でドッキングした場合、およびSpresso中でGlide SPモード(普通モード)を使った場合のSpresso、Spresso中でGlide HTVSモードを使った場合のSpressoを比較したグラフが下の図です。

ドッキングの回数が減るので当たり前なのですが、SpressoはGlide HTVSに比べて100倍前後速いです。

次に精度です。精度はDUD-Eというバーチャルスクリーニング用のデータセットから102セットをすべて使いました。少しややこしいのですが、Glide HTVSで全体のx\%をスクリーニングしてからその後にGlide SPで上位1%を取った場合、Spresso(SP利用)で全体のx\%をスクリーニングしてからその後にGlide SPで上位1%を取った場合、Spresso(HTVS利用)で全体のx\%をスクリーニングしてからその後にGlide SPで上位1%を取った場合、のEnrichment Factor (EF1%) を調べました。これはSpressoやGlide HTVSが、プレスクリーニングツールとして利用されることを想定しているためです。

これを見ると、SpressoはHTVSの半分くらいの精度であると言えます。x\%の数字が10%くらいになると、HTVSに近づいていきますが、その後のGlide SPモードによるスクリーニングに時間がかかってしまうので、お手軽さは減ってしまいます。


まとめ
Spressoは、精度はGlide HTVSの5〜8割くらい、速度はGlide HTVSの100〜200倍くらい、と覚えて貰えれば良いと思います。構造ベースの大規模スクリーニングがお手軽に、ご家庭でできるレベルになってくれれば、という思いが名前に込められています。

謝辞:この記事の図のほとんどは @yanagi3150 https://twitter.com/yanagi3150 によるものです。


小咄

  • 本成果はGIW2016という査読付き国際会議で最初に発表されました。発表当初はESPRESSOと名乗っていましたが、同じ名前のツールが存在していたため、名前が変わりました。
  • GIW2016に提出した論文原稿は、査読の結果採択されました。その後、論文誌推薦としてBioinformatics誌に推薦され、Bioinformatics誌の査読を受け直しました。major revisionでかなり大変なリバイズをしましたが、@yanagi3150 の頑張りで無事acceptに漕ぎ着けられました。
  • 実は2017年3月30日に論文が公開されていましたが、Bioinformatics誌のGIW2016 Special Issueに載せる予定の論文が揃うのに時間がかかり、結局正式なpublishは2017年12月1日となりました。GIW2016があったのが2016年10月なので、1年越しの刊行です。