生物学者が生命の秘密を突く手助けをする方法

30億文字の長さのヒトゲノムが配列決定された後、私たちは新しい "オミックス"生物学研究の時代。 科学者たちは現在、さまざまな生物のゲノム(すべての遺伝子)またはプロテオーム(すべてのタンパク質)を配列決定するために競争しており、その過程で膨大な量のデータが集められています。

例えば、科学者はDNAシーケンシングのような「omics」ツールを使用して、ウイルス性インフルエンザ感染でどのヒト遺伝子が影響を受けているかを突き止めることができます。 しかし、ヒトゲノムには少なくとも合計25,000の遺伝子があるため、このような単純なシナリオでも改変された遺伝子の数は潜在的に数千になる可能性があります。

遺伝子やタンパク質を配列決定して同定することは、それらに名前と場所を与えますが、それが何をしているのかを教えてくれるわけではありません。 私たちは、これらの遺伝子、タンパク質、および 間のすべてのもの 異なる生物学的プロセスにおいて相互作用する。

現在、基本的な実験でさえも大きなデータが得られます。最も大きな課題の1つは、バックグラウンドノイズから関連する結果を解き放つことです。 コンピュータは、このデータ山を克服するのに役立っています。 彼らはそれ以上のステップを進めることもでき、科学的仮説を立て、新しい生物学的プロセスを説明するのを助けます。 データ科学は、本質的に、最先端の生物学的研究を可能にする。

救助するコンピュータ

コンピュータは、分析に必要なすべての重要な条件を同時に追跡できるため、膨大なデータセットを処理するための独自の資格があります。


インナーセルフ購読グラフィック


彼らは 人間の誤りを反映する可能性がある コンピュータが大量のデータを効率的に扱うことができ、人間の捜査官がそうであるように、彼らはよく知られた方に偏っていません。

コンピュータは、実験データセットの特定のパターンを探すように教えることもできます。これは、1950で最初に提案された機械学習と呼ばれる概念です。特に数学者 アラン·チューリング。 データセットからパターンを学習したアルゴリズムは、それまでに遭遇したことのない新しいデータに基づいて予測を行うよう求められます。

大規模なデータセットを活用し、基礎となる生物学を理解するためにコンピュータに依頼することができるため、機械学習は生物学的研究に革命をもたらしました。

脳のプロセスをシミュレートすることによって考えるコンピュータのトレーニング

私たちは、私たち自身の研究室で人工神経ネットワーク(ANN)と呼ばれる機械学習の興味深いタイプを使用しました。 脳は高度に相互接続されたニューロンのネットワークであり、ニューラルワイヤリングを介して電気パルスを送ることによって通信する。 同様に、ANNは、ニューロンのネットワークを、他のニューロンの信号に応答してオンとオフに切り替えるときにシミュレートします。

実際のニューロンのプロセスを模倣するアルゴリズムを適用することにより、ネットワークは多くのタイプの問題を解決することを学ぶことができます。 Googleは強力なANNを現在有名に使用しています ディープドリームプロジェクト コンピュータが画像を分類し、作成することさえできます。

私たちのグループは、免疫システムを研究し、 がんの新たな治療法の考え方。 私たちはANNの計算モデルを使って、私たちの免疫細胞が何かが私たちの体に異物であるかどうかを判断するのに使う短表面タンパク質コードを研究しました。 私たちの免疫細胞(T細胞など)が正常/自己細胞と異常/外来細胞をどのように区別するかについてもっと理解すれば、より良いワクチンや治療法を設計できます。

我々は何年にもわたって研究者によって同定された何千ものタンパク質コードの公的に利用可能なカタログを精査した。 この大きなデータセットを健康なヒト細胞由来の正常な自己タンパク質コードとウイルス、腫瘍、および細菌由来の異常なタンパク質コードの2つに分けました。 その後、我々の研究室で開発された人工ニューラルネットワークに目を向ける。

タンパク質コードをANNに供給すると、そのアルゴリズムは、 基本的な違い 正常なタンパク質コードと異常なタンパク質コードの間にある。 このような生物学的現象を把握するのは難しいでしょう。大量のデータを解析するために、文字通り何千ものタンパク質コードがあります。 これらの複雑な問題を論じ、新しい生物学を定義するには、機械が必要です。

機械学習による予測

生物学における機械学習の最も重要なアプリケーションは、大きなデータに基づいて予測を行うユーティリティです。 コンピュータベースの予測では、大きなデータを理解し、仮説を検証し、貴重な時間とリソースを節約できます。

例えば、我々のT細胞生物学の分野では、標的とするウイルスタンパク質コードを知ることは、ワクチンや治療法を開発するうえで重要です。 しかし、非常に高価で、それぞれを実験的に試験することが困難であることから、任意のウイルス由来の非常に多くの個々のタンパク質コードが存在する。

代わりに、人工ニューラルネットワークを訓練して、2種類のタンパク質コード(正常と異常の両方)の重要な生化学的特徴を機械が学ぶのを助けました。 その後、我々はモデルに、新しいウイルスタンパク質コードが「異常な」カテゴリーに似ていることを「予測する」ように頼み、T細胞、したがって免疫系に見えるようにした。 私たちは以前に研究されたことのない様々なウイルスタンパク質についてANNモデルを試験しました。

もちろん、教師を喜ばすために熱心な学生のように、ニューラルネットワークは、このウイルス内のT細胞活性化タンパク質コードの大部分を正確に同定することができました。 また、ANNの予測精度を検証するためにフラグを付けたタンパク質コードも実験的にテストしました。 このニューラルネットワークモデルを用いて、科学者はこうすることができる 迅速に予測する 有害なウイルスからの重要な短いタンパク質コードをすべて抽出し、それらを個別に推測してテストするのではなく、治療法またはワクチンを開発することをテストします。

賢明な機械学習の実装

絶え間ない精製のおかげで、あらゆる種類の科学研究にとって、大きなデータサイエンスと機械学習はますます不可欠となっています。 生物学でコンピュータを使って訓練と予測を行う可能性は、ほとんど無限です。 病気を検出するのに最適なバイオマーカーの組み合わせを理解することから、なぜ 一部の患者は特定の癌治療の恩恵を受けるコンピュータを使用して大きなデータセットをマイニングすることは、研究にとって貴重なルートになっています。

もちろん、制限があります。 ビッグデータサイエンスの最大の問題はデータそのものです。 もし、オモチックス研究によって得られたデータが、最初から不完全であったり、不気味な科学に基づいていれば、そのマシンは悪いデータで訓練を受け、 貧しい予測。 生徒は先生と同じくらい良いです。

コンピュータは感覚的ではないので(まだ)、彼らは、たとえ存在しなくても、悪いデータや再現性のない科学に再び立ち向かうパターンを求めて彼らを追い求めることができます。

そして、いくつかの研究者は、コンピュータが データのブラックボックス 彼らが代わって行う操作や仕掛けをはっきりと理解していない科学者のために。

これらの問題にもかかわらず、大きなデータや機械の利点は、科学研究の貴重なパートナーとなり続けます。 注意点を念頭に置いて、私たちは、機械の目を通して生物学を理解する独特の姿勢を持っています。

著者について会話

アリゾナ州立大学の生物医学系システム工学科、ディエゴ・チャウェル、アリゾナ州立大学応用数学の博士号取得者、スリ・クリシュナ候補

この記事は、最初に公開された 会話。 読む 原著.


関連書籍:

at InnerSelfMarketとAmazon