須通り
Sudo Masaaki official site
For the reinstatement of
population ecology.

ホーム | 統計 Top | 生物系学生のための統計解析の学び方(01準備編)

この記事で対象とするのは、大学で生物系の研究室に入ったばかりの学部生・大学院(修士)学生である。

生物系学生のための統計解析の学び方(01準備編):目次

最初に用意するもの

端的にはパソコン、統計ソフト、教科書、そしてサンプルデータの4つを揃える。

統計解析のためのハードウェア環境

フリーソフトを導入可能なパソコンがあれば、とりあえず事足りる。ちょっとばかり古くても問題ない(Windows XP をインストールできる程度の性能ならok)。分子系統解析やタンパク質の構造解析などを除けば、生物学で必要とされるマシンパワーは高が知れており、下手するとパソコンでMP3を再生する方が計算量では上回るだろう。

タブレット端末は解析用途には向かない。iOSやAndroidでは今のところ(2013年夏現在)Rを使えないし、キーボードがないと入力に支障を来たすからである。

統計ソフトを選ぶ

極端な話、必要な計算を紙と鉛筆だけで行うことも出来無くはない。かつて日本の偉大なエンジニアたちは、ソロバンと計算尺とで「友鶴」や「龍驤」を造り上げたのである。しかし論文1本書くのに10年掛けるわけにも行かないので、統計ソフトを用いて計算を自動化する。

いかなる手段で解析を行うべきかは、統計ソフトの導入・学習コストと、それによって得られる効果のバランスによって定まる。ごく簡単なツールで済ませたければ、Excelで仮説検定を実行する手段もあるし、ウェブページに数字を入力すると結果を計算してくれるサイトもある。複雑な分析には高度なソフトが要求され、それに比例してコストも増大する。高機能かつ高価格なソフトの代表格といえばSASやSPSSだろう。

Rは高度な統計環境だが、本体を無料で入手できるため、最有力の選択肢だ(なぜ高度なソフトが無償なのか、答えは各自で調べてみよう)。学部や修士を修了したら金輪際サイエンスなんてやらないゾ、と心に誓っている人を除けば、修士課程の間にRの操作に慣れておくことを、個人的には推奨する。

パソコンの素人が一から学ぶ場合、GUIが備わっている(メニューから解析手法を選ぶ)ソフト、たとえばSPSSやJMPの方が敷居は低い。一方コマンドラインから操作するタイプのソフト(ないし統計プログラミング言語)は、最初は取っ付き難いものの拡張性が高く、またデータや入力手順を再利用しやすい(この利点を最大限生かす方法は後述する)。RについてはGUIからある程度の機能を使えるフロントエンド、例えばR CommanderやRStudioといったものが存在するが、フル活用するにはコマンド操作が必須である。なお2013年ごろからPython(プログラミング言語の一種)を用いた統計解析も流行っているらしい。学習資料の多さ、計算速度といった点で、筆者は今のところ初学者にはRを薦めているが、より一般的なプログラミングにも手を出したい人ならば、Pythonの習得は大いに為になると思う。

ツールを併用してみる

当たり前だが、一つの統計ソフトだけで研究データの全てを管理・処理する必要はない。高度な統計解析環境を手足のように使いこなしている人の中には、Excel等の表計算ソフトを頭ごなしに否定する向きもある。しかし現実問題として、実験データを手入力する場合は表計算ソフトが便利だし、Excelを既に持っている人は大いに活用すればよいのだ。

またデータの前処理を、何が何でも統計ソフト内部で完結させる必要などない。例えば複数のWebページ(HTML文書)を保存して、その中から一定の書式で書かれたテーブルを抽出し、全ページ分繋げて1枚のテーブルにする、といった処理を筆者はしばしば行う。全工程をRで加工することも不可能ではないが、PerlやPython等のインタプリタ型汎用プログラミング言語を使うほうが、(お勉強の時間を含めてもなお)テキスト処理については簡単だろう。

実際のところ、自分にはプログラム言語なんて無理だと思っている生物系研究者でも、Rの操作を覚えた後であれば意外と応用が利くものだ。筆者はド素人の状態からRを4年間使った後にPerlを始めたが、HTML文書の書き換えは2日でそれなりに出来るようになった。

どんな教科書を使うべきか?

確率論や統計学の原則(たとえば要約統計量や確率分布が有する性質)は、時代が移ったところで極端に変わるものではない。それに対して、具体的な解析手法やその手段(ソフトウェア)は、下手をすれば数年単位で切り替わる。単一の教科書のみを用いて、その全てを学習することは現実的ではない。

これから生物統計学を学ぶ(使う)人には、2種類のテキストを手許に置くことをお薦めする。1つは「統計学の教科書」である。もしあなたが英語をネイティブ並みに読めるならば、最初から Sokal and Rohlf の Biometry を使うと良いだろう(研究室の蔵書に無ければ、先生におねだりして買ってもらうべし)。日本語環境をメインに学習を進める場合でも、英語の統計学教科書を一度流し読みしておくと後々役に立つ。というのも論文を投稿した際に、解析手法の妥当性を巡ってしばしば査読者と意見が割れる。このとき個々の統計用語を英語で何と言うか知らないと話にならないし、英語の出版文献を示すのが、最も楽な説得方法なのだ。

もう1つは、統計解析に使うソフトウェアの基本操作を解説した書籍である。こちらに関しては、R-Tipsなどのネット資料でもかまわない。

データ解析の習得におけるサンプルデータの重要性

Rならば初期状態でサンプルデータが組み込まれており、公式のヘルプやチュートリアル、一部の教科書にはそれを用いた解析の実際的手順が掲載されている。面倒でも一度、自分のマシン上でサンプルデータを表示させ、解析手順をなぞって欲しい。声を大にして主張したいが、サンプルデータを用いた実習なくしてデータ解析の習得はありえない。

自身が取った実験データを学習用に使うことには、大きなメリットとデメリットがある。メリットは言うまでも無く、解析の成否が実利に結び付くこと、解析結果が上手に出ればモチベーションが一気に跳ね上がることだ。デメリットは、解析対象が未知の現象である場合、統計初心者にはその結果を解釈し辛い点である。それ以前に、適切な解析手法を選択できているか否かも問題となる。こればかりは経験がないと判断できないため、各位で指導教員に相談して頂きたい。