データから探索的に得られた特徴に関する統計手法の開発を行っています。「探索的」とは,モデル選択やクラスタリングなどによって,データ自身からその背後にある特徴を抽出することです。一般的に,このようにして得られる特徴に対して古典的な統計的手法を適用すると,選択バイアスの問題で解析結果に偏りが生じてしまいます。選択バイアスを適切に考慮した統計手法を開発することで,ビッグデータを効率的に解析した上で,統計的な解釈を与えることが可能になります。
We develop statistical methods for features obtained exploratory from the data. The term "exploratory" means that the features are extracted from the data itself, for example, by a model selection, clustering or other methods. In general, when a classic statistical method is applied to such features, the results of the analysis would crucially be biased due to the selection bias. Developing statistical methods for which the selection bias can be properly taken into account allows us not only to efficiently analyze big data but also give some statistical validity and interpretation.
一般的な理論に基づいているため,多くの応用例が考えられます。
・ 多次元系列における共通の変化点検出への応用
・ 分類問題への応用
遺伝子発現量の変化点検出の例:
3,4,21,40番目の患者の発現量の構造が22番目の遺伝子で変化しています。
その他の患者では構造の変化は見られませんでした。
例えば,遺伝子発現量を解析するような医学分野であれば,バイオマーカを特定するための技術開発への応用が期待できます。また,生産ラインを多く持つような工場などでは,機器の故障を検知するための技術開発の応用も期待できます。
◎企業へのメッセージ
アプローチの違いはありますが,統計的な考え方はあらゆる分野に通じます。すべてのデータに当てはまるような万能の解析方法はありませんが,データにあった解析方法が統計的な考え方から見えてくることもあります。