Google Translate
Google Translate

UECで学ぶ

教員紹介

NTT連携研究室

幸島 匡宏 連携准教授

所属:日本電信電話株式会社

メールアドレス:masahiro.kohjima@ntt.com

ウェブサイト

研究目的

急速な発展と普及が進む人工知能(AI)システムの実現に中心的な役割を果たしているのが、機械学習と呼ばれる、コンピュータが大量のデータから学習し、データに潜むルールやパターンを自動的に発見できるようにする技術です。機械学習が力を発揮するには、タスクと関連性の高い大量かつ高品質なデータが一般に必要となります。しかし、実世界の多くの分野では、量も質も不十分なデータや、通常期待されるものとは異なる不完全な形式のデータしか入手することができない場合があります。本研究室では、このような不十分・不完全な実世界のデータから学習することを可能とする機械学習の研究を行います。これにより機械学習が力を発揮できる領域を広げ、AIシステムの性能を改善すること、および従来技術では分析が困難なデータを分析可能とすることを目指します。

具体的な研究内容

近年の研究内容を2つ紹介します。データが作られる過程を数学的なモデル(深層ニューラルネットワークを用いた確率モデルなど)で表現し、パラメタ推定のためのアルゴリズムを導くことで不完全なデータを分析可能としています。

不完全な移動データを用いた学習手法

マーケティング分野などで利用される位置情報データは、プライバシー保護のために行われるデータを一定間隔で間引く処理や、地下施設などの測位不可能なエリアの存在により、学習に利用できるデータは図1aに示す経由地点を訪問した情報が欠落した不完全な移動データとなります。このような不完全なデータから任意の地点間の遷移確率を推定できる手法[1][2]を提案し、都市の空間構造に基づいた人の移動傾向を把握することを可能としました。

不完全な入出力データを用いた学習手法

企業が自社商品への顧客のエンゲージメントを高める要因を知りたい、学校が生徒の学業成績向上に寄与する要因を特定したいなど、入力変数(例: 商品ページの閲覧時間、勉強時間)と出力変数(例: 購入金額、試験のスコア)の定量的関係を把握するために回帰分析が広く利用されます。通常、回帰分析を行うためには入力と出力の対応があるデータが必要です。しかし、 入力と出力に対応する情報が、オンラインサイトと実店舗のように異なる部門や組織で収集される場合や、個人が識別できないように学級/学校のような集団単位で収集される場合などは、学習に利用できるデータは入出力の対応が失われた不完全なデータ(バラバラなデータ)となります(図1b)。このようなバラバラなデータから深層ニューラルネットワークを用いて回帰関数を学習する手法[3]を提案し、真の回帰関数の形に制約なく回帰分析を行うことを可能としました。

図1 不完全なデータの例

教員からのメッセージ

上記の研究以外にも、本務のNTTにおいて、商品の購買[4][5][6]や人流の制御[7]、生活習慣の改善[8]など、人の状態や行動を推定・予測・制御する技術に関する研究開発を行っています。本学では、南泰浩教授と連携して研究を進め、希望する学生にはNTT研究所でのインターンシップ参加など企業の研究活動を体験できる機会を作りたいと考えています。機械学習やデータ分析に興味のある方と一緒に研究できることを楽しみにしています。

参考文献

[1] M. Kohjima, T. Kurashima, and H. Toda: Learning with labeled and unlabeled multi-step transition data for recovering Markov chain from incomplete transition data, International Joint Conferences on Artificial Intelligence, 2412/2419 (2020)
[2] M. Kohjima, T. Kurashima, and H. Toda: Inverse problem of censored Markov chain: estimating Markov chain parameters from censored transition data, Pacific-Asia Conference on Knowledge Discovery and Data Mining, 297/308 (2023)
[3] M. Kohjima: Shuffled deep regression, AAAI Conference on Artificial Intelligence, 13238/13245 (2024)
[4] 幸島 匡宏, 松林 達史, 澤田 宏: 複合データ分析技術とNTF(1)複合データ分析技術とその発展, 電子情報通信学会誌, 99-6, 543/550 (2016)
[5] 松林 達史, 幸島 匡宏, 澤田 宏: 複合データ分析技術とNTF(2・完)テンソルデータの因子分解技術と実応用例, 電子情報通信学会誌, 99-7, 691/698 (2016)
[6] M. Kohjima, T. Matsubayashi, and H. Sawada: Learning of nonnegative matrix factorization models for inconsistent resolution dataset analysis, IEICE Transactions on Information and Systems, 102-4, 715/723 (2019)
[7] H. Kiyotake, M. Kohjima, T. Matsubayashi, and H. Toda: Multi agent flow estimation based on Bayesian optimization with time delay and low dimensional parameter conversion, Principles and Practice of Multi-Agent Systems, 53/69 (2018)
[8] M. Takahashi, M. Kohjima, T. Kurashima, and H. Toda: Can reinforcement learning lead to healthy life?: simulation study based on user activity logs, International Conference on Pattern Recognition, 4865/4872 (2021)