【会場受講限定】【2日間開催】【データサイエンス・ヘルスケア編】リアル医療データを用いたPython/R予測モデリングの実践

受講区分 会場
開催日時 1日目 2020-09-08(火) 9:30~12:30
2日目 2020-09-29(火) 9:30~12:30
講師 株式会社JMDC
データイノベーションラボ
齋藤 知輝 氏

日本アクチュアリー会正会員 Kaggle Competitions Expert
東京大学工学部計数工学科卒業、日本生命保険相互会社で商品開発業務等を担当した後、2018年より現職 日本最大級のリアル医療データを用いた生活習慣病の疾病リスク予測モデルの開発等に従事

開催地 カンファレンスルーム(株式会社セミナーインフォ内)
概要 このセミナーでは株式会社JMDCが保有する日本最大級のリアル医療データを題材に機械学習による予測モデリングを実践します。
第1回と第2回の間では各自で予測モデル構築に取り組んでいただきます。実際に試行錯誤しながらコードを書くことで、セミナー終了後にも残るスキルが身に付くはずです。
またセミナーでは課題設定やレポーティング等も含めたデータサイエンス実務の全体像についてもご紹介します。
ビジネス現場でのデータサイエンスの実践力を身につけたい方、ぜひご参加ください。

【1日目】
今回扱うリアル医療データ・モデリング課題の背景についてご説明した後、実際のモデリングの基本的な流れをコードデモ形式で解説します。
そして第1回の内容を踏まえ、第2回までに各自でモデルをブラッシュアップしていただきます。
作成いただいたモデルの予測結果は第2回までに送付いただきます。
※扱う問題は不均衡データに対する2値分類です。

【2日目】
参加者方の取組結果について、簡単な発表も通じて知見を深めあっていただきます。
その後講師のモデリングコードを題材に課題の解説を行います。
また、ビジネスの場面で予測性能に劣らず重視される予測モデルの解釈について、講師の実体験に基づく様々なアプローチ事例をご紹介します。
詳細 【1日目】
1.データの理解と課題設定
(1)保有データの理解
(2)ビジネスでの活用を意識した課題設定

2.不均衡データに対する評価指標の設定
(1)不均衡データに対するモデル性能評価の留意点
(2)ROC曲線とAUC
(3)その他の指標(logloss等)

3.探索的データ分析(EDA)
(1)探索的データ分析(要約統計量の算出、様々な可視化)

4.モデル構築と性能評価
(1)過学習とクロスバリデーション
(2)ロジスティック回帰モデル
(3)ランダムフォレスト
(4)GBDT(XGBoost)

5.質疑応答 ※ 録音、ビデオ・写真撮影はご遠慮ください

【2日目】
1.参加者取組発表
(1)参加者提出データの予測性能まとめ
(2)参加者によるモデル構築の取組発表

2.講師モデリングコードの解説
(1)講師モデリングコードの解説

3.予測モデルの解釈
(1)データサイエンティスト視点でのモデル解釈
(2)ドメイン知識(今回は医学的視点)に基づくモデル解釈
(3)データサイエンス部門以外の方への説明

4.質疑応答  ※ 録音、ビデオ・写真撮影はご遠慮ください
お問合わせ 株式会社セミナーインフォ  セミナー運営事務局
TEL : 03-3239-6544   FAX : 03-3239-6545   E-mail : customer@seminar-info.jp