Event – nibuiroフラグメント β

2018FJCT-3daysインターン

2018FJCT-3daysインターン

二か月ほど前、に参加させていただきました。応募した主たる理由はデータサイエンスを職業とするデータサイエンティストが実際どのようにビジネスを行っているのかを知りたい、というものです。

進行

一日目

データサイエンティストの仕事の紹介と事業内容の紹介、社内案内(ファミレス席など面白いスポットがありました(笑))などをしていただき、その後配布されたデータの説明とインターン概要説明、欠損値処理、SHAPによる学習済み決定木の可視化などをご教示いただきました(もしかすると二日目)。

到着すると既に4班に振り分けられていて、その班で、配布されたアメリカの犯罪件数のデータから何が言えるのかを見当をつけ分析し、「どんな(分析結果)なのでなになに(提案)はどうでしょう?」といったソリューションのプレゼンを最終的に行って下さい。というものでした。
同じメンバーのTさんはタスク管理を主に、Kさんは資料作成を主に、私は分析を主に、といった感じです(確か…)。
 予測にはLGBMを用いました。最後の最後に聞いた話ですがVARモデルなど用いても問題なかったようです。今となっては「多重共線性」、「インパルス応答」、「単位根検定」など単語程度しか覚えていない訳ですが、きちっとインデックスされていたということで。

二日目

初日の題目をもとに作業開始です。
データサイエンスに適したディレクトリ構造が提案されていること、決定木による予測結果の効果的な可視化ツールの紹介など多くのことを教えてくださいました。

朝、メンターのHさんに気さくに話しかけていただきました。「メダル何個?(Kaggleの)」と聞かれたときに何も言えなかったのはツラい思い出です(笑)。
どのデータを主軸に何を主張するのかを決めて、特徴量の抽出と、そこから何が言えるのかなどを話し合いながら決めていきました。

Tさんの管理ボード:

三日目

私の班は昼頃からすでに発表練習が辛うじて行えるだけの資料が揃っていましたので、KさんがメンターのHさんを相手に練習を行ってくれていました。終盤、グラフが間に合わない!ということになりかなりまずい状況でしたがチームで協力してなんとか間に合わせることができました。

(ライブラリの存在を忘れて特徴量選択を人力で行っていました(汗))

作成したプレゼン資料をもとに発表を行い質疑応答を行いました((主にKさん))。

一日目の懇談会は緊張しかありませんでしたが、三日目の懇談会はインフラ系HさんとBSD OSの話などで盛り上がるなどのこともあり、とても楽しませていただきました。

結果

「最優秀チーム」に選んでいただけました!Kさんに発表を任せっきりでしたのであまりよろしくないですかね~、とも思っていたのですが良い結果を得ることができました。ありがとうございます!花金ネタのおかげですね!
…真面目に考察致しますと、早めに大まかなビジョンを話し合って決めることができていて、尚且つ、一人一人が無理なタスク量を背負わずにうまく回せていたからではないでしょうか?チームワーク万歳!ヽ(‘ ∇’ )ノ

感想

未知の可視化テクニック、データサイエンティストとしての仕事内容などをお教えいただくなどとても充実した時間を過ごさせていただきました。本当にありがとうございました!

後日

インターン賞品のFitbitが届きました!カッコいいです。スマホを出さずに時間が見れます(笑)


昼寝も記録されてしまっています(汗)。