「Connehito Marché vol.6 〜機械学習・データ分析市〜」 参加記録

 

コネヒトマルシェさん主催「Connehito Marché vol.6 〜機械学習・データ分析市〜」に聴講者として参加してきたため、内容を簡単にまとめました。

 

 

イベント概要

機械学習・データ分析に関するLTを5分 or 10分行い、懇親会をする流れです。

合計12人の方が発表者として登壇しました。

 

参加前

事前に発表タイトルが公開されているのですが、

・データ分析コンペで特徴量管理・学習パイプラインを構築したらめっちゃよかった話

・社内での円滑なデータ分析のために

・NGBoost論文読んでみた

etc.

 

・・・非常に心踊りますね! 

 

会場の雰囲気

食べ物・飲み物が用意されていて、LT前から自由に飲めるふんわりした雰囲気でした。

 

また、とても丁寧な名札まで用意して頂けました。

 

LT前に

・リアクションはいつものN倍で

・気になったことは質問してみましょう

・懇親会楽しみましょう

という説明を頂き、非常に話しやすい雰囲気の中で始まりました。

 

全体の感想

先に全体の感想から。

・初心者でもLTしやすい雰囲気が整っていて、非常に心地よく発表をしているように見えた。

・(自分含め)LTをしたいけれど、話す自信や他の人が興味を持ってくれる題材がない、と考えている人は大量にいると思っていて、そういう方の後押しになる勉強会だった。もっと増えて欲しい。

Twitterアイコンを名札としてぶら下げられたため、人物一致がすぐ出来て良かった。

 

非常に楽しい勉強会をありがとうございました。準備・会場の提供、LTをして頂けた方本当にお疲れ様でした。

 

発表内容

タイトル:データ分析コンペにおいて特徴量管理に疲弊している全人類に伝えたい想い~学習・推論パイプラインを添えて~

LT者:takapyさん

 

資料:

 

内容:

・データ分析コンペにおいて、特徴量が多くなりすぎると管理ができない

・notebookが多くなりすぎて、管理できない。notebook地獄に落ちる。

・対策1:列ごとにpklファイルに分ける。

・対策2:特徴量ごとに特徴量メモを作る

・pklとメモファイルは、class,defで定義して1行で生成可能。

・同じ特徴量生成の計算を複数回実行する必要がない。

・特徴量のメモを同時に生成することで、どのような特徴量か思い出せる。

・パイプラインを生成することで、モデルやハイパーパラメータなどの管理も可能。

 

登場資料のURL:https://amalog.hateblo.jp/entry/kaggle-feature-management

 

感想:

notebook地獄や特徴量管理の難しさは自分も経験済みのため、真似します。

 

タイトル:SageMakerで構築する価格推定システム

LT者:Mizushima Keita さん

 

資料:

 

内容:

クラウドソーシングの会社勤務

・「機械学習でなんかできない?」というフリがくる

・アイディア出しのために、他社事例を参考にする、なるべくコンペ形式にする、などを実施した。

・「依頼がいくらで成約するかを推定」を実施

・SageMakerを使用(AWSが提供する機械学習アーキテクチャ

・SageMakerは有名な事例が多くある、一方で裏のコンテナな動きを意識しないと難しい。 

・SageMakerはMLプロジェクトの立ち上げの際にオススメ

 

感想:SageMakerを初めて知った。PJの立ち上げからリリースまでの期間が早いと感じた。(少なくとも6ヶ月以内?)

 

タイトル:社内での円滑なデータ分析のために

LT者:yu-ya4 さん

 

資料:

 

内容:

・社内でのデータ分析業務が上手くいかない!

 →自身の仕事を周りに伝えているか?周りの業務を理解しているか?

 →他の業務以上に密なコミュニケーションが必要

・ログ形式の変更やAPIのバージョンアップなどが原因でモデルの精度が落ちる事例あり。

・上手くいくためには、

 ○メンションされてないissueやSlackチャンネルに参加

 →あなたのPJに興味あります、という意思表示。

 ○ランチ行く、共有スペースで必要以上に話しかける

 →雑談ベースで生まれるPJもあった

 →いざというときに話しかけてもらえる関係になれた

 ○データ分析の過程で得られた資産を共有用に残す

 ○全体ミーティングでデータ分析のシゴトを共有

 ○SNSにて情報発信

・結果、いろいろなPJにアサインされるようになった。

・それって社内政治では?と言われるが、このような

 PJを円滑に進めるための社内政治は良いと考える。 

 

感想:

成果を理解してもらいにくいことに共感。自身も色んな人との面識を作る必要がある。

 

タイトル:初めての機械学習PJをやってみて得た知見

LT者:Yagi さん

 

資料:

 

内容:

・レコメンドシステムの改善

・従来はルールベースでの運用

・改良後は、類似度の高いコンテンツを表示

・簡単でも良いので、まず結果を見える形にする 

・ルールベース→アルゴリズムベースへの置き換えは有効

・kaggleは役に立つ

 

感想:ルールベースのシステムが見かけたら、まずアルゴリズムベースへの変更を検討するのもありかも?

 

タイトル:SIGNATEの練習問題コンペで57位までスコアを上げた話

LT者:shnagai さん

 

資料:

 

内容:

・SIGNATEのJリーグ観客数予測に参加

・ベースライン作成、EDA、評価など基本に乗っ取り分析を実施

・特徴量作成に全体の時間の8割をかけた

・初コンペで50位前後までいけて、嬉しい

・JupyterNotebookにメモを残すのは重要。

 

感想:Jリーグは自身も以前取り組んでおり、最初のデータ加工が大変だったため、辛いだろうなと思った。

 

タイトル:BigQueryでいいね!って話をしようと思ったらBigQueryより速いAzure Synapseが出た

LT者:YasutakaYamamoto さん

 

 

資料:

 

内容:

・昨日BigQueryより早いAzure Synapseが登場のため、

 急遽LT内容をAzure Synapseの紹介に変更。

・DBエンジンはSQL Server

RDBのためインデックスの概念がある。

・Azure Synapse vs Bigquery ベンチマークではAzure Synapseが1x倍高速。

・料金体系に大きな違い。

・結局、Azure Synapseの運用コストは高い。アナリストだけでもBig queryは運用できる。

 

感想:Azure SynapseとBig queryとはコスト面やスペックでの違いがあることを知った。

 

タイトル:日本語学習済みモデルについて

LT者:yamat さん

  

資料:

 

内容:

・学習済み言語モデルは、画像の学習済みモデルのNLP

・学習済み言語モデルのGood:

 ○様々なタスクに適応可能

 ○教師データが少ない場合に有効

 ○最新技術が次々でる

 学習済み言語モデルのBad:

 ○計算スペックが必要

・個人で扱う場合は、公開済みの日本語事前学習モデルが有効

 ULMFit,BERT,XLNetなど

・最新手法は計算コストが高いが、公開されている日本語学習済みモデルがあるのは尊い

 

感想:2回目のLTとお聞きした。挑戦していく姿勢を自分も真似たい。

 

タイトル:Meta Kaggleを覗いた

LT者:ishizaki-yuko さん

 

資料:

 

内容:

・Meta kaggleを利用して、下記を考察

 ○Kaggleは本当に流行っているのか?

 ○近年コンペの形式が変わっているのか?

・新規ユーザー数について、すんごい増えてる。ただし、アカウントを作っただけで、

 コンペに参加していない人がほとんど。

 →アカウントを作って、一度でもsubmitをした人に絞ると2018年以降ユーザー数は鈍化

・コンペ形式の近年の傾向について、タグが多いテーブルデータ、画像データ、テキストデータに絞ると、テーブルデータのコンペが減り、画像データのコンペが増えている。テキストは少しだけ増えてる。

・Meta Kaggleの分析も面白い。 

 

Meta Kaggle:

 

感想:画像コンペが増えているとは思っていたが、それをデータで知ることができた。ユーザ数が増えたが、1回でもsubmitしている人は鈍化していることは初めて知った。

 

タイトル:NGBoost論文読んでみた

LT者:taro_masuda さん

 

資料:

 

内容:

・NGBoostを選んだ理由は、

 ○GBDTが注目を集めているから

 ○多様な教師あり学習問題に適用できそう、

 ○AndrewNg先生が書いているから

・従来と何が違うかというと、予測値だけではなく出力の不確実性(自信のなさ)を確率値として出力する。

・勾配にフィッシャーの情報量の逆数がかかっているのがポイント

・勾配が小さい部分は大胆に、勾配が大きい部分は細かく回す。

・NGBoostは自信のなさ(不確実性)も出力

 

感想:NGBoostの不確実性の出力にどんなメリットがあるかを調べたいと思った。

 

タイトル:NLP Beginner BERT を試す

LT者:ktr さん

 

内容:

・BERTを使って過去コンペ「Quora」を解く。コンペ実施期間中のQuoraはBERTが使用できないコンペだった。

・普通に分析をやると順位があまりよくない。

・FineTuningを使うと上位10%に入った。

・BERTなら何もしなくても良いスコアでるかな、と思ったけど、そうではなかった。

・重くてColabだと1epochに3時間かかった。 

 

感想:ColabでBERTを回せるという有用な情報を得た。

 

タイトル:SQLベースのMLパイプライン

LT者:hatunina さん

 

資料:

 

内容:

アドホックなML案件にどのようなパイプラインで対応するか

・案件ごとにSQLを変えるだけのパイプラインを構築

・正例/負例の抽出は案件毎に異なる

SQLをベースにするメリデメ:

 ○使い回しがしやすい

 ○共有/引き継ぎがしやすい、

 ○テーブル定義書がそのまま使用特徴の説明書になる、

 ○DBが混んでいるとデータ作成がボトルネックになりがち

・ここら辺の仕事はAutoMLに代替される? 

 

感想:Python、Rでしか分析したことのない自分にとって、SQLでの分析の概要を初めて知ることができた。

 

タイトル:競艇の順位予想をしてみた

LT者:wakamezake さん

 

資料:

 

内容:

競艇にした理由:

 ○データセットが公開されている

 ○レース回数が多い(55000レース/年)

 ○レーサーが6人固定のため、表データとして扱いやすい。

・データセットが表データではなくtxtデータであることに気付いたため、正規表現パワーで頑張って表データにした。時間の80%はここに割いた。

・手法はランク学習(有名な例は、Google検索のような検査システム)、選択理由は使ってみたかったから。

・評価関数はNDCG@k。(@k→@3)

・ 実際に競艇にて予測結果の検証を実施。予測は3人中1人がプラス、wakameさんが±0、1人がマイナス。

 

感想:正規表現パワーすごい。身近な題材だと、予測の結果を手軽に試すことが

できてより楽しいと思った。

 

懇親会の様子

お寿司美味しかったです。