【コンペ表彰式】ソニーグループ株式会社「ソニーグループ合同 データ分析コンペティション(for Recruiting)」
2022年6月23日、ソニーグループ株式会社主催「ソニーグループ合同 データ分析コンペティション(for Recruiting)」の表彰式を開催しました。当日は、1位から3位までの上位入賞者を表彰し、各入賞者に解法のプレゼンテーションを行っていただきました。プレゼンテーション終了後には質疑応答も実施し、多種多様なアプローチから知見を得られる、素晴らしい表彰式となりました。
- 平山 明
▼主催者あいさつ
入賞者によるプレゼンテーションに先立って、主催者であるソニーグループの平山が開会の挨拶をしました。
ソニーグループ株式会社 採用グループ
平山 明
「本日は、お忙しい中ご参加いただき誠にありがとうございます。開会の挨拶として、ソニーグループの会社紹介と、今回のコンペティションを開催した背景や目的をお伝えします。ソニーでは、「クリエイティビティとテクノロジーの力で、世界を感動で満たす」というPurpose(存在意義)を掲げ、多様な事業を展開しています。事業を展開する中で、当社の技術や事業を通して地球環境・社会に貢献することも重要視しています。こうした背景も含めて、今回のテーマを地球環境に設定し、コンペティションを開催する運びとなりました。また、人材理念を再定義し、Sony's People Philosophy "Special You, Diverse Sony"としています。多様な人材がいるということがソニーの強みです。人の多様性と事業の多様性で、ソニーでしかできない価値創造を今後も目指していきたいと考えています。こうしたPurposeに共感いただくことを目指しながら、この場を通じて当社の活動について知ってもらい、興味関心を持ってもらえたらと思います。」
▼コンペティション概要
開会挨拶に続き、コンペティションの運営を行った株式会社SIGNATEを代表し、戸澗氏より、コンペティション概要を説明いただきました。
株式会社SIGNATE データサイエンティスト
戸澗 幸大 氏
「それでは、私から本コンペティションの概要と結果について説明します。まずテーマとしては、世界各都市の大気観測データや気象情報を用いて、特定の日時・都市の大気中の汚染物質濃度(PM2.5)の予測にチャレンジしていただきました。今回は配布データの他に、外部データの利用を可能としており、今回入賞した20名のうち、外部データを追加して予測を行った方が約半数いらっしゃいましたので、実際にどのような項目が使えそうかという話も拝聴できればと思っています。開催期間は、2022年4月13日から6月2日の約1カ月半にわたってスコアを競い合っていただきました。参加者は1,661名、投稿件数は18,727件と過去最多のご投稿をいただきました。多くの方々に参加していただいたことに感謝申し上げます。」
▼入賞者の発表
メインコンテンツである入賞者の表彰と、解法プレゼンテーションへと移りました。まず、3位に入賞されたyayaya氏による解法のプレゼンテーションと質疑応答が行われました。
第3位
yayaya 氏
「まず、今回の戦略としてモデルはLightGBMのみを使用しながら、特徴量エンジニアリングを工夫し、精度改善に取り組みました。最終的にどのようにPM2.5濃度を集約したかというと、時間・空間的に集約した特徴量を作成し大きな改善に繋がりました。また、Optunaによるハイパーパラメータの最適化を行い、主要なパラメータのうち、num_leavesを大きくとることが精度改善に効果的でした。発表は以上になります。ありがとうございました。」
発表後の質疑応答では、以下の質問が寄せられました。
視聴者からの質問:LightGBMのみを使用したとのことですが、他のモデルは考えなかったのでしょうか?
yayaya氏の回答:最初の方はXgboostやCatboostなど他の決定木系モデルやTabNetというニューラルネットワークを使うモデルもあるのですが、今回は特徴量が勝敗を決めると思っていたので、モデルはLightGBMで固定にしていました。
視聴者からの質問:targetを集約するとはどういうことなのでしょうか?
yayaya氏の回答:一定距離で集約する場合、観測地点から100マイルの範囲内の都市のPM2.5の平均値、最小値、最大値、中央値の4つを取ったのですが、この統計量を取ることを集約と呼んでいます。
2位に入賞されたのは、water氏。準優勝を果たした自身の解法について、ご説明いただきました。
第2位
water氏
「予測に向けてのアプローチとして、空間的近接性、外部データの活用、時間的・空間的類似性の3本柱を立てました。まず、PM2.5の「空間的近接性」に着目し、各都市からユークリッド距離が小さい10都市を取り、最大10都市までのPM2.5の各平均値を特徴量にしました。外部データは、世界各地の気象データに加え、国別のNOx・CO2排出量データを追加しました。特に空間的集約の平均値と、外部の気象データの平均視程はスコアへの寄与が大きい結果になりました。予測手法はLigntGBMを使用し、予測値を特徴量として再予測しています。ご清聴ありがとうございました。」
発表後には、以下の質問が寄せられました。
視聴者からの質問:今回作られた特徴量だと、KFoldした場合のpublic LBとcv scoreの差はどの程度でしたか?
water氏の回答:結構差がありました。
視聴者からの質問:空間的ゾーニングによるデータ数の減少と、GBMで回帰推定する場合のデータ数による精度向上のバランスの問題があると思います。ゾーニングの大きさについて何か工夫をしたことがあれば教えてください。
water氏の回答:ゾーニングの観点を含まずトップ10の都市を取ってきたため、そこを工夫していたらもう少し改善していたかなと思います。
最後にプレゼンテーションを行ったのは、見事第一位に輝いたpokapokalemon氏。優勝を飾った解法について、説明いただきました。
第1位
pokapokalemon氏
「作成したモデルの構成は、LightGBMをベースモデルとしています。PM2.5の濃度予測だけでなく、国別の外れ値判定モデルと全データを対象とした外れ値判定モデルを組み合わせて作成しました。また、積雪量や体感気温といった気象データや、国土や都市関連情報、コロナ感染者数や政府対応指数など、外部データを14種類使用しました。データの質にこだわりすぎず、多様なデータを結合して検証を繰り返したことが、精度向上に繋がったのかなと思います。ご清聴ありがとうございました。」
発表後には、以下の質問が寄せられました。
視聴者からの質問:LightGBMを使う場合でもカテゴリカルな変数はTarget Encodingをやった方が良いのでしょうか。
pokapokalemon氏の回答:水準数が多いカテゴリーはTarget Encodingをやった方が、Label Encodingより有効だというのを読んだことがあります。今回国別や特定の日時でPM2.5の値が上がったり、国ごとに連動したりすることが考えられるので、Target Encodingを採用しました。
視聴者からの質問:疑似ラベリングは予測精度に効いた要素になりましたか。
pokapokalemon氏の回答:今回は通常のコンペより数度ラベリングした方が精度向上に寄与しやすかったように感じます。
▼総評
全ての解法プレゼンテーションが終了し、最後にソニーグループ株式会社の橋本が総評を行いました。
ソニーグループ株式会社 人事部門 Chief Digital Officer領域 人事部長
橋本 征義
「入賞者の皆さん、ご参加いただいた皆さん、誠にありがとうございました。ソニーがデータの領域に力を入れていることは、データサイエンスのコミュニティではまだあまり知られていなかったので、ぜひ知ってもらいたいと思ったのが今回実施させていただいた一番の目的です。皆さんに解いていただきたいようなデータサイエンスの領域がたくさんあります。データの力でこれから世の中が変わっていくと我々も思っていますので、色々な形で一緒にやっていくことができればと思っています。今回ソニーのデータ利活用やカルチャーにご興味持っていただけた方は、ぜひ仲間になっていただけると嬉しく思います。本日はご参加いただき誠にありがとうございました。」
▼まとめ
データ分析コンペティションプラットフォーム「Signate」で開催されたコンペティションのなかでも、トップ規模の参加者数及び過去最多の投稿回数と盛り上がった今回のコンペティション。盛り上がったのは、ソニーが掲げるPurpose(存在意義)に共感してくださった方々が多かったからではないでしょうか。今回のテーマに限らず、あらゆる業界や領域における社会課題や環境問題への取り組みで技術の進歩やオープンイノベーションが今後さらに世の中に浸透し、多様な人材が活躍している姿が目に浮かぶような表彰式でした。