クラスメソッド新卒入社2年目の業務・アウトプットをご紹介します
昨年、新卒1年目の振り返り記事を書いてから1年が経ちました。今回は2年目のアウトプットをまとめていきます。
社会人1年目〜3年目なんて大したことないですし、大卒の1キャリアとして気になるのが「5年目・10年目にどうなっているのか?」だと思うので、毎年度末に塵積で記録していこうかなと思います。
印象に残っている開発タスク
定期的にプロジェクトを異動していた1年目とは異なり、2年目は一つの案件を丸一年メインで担当し、スキマ時間で他の案件もサポートするというスタイルでやっていきました。開発にも慣れてきて、大体のタスクは難なくこなせています。
その中でも印象に残っているものをご紹介していきます。
Athena → BigQuery移行、からのParquet出力
今年度は、①AthenaからBigQueryにデータをコピーし、②BigQuery処理したマートデータをParquet出力してAthenaに戻す、というマイグレーションの実装に一番骨を折りました。特に②が大変で、BigQueryはParquet出力に対応していなかったので、Parquet変換のためにGoogle Dataflowを使用したのですが、こいつがなかなかの曲者でした…。内部で採用しているApache Beamに突っ込みどころが多く、BigQuery → Apache Beam → Parquetがそれぞれ独自のデータ型を持っており、ライブラリのバージョンによっても微妙に変わってくるため、その辺りの調節にかなり苦戦しました。
ところがどっこい、最近BigQueryでParquet Exportの機能がリリースされてしまったんですよね…。(嬉しいけど悲しい)
Exporting table data | BigQuery | Google Cloud
さらに、Amazon Athenaの方もEngine 2.0が11月にリリースされ、処理が大幅に改善されたことでわざわざBigQueryに移行しなくてもデータを捌けるようになりました。(嬉しいけど悲しい)
タイミングが悪く、時間と労力をかけた割に凍結状態になってしまったBigQuery移行が今年度一番のハイライトです。(苦笑)
BigQueryのテーブルをParquet出力する(Python / Apache Beam / Dataflow) | DevelopersIO
機密データ暗号化ロジックの変更
セキュリティや保守性向上のため、既存の機密データの暗号化ロジックを変更する、というタスクが今年度の序盤にありました。暗号系はロマンの塊ですので、それはそれは楽しかったです。
暗号のアルゴリズムやモードには様々な種類があり、ビジネス要件的に機密性や完全性をどの程度担保すべきで、そのためにどのアルゴリズムとモードを使用すべきかを考えるのが、観点が新鮮で面白かったです。Pythonは暗号系のライブラリも充実しており、ドキュメントを読むだけでも楽しい。
Athenaのパフォーマンス監視
いまやAmazon Athenaは私の良き相棒です。そのAthenaに対して、クエリのパフォーマンスを監視したいという要件があったのですが、CloudWatchを使わずGetQueryExecution
を使用してパフォーマンスをトラッキングするという手法を取りました。
GetQueryExecution - Amazon Athena
Athenaのテーブルでパフォーマンスを確認することができるので、わざわざCloudWatchの画面に行かなくてもいい点でお手軽です。近いうちにブログにする予定です。
モビリティデータのテーブル結合評価
メイン案件のスキマ時間で入った別案件で、モビリティデータのテーブル結合評価を行いました。データ分析基盤の開発とは異なり、実際にテーブルを結合してみて期待した分析ができるかどうかをエンドユーザー側の観点から考えていくプロセスは、入社してからは初めての経験でした。
また、モビリティ関連のデータも知らないことが多く、思わず「はえ〜」と言ってしまう知的好奇心をくすぐられました。「トレーサビリティって何だ?」となって、弊社の業務とは程遠いキーエンスさんの記事を拝見したのも印象的でした。
トレーサビリティとは | トレーサビリティ大学 | キーエンス
Redshift導入の技術支援
こちらもメイン案件のスキマ時間で入った別案件で、RedshiftのQ&A対応を行いました。
Redshiftからしばらく遠ざかっていたため、著しいアップデートに触れて一時浦島太郎状態でした。コンソールとクエリエディタがかなり見やすくなりましたね。適切な情報量を意識して回答を作成するのが思いのほか楽しかったです。
ブログ
1年目は「いかに濃くて面白い記事を書くか?」にこだわっていましたが、2年目は気付いたら「いかに効率よく、簡潔に書くか?」へと方針転換し、2020年4月〜2021年3月で計60本書いてました。1年前はたんまりあったバズらせたい欲求が、今はもう皆無です。
熱量のある記事は、角川ドワンゴ学園N中等部取材企画の記事で最後になりました。これまでの記事の中で一番苦労しましたが、N中の先生のあり方とかは上手く抽象化できたかなと思ってます。
今年度一番力を入れて書いていたのが、イベントのセッションレポート系の記事です。9月のAWS Summit Onlineでは計21本書いて、本数・PV数・シェア数で社内トップを達成しました。カプコンさんのセッション面白かったです。
Informatica社のパートナーとなった11月以降、Informatica関連の記事を10本書きました。
12月のAWS re:Inventでは、日英合わせて10本書いてます。海外事例は本当にレベルが高い!!
最近はOSSデータカタログをひたすら開拓しています。
登壇・LT
クラスメソッドでは2020年度から第1期の新卒社員が入社されました!ただ、新卒キャリアのサンプル数がまだ少ない状態なので、新卒会社説明会では私がほぼ毎回登壇しておりました(計16回)。第1期新卒社員も無事研修を終えて本配属されましたので、2021度からは新卒説明会でも様々なキャリアが見れるようになるかなと思います!
もし就活生でこの記事を読んでいる方がいれば、とりあえず新卒採用に応募してみてください。
技術面では、弊社主催のオンラインイベント DevelopersIO 2020 CONNECTで「AWSのDatabase・Analytics系サービス 概要と使いどころをざくっとおさらい」というテーマで動画投稿しました。喋りがあまり上手くないですが、今年はもう少し込み入った内容で挑戦したいです。
社内向けでは、8月より部内で案件・ナレッジ共有会なるものを企画・運営してきました。雑なスライドの通り、問題意識としては以下の2点です。
- 知見をカジュアルにシェアする場を設けたい
- あまり関わりないメンバーのことを知りたい
DA事業本部では私が一番年下なのですが、若造の提案も先輩社員がちゃんと受け入れてくれるのはありがたいことですね。かなり尖ったLTをされる方もいて、個人的にめちゃ楽しんでいます。
また、毎年恒例で行われているDevelopersIOの執筆に関する社内イベントにも、N中等部取材企画の裏話をテーマに登壇させていただきました。社外秘のぶっちゃけ話が多かったため、カットしまくりですがスライドも載せておきます。雰囲気だけでも。
AWS認定試験
2年目で取得したAWS認定は以下です。弊社ではAWS認定は全部取ってナンボなので、3つなんてまじで大したことないです。3年目で残り全部取れるといいなぁ。GCPの認定にも挑戦してみたいです。
- AWS Certifed Solution Architect Professional(2020年6月)
- AWS Certifed Security Speciality(2020年12月)
- AWS Certifed Machine Learning Speciality(2021年2月)
3年目でやりたいこと
2年目はデータ基盤の設計・開発にかなり慣れてきた1年でもありましたが、同時に自分はコーディングよりもビジネスサイド、会社のフロントに立てる人間になりたいと気づいた1年でもありました。3年目は少しずつプリセールスをかじっていくことになりそうです。弊社はB2Bの会社ですし、より様々な事業会社と関われるようになれるのが非常に楽しみです。
合わせて、そういった事業会社の方がデータ分析基盤を簡単に構築できるよう、設計や考え方の大枠から取り扱ったコンテンツを積極的に発信していきたいです。あと10年も経てば、クラウドも言語もミドルウェアもさらに使いやすく簡単になり、同時にITネイティブな世代が企業の中心的な存在になる時代が来るはずです。ITエンジニアを専門とした職種はなくなっていくと思うので、逆説的ですがそれを加速させるような人を目指します!
会社は手段!自分のやりたいようにやりたい!?今すぐクラスメソッドに応募だ!