Alteryx 2021.2のコンピュータビジョンでClassmethod Leadership Principle(CLP)をOCRしてみた

最近、自宅に猫が落ちています
2021.07.07

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、プリセールススペシャリストの兼本です。

本日7月7日は弊社クラスメソッドの創立記念日ですが、我が家では7月7日といえば昨年受け入れた保護猫兄妹の誕生日であり、会社の創立記念日とか思っているのは私一人です。 そこで本エントリでは、猫たちと暮らした1年間を振り返るかたちでAlteryx2021.2の新機能であるコンピュータビジョンについてご紹介します。

Alteryxのコンピュータビジョン

2021年5月17日にリリースされたAlteryx 2021.2のアドオン製品「Intelligence Suite」に追加された新機能です。新機能のまとめについてはこちらのエントリをご参照ください。

Alteryx Designer 2021.2 に Intelligent Suiteを追加インストールすると、以下のツールが追加されます。

画像の前処理

OCR処理をする際には読み込んだ画像のノイズリダクション、スケーリング、二値化、傾き調整などの加工処理が必要となる場合があります。

Alteryxでは、画像処理ツールを使って読み込んだ画像の最適化を行います。

アラインメントの調整

  • 画像入力ツールで読み込んだ画像に対してアラインメントの調整を行い、傾きの補正をします。比較のために加工前と加工後の画像を並べて表示します。

  • 画像加工ツールの設定は以下のようになっています。

  • 画像が180度回転していることが確認できます。これであわてて撮ったせいで写真の天地が逆になっても慌てる必要はありませんね。

この写真は猫たちをお迎えしてすぐなので8月末ごろです。保護猫活動をされてる方に最初にお会いしたのが7月下旬で生後3週間でした。体も小さかったので心配でしたが、生後2カ月経つとすっかり仔猫になっており元気だったので安心したものです。

保護猫なので、実のところ正確な誕生日はわからないのですが、折角なら覚えやすい方がよいということで弊社の創立記念日と同じ7月7日を猫たちの誕生日に設定しました。ただし名前は彦星と織姫ではありません。それにしても仔猫って可愛いですね。

閾値処理

  • 読み込んだ画像の背景が不均一であったり、ノイズがあるとOCRの識別精度が下がるため、ノイズリダクションや値の二値化を考慮する必要があります。Alteryxでもいくつかの方法で閾値処理を行えます。こちらも先ほどと同じワークフローを使用して比較のために加工前と加工後の画像を並べて表示します。

  • ステップとして閾値処理を追加し、オプションには「適応ガウス」を選択します。こちらは英語だと「Adaptive Gaussian」なのですが、少し日本語訳に違和感があります。

  • 実行するとカラー写真が二値化されていることを確認できます。ちょっと輪郭が鮮明になったと思いませんか。

この写真は生後3か月ごろです。兄妹だと仲がいいのか一緒に行動することが多いです。そして仔猫はやはり可愛いですね。

トリミング

  • OCR処理を行う際は不要な情報を減らすことも重要であるため、読み込んだ画像の不要な領域をトリミングしたい場合があります。画像処理ツールではパーセントもしくはピクセルサイズを指定してトリミングすることができます。オプションでフォーカスポイントを指定することも可能です。

  • 画像処理ツール内では複数のステップを組み合わせることも可能で、この例ではスケーリングで画像サイズを縮小してからトリミングをするなどの勝利をしています。

  • こちらも加工前と加工後の画像を並べています。実はアイキャッチで使用している画像はこのツールを使用して作成したものです。OCRを行う上でも画像の不要な領域をトリミングしたり、グレースケーリングすることで読み取り精度を向上できる可能性がありますので、ぜひ活用いただきたいです。

この写真は11か月ごろです。すっかり大人になりました。暖かくなると猫が落ちてるといううわさは聞いていましたが、まさか自宅に猫が落ちてる日が来るとは思ってなかったですね。あと、大きくなっても猫可愛いです。

PNG画像のOCR処理

ここまで画像の前処理についてご説明しましたが、続いてテキストの読み取りを試します。今回のためにClassmethod Leadership Principle(CLP)というクラスメソッド社員の行動指針や価値観を示したものをGoogle Documentに転記しPNG形式でスクリーンショットを取得しました。(1枚の画像には入りきらなかったのですが、CLPはあと2つあります)

  • PNG画像を読み込み「テキストに変換」ツールに渡すワークフローを作成します。

  • テキストに変換ツールの設定画面は以下の通り。英語、日本語以外にもいくつかの言語に対応しています。

  • 識別結果は以下の通りです。
CLP原文 識別した文字列
Classmethod Leadership Principle(CLP)は、クラスメソッド社員の行動指針や価値観を示したものです。社員として採用時や評価時の基準になります。 Classmethod Leadership Principle (CLP) [£, £5AXYy Ri BOTESsH EERE示し た も の で す .。 社員 と し て 採用 | 時 の 基準 に な り ま す 。
リーダーシップ – Leadership – リー ダー シッ プ - Leadership 一
全ての社員がリーダーであるという考えのもとで、指示待ちや他責にならず自ら進んで前向きに行動し、周囲を巻き込み協力しあいながら、妥協せずに最高の結果が出るように尽力します。 全て の 社員 が リー ダー で ある と いう 考え の も と で 、 指 示 待ち や 他 豆 に な ら ず 自ら 進ん で 前 向き に 行動 し 、 周 図 を 巻き 込み 協力 し あい な が ら 、 且 協 せ ず に 最高 の 結果 が出る よう に 尽力 し ます 。
パートナーシップ – Partnership – パー トナ ー シ ッ プ - Parnership
雇用(社員・アルバイト・業務委託)、会社(親会社・子会社)、役割(上司・部下)、職務(エンジニア・バックオフィス)など、立場に関係なく、全て共に働くパートナーとして等しく接し、互いを尊重します。 寿 用 (社員 ・ ア ルル バ イト ・ 業 務 委託) 、 会 社 (親会社 ・ 子 会 社 ) 、 役 割 (上 司 ・ 部T) 、 工務 (エン ジニ ア ・ バ ッ ク オ フィ ス ) な ど 、 立 場 に 関係 な く 、 全 て 共に 働くパー トナ ー と し て 等 し く 接 し 、 互 い を 壮 番 し ます 。
ダイバーシティ – Diversity – ダイ バー シテ ィ ーDiversiy -
年齢・性別・国籍・人種・宗教・性的指向・障害の有無など、多様な価値観があることを学びます。また、出産・育児・介護などのライフステージに寄り添い、互いに助け合い、これを強みとします。 EE 12) EE - AE 種 ・ 球 教 ・ 性 的 指向 ・ 障 書 の 有無 な ど 、 多 様 な 価値 昭 が あること を 学び ます 。 また 、 出 産 育 児 ・ 介 護 な どの ライ フス テー ジ に 寄り 水 い 、 互 いに 助け 合い 、 こ ご これ を 強み と し ます 。
プロフェッショナル – Professionalism – プロ フェ ッ シ ョ ナル - Professionalism 一
専門知識を持つ者として、おごらず・威張らず・謙虚に、高いアンテナを張って継続的に学習し続け、優れた能力を発揮し続けます。さらに、周囲の成長や変化を助ける触媒として貢献します。 喜 門 知識 を 持つ 者 と し て 、 お ご ら ず ・ 威 張ら ず ・ 議 虚 に 、 高 い ア ン テ ナ を 張っ て 経ACFBUAL. BULEDEREUEIET. 230. BEORSOEELFERRE UTRRLET.
感謝 – Appreciation – EE — Appreciation —
相手を尊敬し・信頼し・感謝する発言や行動をします。すべての仕事は信頼関係の上で成り立っています。まず先に相手に見返りを求めるのではなく、自ら進んで周囲に良い影響を与えられるように努力します。 EFEENL - EEL - BETIREVTNELET. TATOMSREESED上 で 成り 立っ て いま す 。 ま ず 先 に 相手 に 見 返り を 求め る の で ほな く 、 上 自ら 進ん で 周国 に 良い 影響 を 与え られ る よう に 撫 力 し ます 。
顧客視点 – Customer Obsession – EEERT — Customer Obsession —
お客様を起点に深く考え、相手が本当に必要なものは何か、心地良い体験は何か、それらを発展及び継続的に提供するためにはどうしたら良いか考えて物づくりをします。 お 客 様 を 起点 に 深く 考え 、 相 手 が 本 当 に 必要 な も の は 何 か 、 心 地 良い 体験 は 何 か 、それ ら を 発展 及び 継続 的 に 提供 する た め に は どう し た ら 良 いか 考え て 物 づ くり を します >。
フィードバック – Feedback – フィ ー ド バッ ク Feedback —
お客様やチームからのフィードバックを大切にします。相手にフィードバックを求め、内容を前向きに捉えて高速に改善を繰り返します。相手にフィードバックする際には、具体的な行動に繋がるように分かりやすく伝えます。 お 客 様 や チー ム か ら の フィ ー ド バッ ク を 大 切 に し ます 。 相 手 に フィ ー ド バッ ク を 求め 、 内 容 を 前 向き に 捉え て 高遠 に 改善 を 繰り 返し ます 。 相 手 に フィ ー ド バッ ク す る際 に は 、 具 体 的 な 行動 に 繋が る よう に 分 か りや すく 伝え ます 。
情報発信 – Output – 情報 発信 一 Output
知識のアウトプットは最大のインプットに繋がり、その人の成長に繋がります。全ての人々の創造活動に貢献し続けるために、具体的かつ分かりやすい情報を社会に発信し続けます。自らの経験や知見が誰かの役に立つと信じ、次の世代に繋げる活動として続けます。 知識 の アウ トブ ッ ト は 最大 の イン プッ ト に 難 が り 、 そ の 人 の 成長 に 或 が り ま す 。 全て の 人 々 の 創造 活動 に 貢献 し 続け る た め に 、 只 体 的 か つ 分 か りや すい 情報 を 社会 に発信 し 続け ます 。 自ら の 経験 や 知見 が 誰か の 役に立つ と 信じ 、 次 の 世代 に 繋げ る 活動 と し て 続け ます 。
やってみる – Start small – や っ て みる - Start smal
検討に時間を掛け過ぎたり、できない理由を探したり、何もしないことは大きな機会損失です。過去の経験や知識のみを判断基準にせず、好奇心を持って、まずは小さく直ぐにやってみます。より早く始め、より多く失敗し、高速に改善を繰り返すことが私たちの最大の生存戦略です。 検討 に 時 間 を 掛け 過ぎ た り 、 で き な い 理由 を 探し た り 、 何 も し な い ご と は 大 き な 機会 損失 で す 。 過去 の 経験 や 知識 の み を 判断 基準 に せ ず 、 好 奇 心 を 持っ て 、 ま ず は 小さく 直ぐ に や っ て み ま す 。 よ り 早 く 始め 、 よ り 多 く 和 失敗 し 、 高 速 に 改善 を 繰り 返すこと が 私 た ちの 最大 の 生存 戦略 で す 。
楽しむ – Enjoyment – 楽し むーEnioyment
とても難易度の高い仕事、人の嫌がる仕事、大きな環境の変化を好み、成長の機会として楽しみます。これらを楽しめるように心身共に健康な状態を保ちます。皆が楽しく仕事ができるように、発言し行動します。 と て も 難易 度 の 高い 仕事 、 人 の 典 が る 仕事 、 大 き な 狂 境 の 変化 を 好み 、 成 長 の 機会と し て 楽し み ま す 。 ご これ ら を 楽し め る よう に 心 條 共に 健康 な 状態 を 保ち ます 。 結 が楽し く 仕事 が で きる よう に 、

文章類似度を算出するサイトで評価をしたところ、類似度は79.42%程度という判定でした。残念ながら思ったほど精度は上がりませんでした。画像処理で精度を上げることは可能かもしれないですが、今回の趣旨ではないので検証はしていません。

PDFのOCR処理

次にGoogle DocumentからPDF形式でエクスポートしたファイルに対して同じ処理を実行します。実行結果は以下の通りとなりました。

CLP原文 識別した文字列
Classmethod Leadership Principle(CLP)は、クラスメソッド社員の行動指針や価値観を示したものです。社員として採用時や評価時の基準になります。 Classmethod Leadership Principle(CLP) は 、 クラ ス メ ソ ッ ド 社員 の 行動 指針 や 価値 観 を 示し たも の で す 。 社員 と し て 採用 時 や 評価 時 の 基準 に な り ま す 。
リーダーシップ – Leadership – リー ダー シッ プ - Leadership -
全ての社員がリーダーであるという考えのもとで、指示待ちや他責にならず自ら進んで前向きに行動し、周囲を巻き込み協力しあいながら、妥協せずに最高の結果が出るように尽力します。 全て の 社員 が リー ダー で ある と いう 考え の も と で 、 指 示 待ち や 他 責 に な ら ず 自ら 進ん で 前向き に 行動 し 、 周 囲 を 巻き 込み 協力 し あい な が ら 、 妥 協 せ ず に 最高 の 結果 が 出る よう に 尽力 し ます 。
パートナーシップ – Partnership – パー トナ ー シ ッ プ - Partnership -
雇用(社員・アルバイト・業務委託)、会社(親会社・子会社)、役割(上司・部下)、職務(エンジニア・バックオフィス)など、立場に関係なく、全て共に働くパートナーとして等しく接し、互いを尊重します。 雇用 (社員 ・ ア ル バ イ ト ・ 業 務 委 託 )、 会 社 (親会社 ・ 子 会 社 )、 役 割 (上 司 ・ 部 下 )、 職 務 ( エンジ ニア ・ バ ッ ク オ フィ ス ) な ど 、 立 場 に 関係 な く 、 全 て 共に 働く パー トナ ー と し て 等 し く 接し 、互い を 尊重 し ます 。
ダイバーシティ – Diversity – ダイ バー シテ ィ -ーDiversity -
年齢・性別・国籍・人種・宗教・性的指向・障害の有無など、多様な価値観があることを学びます。また、出産・育児・介護などのライフステージに寄り添い、互いに助け合い、これを強みとします。 年 齢 ・ 性 別 ・ 国 籍 ・ 人 種 ・ 宗 教 ・ 性 的 指向 ・ 障 害 の 有無 な ど 、 多 様 な 価値 観 が ある こと を 学びます 。 ま た 、 出 産 ・ 育 児 ・ 介 護 な どの ライ フス テー ジ に 寄り 添い 、 互いに 助 け 合 い 、 こ れ を 強み と し ます 。
プロフェッショナル – Professionalism – プロ フェ ッ シ ョ ナル - Professionalism - 
専門知識を持つ者として、おごらず・威張らず・謙虚に、高いアンテナを張って継続的に学習し続け、優れた能力を発揮し続けます。さらに、周囲の成長や変化を助ける触媒として貢献します。 専門 知識 を 持つ 者 と し て 、 お ご ら ず ・ 威 張ら ず ・ 謙 虚 に 、 高 い ア ン テ ナ を 張っ て 継続 的 に 学習 し 続け 、 優 れ た 能力 を 発揮 し 続け ます 。 さ ら に 、 周 囲 の 成長 や 変化 を 助け る 触媒 と し て貢献 し ます 。
感謝 – Appreciation – 感謝 - Appreciation -
相手を尊敬し・信頼し・感謝する発言や行動をします。すべての仕事は信頼関係の上で成り立っています。まず先に相手に見返りを求めるのではなく、自ら進んで周囲に良い影響を与えられるように努力します。 相手 を 尊敬 し ・ 信 頼 し ・ 感 謝 す る 発言 や 行動 を し ます 。 す べ て の 仕事 は 信頼 関係 の 上 で 成り 立 っ て いま す 。 ま ず 先 に 相手 に 見 返り を 求め る の で は な く 、 自ら 進ん で 周囲 に 良い 影響 を与え られ る よう に 努力 し ます 。
顧客視点 – Customer Obsession – 顧客 視点 - Customer Obsession -
お客様を起点に深く考え、相手が本当に必要なものは何か、心地良い体験は何か、それらを発展及び継続的に提供するためにはどうしたら良いか考えて物づくりをします。 お 客 様 を 起点 に 深く 考え 、 相 手 が 本 当 に 必要 な も の は 何 か 、 心 地 良 い 体験 は に 何 か 、 そ れ らを 発展 及び 継続 的 に 提供 する た め に は どう し た ら 良 いか 考え て 物 づ くり を し ます 。
フィードバック – Feedback – フィ ー ド バッ ク - Feedback -
お客様やチームからのフィードバックを大切にします。相手にフィードバックを求め、内容を前向きに捉えて高速に改善を繰り返します。相手にフィードバックする際には、具体的な行動に繋がるように分かりやすく伝えます。 お 客 様 や チオ ー ム か ら の フィ ー ド バッ ク を 大 切 に し ます 。 相手 に フィ ー ド バッ ク を 求め 、 内 容 を前 向き に 捉え て 高速 に 改善 を 繰り 返し ます 。 相手 に フィ ー ド バッ ク す る 際 に は 、 具 体 的 な 行動 に 繋が る よう に 分 か りや すく 伝え ます 。
情報発信 – Output – 情報 発信 - Output-
知識のアウトプットは最大のインプットに繋がり、その人の成長に繋がります。全ての人々の創造活動に貢献し続けるために、具体的かつ分かりやすい情報を社会に発信し続けます。自らの経験や知見が誰かの役に立つと信じ、次の世代に繋げる活動として続けます。 知識 の アウ ト プ ッ ト は 最大 の イン プッ ト に 繋が り 、 そ の 人 の 成長 に 繋が り ま す 。 全 て の 人 々の 創造 活動 に 貢献 し 続け る た め に 、 具 体 的 か つ 分 か りや すい 情報 を 社会 に 発信 し 続け ます 。 自ら の 経験 や 知見 が 誰か の 役に立つ と 信じ 、 次 の 世代 に 繋げ る 活動 と し て 続け ます 。
やってみる – Start small – や っ て みる - Start small-
検討に時間を掛け過ぎたり、できない理由を探したり、何もしないことは大きな機会損失です。過去の経験や知識のみを判断基準にせず、好奇心を持って、まずは小さく直ぐにやってみます。より早く始め、より多く失敗し、高速に改善を繰り返すことが私たちの最大の生存戦略です。 検討 に 時 間 を 掛け 過ぎ た り 、 で き な い 理由 を 探し た り 、 何 も し な いこ と は 大 き な 機 会 損失 です 。 過 去 の 経験 や 知識 の み を 判断 基準 に せ ず、 好 奇 心 を 持っ て 、 ま ず は 小さ < 直ぐ に や って み ま す 。 よ り 早 く 始 め 、 よ り 多 く 失 敗 し 、 高 速 に 改善 を 繰り 返す こと が 私 た ちの 最大 の 生存 戦略 で す 。
楽しむ – Enjoyment – 楽し む - Enjoyment 一
とても難易度の高い仕事、人の嫌がる仕事、大きな環境の変化を好み、成長の機会として楽しみます。これらを楽しめるように心身共に健康な状態を保ちます。皆が楽しく仕事ができるように、発言し行動します。 と て も 難易 度 の 高い 仕事 、 人 の 嫌がる 仕事 、 大 き な 環 境 の 変化 を 好み 、 成 長 の 機会 と し て楽し み ま す 。 これ ら を 楽し め る よう に 心身 共に 健康 な 状態 を 保ち ます 。 皆 が 楽し く 仕事 が できる よう に 、 発 言 し 行動 し ます 。

なんとなくPDFからの識別のほうが文章として成り立っている気がしますね。同じサイトで文章類似度を計測すると83.54%程度の類似度と判定され、今回のサンプルケースでは若干ですがPDFのほうが精度が上がるという結果になりました。

なお、OCRの識別精度は使用するデータや前処理に依存するため、今回の検証で確認できた精度を保証するものではございません。その点似ていてご了承ください。

最後に

弊社は7月から期が変わり、今期から所属部署がデータアナリティクス事業本部からアライアンス統括部(通称:アラカツ!)に異動となりました。これまでデータ分析に関わるソリューションを中心に活動していましたが、アライアンス統括部では特定の領域にこだわることなく、エンジニアの皆さんの活動をより快適にするさまざまなソリューションを取り扱います。幅広いソリューションをご紹介できるようにしますので、ぜひお楽しみに!

また、アラカツ!では、新部門設立に伴いアライアンスエンジニアとして活動してくれる仲間を募集しています。OCR識別の間違い探しでCLPを2回熟読された方のうち、私たちの価値観に共感できる方、面白そうだと思った方、是非説明会にご参加ください。

知らない間にクッションを齧られたり、お腹空いたと早朝に起こされたり、悪戯されてしまうことも多いですが、猫たちは今日も仲良く窓から外を眺めています。もしかしたら彼らがオンラインミーティングに飛び入り参加することがあるかもしれませんが、その際は生暖かく見守っていただけると助かります。

以上、最後までお読みいただきありがとうございました。