Alteryxの日本語形態素解析ツールを公開しました

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、小澤です。

Alteryxで日本語形態素解析を行うツールを公開しました。

必要なライブラリ

形態素解析そのものをAlteryx内で実現しているわけではないので、別途ライブラリをインストールする必要があります。 形態素解析に利用しているライブラリはMeCabとなりますので、以下からダウンロードしてインストールしてください。

インストールしたのち、環境変数のPATHを指定する必要があります。 PATHの指定方法については検索を行えば、以下のような参考情報が多数ありますので、そちらをご参照ください。

利用方法

yxiファイルのインストールを行うと、ParseカテゴリにMeCab Splitというツールがインストールされます。

このツールは、分割した形態素を縦持ちで返す仕様になっています。 そのため、あらかじめ各レコードに一意なIDを割り当てておく必要があるとともに、ツールの設定でもこのIDとなる列を指定する必要があります。

以下にサンプルワークフローを提示します。

入力データは以下のようになっています。

一意なIDはRecord IDツールでふっています。

その後、本ツールを利用しています。 ツール設定は以下のようになっています。

「Select Target Field」で形態素解析の対象となる列を選択します。 「Select Record ID Field」で一意なIDをふっている列を選択します。

結果は以下のようになります。

record_id列に元の一意なID, word列に形態素が出力されます。 parts_of_speechはカンマ区切りのものを出力しているので、必要に応じてText To Columnツールで分割するなどしてお使いください。

ダウンロード先

ダウンロードはGalleryから行なってください(ログインしている必要があります)。

おわりに

Alteryxで日本語形態素解析を行うためのツールを公開しました。 ご興味のある方はぜひお使いください。

Alteryxの導入なら、クラスメソッドにおまかせください

日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。

alteryx_960x400