Alteryxの日本語形態素解析ツールを公開しました
こんにちは、小澤です。
Alteryxで日本語形態素解析を行うツールを公開しました。
必要なライブラリ
形態素解析そのものをAlteryx内で実現しているわけではないので、別途ライブラリをインストールする必要があります。 形態素解析に利用しているライブラリはMeCabとなりますので、以下からダウンロードしてインストールしてください。
インストールしたのち、環境変数のPATHを指定する必要があります。 PATHの指定方法については検索を行えば、以下のような参考情報が多数ありますので、そちらをご参照ください。
利用方法
yxiファイルのインストールを行うと、ParseカテゴリにMeCab Splitというツールがインストールされます。
このツールは、分割した形態素を縦持ちで返す仕様になっています。 そのため、あらかじめ各レコードに一意なIDを割り当てておく必要があるとともに、ツールの設定でもこのIDとなる列を指定する必要があります。
以下にサンプルワークフローを提示します。
入力データは以下のようになっています。
一意なIDはRecord IDツールでふっています。
その後、本ツールを利用しています。 ツール設定は以下のようになっています。
「Select Target Field」で形態素解析の対象となる列を選択します。 「Select Record ID Field」で一意なIDをふっている列を選択します。
結果は以下のようになります。
record_id列に元の一意なID, word列に形態素が出力されます。 parts_of_speechはカンマ区切りのものを出力しているので、必要に応じてText To Columnツールで分割するなどしてお使いください。
ダウンロード先
ダウンロードはGalleryから行なってください(ログインしている必要があります)。
おわりに
Alteryxで日本語形態素解析を行うためのツールを公開しました。 ご興味のある方はぜひお使いください。
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。