生成AI(ChatGPT)×ETLならReckoner(レコナー)
生成AI(ChatGPT)を活用し様々なデータ表記(ひらがな・カタカナ・漢字・表記揺れ)を一括でローマ字表記に統一する方法
現状・問題点
複数の営業メンバーがGoogleスプレッドシートへ、自由なデータフォーマットで案件情報を入力しているため、漢字表記やカタカナ表記、ひらがな表記など、異なる表記方法が混在してしまっている。ルールを決めても浸透せず、異なる表記が存在することで視認性も悪いうえに、データ分析もしづらい状況になっている。
Reckoner(レコナー)導入の効果
自然言語で簡単データ入力の自動補正・正規化による表記ゆれの解消を実現
ETL(Reckoner)内で生成AI(ChatGPT)を活用することで、スプレッドシートに入力されたデータに対して、自動的に表記ゆれを修正する処理を設定できる。 例えば、「トウキョウ」と入力された場合でも、「東京」と入力された場合でも、統一して「tokyo」と補正する処理を定義できる。
視認性の向上とスピーディーなデータ分析が可能
データ入力段階で表記が統一され、後からデータ分析を行う際に、表記ゆれによって分析が困難になる問題を回避できる。また、データの視認性が向上し、データの精度向上にも繋がる。
生成AI(ChatGPT)を活用し様々なデータ表記(ひらがな・カタカナ・漢字・表記揺れ)を一括でローマ字表記に統一する方法
STEP1
接続設定
・Reckoner(レコナー)が、異なるデータ表記(ひらがな・カタカナ・漢字・表記揺れ)が混在しているGoogleスプレッドシートにアクセスできるようにするため、OAuthもしくはp12キーで認証をおこなう。
・Googleスプレッドシートからデータを取得する。
STEP2
データ加工・変換
・「HTTP」タスクを用いて、生成AI(ChatGPT)にプロンプトを与える。
・「CSV展開」タスクを用いて、カンマ区切りされた元の値と表記統一・表記揺れ解消後の各データをそれぞれ別のフィールドに出力する。
STEP3
ワークフロー作成・データ連携
検証環境を用意することなく、Reckoner(レコナー)の画面上で処理結果のプレビューをぱっと確認。バッチ制作不要で、Googleスプレッドシートと各タスクを繋いでデータの流れを作成する。
Reckonerでの解決ポイント
ETL内で生成AI(ChatGPT)を活用!
ETLで生成AI(ChatGPT)を活用すれば、自然言語で簡単に複雑なデータ加工処理が可能。