This page is intended for users in India. Go to the page for users in United States.

【Quipperブログ】チャットデータ分析で捉える、コーチのポジティブ発言の重要性

こんにちは。Quipper採用担当の鈴木です。今回の記事は、インターンの@JinTandaによる「チャットデータ分析で捉える、コーチのポジティブ発言の重要性」です!是非、ご覧ください!

はじめに

みなさんこんにちは。データ分析グループでインターンをしています丹田 (@JinTanda)です。

今回、スタディサプリの合格特訓コースにおける、『コーチの声掛けと学習継続の関係性』を自然言語処理の観点から分析しましたので、ご紹介いたします。

概要

スタディサプリには『合格特訓コース』という、コーチが生徒の勉強計画やモチベーション向上、勉強に関わる種々の悩み事の解決をテキストチャットを通してサポートするプランがあります。

「コーチのどのような発言が生徒との良い関係性を築き、学習行動を促すことができるか」というのは生徒の継続的な学習を実現するために重要な分析軸です。

これまでのサービス運営の経験から、コーチのポジティブな発言が重要であるという仮説はあったものの確証は得られていませんでした。

そこで今回、コーチの発言からポジティブな単語を取り上げ生徒の学習継続率との関係性を分析したところ、特定の発言カテゴリが生徒の学習継続に寄与していることがわかりました。

以下に詳細を述べていきます。

ポジティブ発言とは

まず、『ポジティブな発言』とはどういった発言のことを指すのでしょうか?

例えば、

「模試の結果がだいぶ良くなっていて、頑張ったね!間違えたところをしっかりと復習して克服していこう!」

のような発言であれば、「模試の結果がだいぶ良くなって」「頑張ったね!」といった 【褒め】のポジティブ発言や、「しっかりと復習して克服していこう!」といった 【促進】のポジティブ発言が含まれています。

このように、ポジティブ発言にもいくつかのカテゴリが存在します。

今回は、ポジティブ発言を 【褒め】【促進】【共感】 に分類し、また、これらに加えて 【疑問】のカテゴリも生徒との会話を促進させるという意味でポジティブ発言と捉え、4つのカテゴリに分類しました。

分析手法


  1. まず、コーチがよく用いる単語をコーチ本人の手で書き出し、ベースとなる辞書を作成します。辞書データには、単語と対応するポジティブ発言カテゴリのラベルが格納されます。
  2. しかし手作業による抽出だけでは辞書としてのスケールが小さいため、これを元に拡張を行います。
  3. 拡張には後述の fastText モデルを用い、Wikipedia のダンプデータを使って学習させます。本モデルを用いて、元となる辞書データの単語に対して類似度計算により類似語を導き出し、辞書に追加します。拡張後の辞書データに対して、コーチに各単語のラベル付けの重要度を重みとして 5 段階評価してもらい、その平均値で単語の重み付けを行います。
  4. 最後にチャットデータに拡張後辞書データを適用し、各単語の出現頻度に応じた重み付き評価を行い、一つの発言毎に 4 分類の結果をラベリングします。

fastText による辞書データの拡張

fastText とは、Facebook が開発しているニューラルネットワークモデルであり、非常に高速に自然言語処理を実行できるという特徴があります。

今回は skip-gram という手法を用い、ある文章においてフォーカスする単語一つを入力として、残りの単語全てを出力にとるニューラルネットワークを学習させます。これを大量のデータで学習させ、その中間層の値を単語を表現するベクトルとして扱います。

今回は、fastText によって得られたモデルを用いて単語をベクトル化することによって、類似度をベクトル演算から計算し抽出する方法を取りました。

分析結果

今回、20名程度のコーチをピックアップし発言毎に分類を行った結果、担当する生徒の学習継続率と以下のような相関が得られました。

分類では、各カテゴリに対する重み付きの単語の出現頻度から合計値をスコアとして算出し、スコアが一番高いものを分析結果としています。

その結果、 【褒め】(praise)【共感】(empathy)【疑問】(question)に関しては、継続率(rate)と正の相関があることがわかりました。生徒の継続率の高いコーチほど生徒に対してこれらの発言が多く、生徒の発言を引き出し、モチベーションを高めることで継続的な学習を促している可能性がありそうです。

一方で 【促進】(promotion)に関してはほとんど相関が見られず、継続率という観点では重要な要素ではないということが示唆されました。

まとめ

今回は文書毎にラベル付けされたデータを扱ったわけではなかったため、教師あり学習を用いるような分類は行いませんでした。文書毎にラベル付けを行い、doc2vec 等を用いて文書レベルでの分類結果との関係性を見てみるのも面白いかもしれないですね。

またインターンを振り返ってみて、短い期間ではありましたがデータ組織に限らず事業側も含めて様々な方と議論を行いながら業務を進められる素晴らしい環境でした。そして自発的な人たちがとても多く、隔たりなくたくさん意見の飛び交うとても良い文化だと感じました。

Quipper の文化については本ブログの他の記事でも詳しく書かれていますので、気になる方はぜひご覧ください。

Quipper Ltd's job postings
5 Likes
5 Likes

Weekly ranking

Show other rankings