前回までお話の中心は Excel (Microsoft 365) のサブスクでしたが、今回は Excel を使って受講した「社会人のためのデータサイエンス演習」とそのおまけで解説と簡単な演習があった "R" のお話を自分の整理のために書いておきます。
Microsoft 365 サブスクリプションを「再度」1ヶ月の無料期間だけ使ってみる (1/2) - KuriKumaChan’s diary
Microsoft 365 サブスクリプションを「再度」1ヶ月の無料期間だけ使ってみる (2/3) - 2回目の Excel 無料利用期間を終えた - KuriKumaChan’s diary
「社会人のためのデータサイエンス演習」「社会人のためのデータサイエンス入門」
確か Twitter のタイムラインに流れてきて知ったのが総務省統計局が主催している「無料」の「社会人のためのデータサイエンス演習」です。数学や統計に特に詳しい訳ではありませんが、常々常識の範囲として数字に基づく判断が何事でも大前提だと考えているので、「演習」とは別に「社会人のためのデータサイエンス入門」 (当然無料) というものも紹介されていたので、ほぼ同時に受講を開始しました。
「入門」一気に、「演習」は Excel 無料利用期間の 1ヶ月で終える。
「入門」の方はすでに全ての内容が公開済みだったので、時間さえあればどんどん進めることもできます。特にこのコースの大半は一般的な統計に関する常識のおさらい程度だったので集中してやり終えました。
一方の「社会人のためのデータサイエンス演習」は 10月上旬から 5週間にわたって毎週新しい内容と演習が公開されていきます。私が受講を始めたのは Week1 が公開された後だったので、最後の Week5 の「最終課題」まで 1ヶ月で終えて Excel の無料期間の 1カ月内で受講完了できました。ただし過去の学習内容をしっかり再チェックした訳ではないので、最終課題は結構間違えてしまいました(が、講座としては合格ラインをクリアしました)。
なお、修了証は 12月に入らないともらえないようです...
教材と Excel
教材はよくあるオンライン研修と同じで、画面に映されるスライドとほぼ同じものが PDF でダウンロードできます。他に紙のテキスト販売もあり一応購入してみましたところ、スライドよりは解説文章の方が多いようでした。が、講座の内容自体がさほど難易度が高い訳ではないので、「わざわざ精緻に読み返すほどでもない」と考えて買ったテキストはそのままメルカリに出してしまいました。
一方、演習では実際にデータが .xlsx と .csv で提供され、Excel を用いて簡単な分析を行う問題が毎週ありました。おそらく Google スプレッドシートでも同じ分析は実施可能なはずなのですが、この後 出てくる "R" と Excel の比較にあるように、Excel による分析って「メニューに従った操作の流れ」で説明されることが多いので、Excel 用の解説を読んでも Google スプレッドシートで再現するためには「操作方法を頭の中で変換する」必要があります。
研修自体の内容は
「入門」も「演習」もその大半は、
「データサイエンス」などと大袈裟に構える「以前」の「社会人でも知っていた方が良い『統計の基礎』」
という感じでした。
すでに統計の基礎に慣れている人には「いまさら」というレベルですが、私のように「なんとなく理解しているつもり」の人には良い復習になると思います。
「入門」で知った 行政のオープンデータ - e-Stat
「入門」コースでは単に統計の復習だけではなく、新たに知ったものもあります。それは「政府統計」サイトの e-Stat。
e-Stat を覗くと品揃えはたくさんあって驚きましたが、まだまだ pdf や excel ファイルでの加工済み情報が多いので、生データを自分で再加工をしようと思うと逆に手間がかかるかもしれないな、と思いました。その反面、その道のプロがわかりやすいように加工しているものなので、実用上は十分なのかもしれませんが。
「演習」で習った「検定」って...
「演習」で私の頭になかった知識は「検定」などいくつかありました。でも調べてみると今では「数I」の範囲とか。ってことは高校一年生の数学なんですね。統計に興味のない高校生、特に文系の学生には頭の痛いだけの内容かもしれないけれど、社会人としてこれからは常識になっていく言葉なので、ぜひ言葉や何のためにある話かなどはぜひ頭の片隅に入れておいた方が良いよ、とアドバイスしたいです。
特別週で "R" の演習
そして「演習」コース本編の 5 週分の講座に加え、特別週として "R" の紹介と演習がありました。私は元々本屋で立ち読みしていてたまに "R" 関連本の存在に気づいていた程度でした。
演習内容
"R" 及び "RStudio" の基本操作を解説しながら、決定木やクラスター分析など本編では説明されていないテーマにも触れていました。本編の Excel 演習の全てを R でやり直しているわけではないですが、一度 Excel で分析操作したものを "R" で再分析してみるパターンが多いので分かりやすかったです。そして、
「あーなるほど!取っ付きにくそうだけれど、本質的にはメニューベースの Excel よりずっと良いね!」
ということはすぐに理解できました。
R って Windows ユーザーが中心なの?
オンライン研修の「特別週」では一才 Mac ユーザーに関連した説明はありませんでしたが、結構 「Mac & 日本語」ユーザーにはいくつかの敷居があるようです。(一昔前の Android スマホの文字化け豆腐文字みたいな現象) もちろんネットには Mac を前提とした解説記事があることが分かりましたが、名古屋大学 大学院教育発達科学研究科・教育学部 の石井研究室が作成した「統計解析ソフトRのスクリプト集 (Ver. 13.0)」が一番まとまっていて役に立ち湯でした。
R を知らなかった時の自分に説明すると
基本的な解説は書籍やネット上に沢山あるのだけれど、 "R" を知らなかった昔の自分がなんとなくでも雰囲気を伝えようとするとこんな感じだと思います。
- "R" 自体はデータ分析のためのコマンドスクリプト
- "RStudio" は R のための IDE で、コマンド、コンソール、変数、グラフ表示等々の機能を提供するもの。実質 "RSutudio" を使って "R" のスクリプトを実行する。
- Excel との違いは、Excel は「メニューを用いて操作する」が、R は「コマンド(関数やら...) を用いて操作する」。これが何を意味するかというと、分析の過程を「操作の流れで説明する」か「実行する機能の流れで記録するか」。
- Mac 環境では操作上のおまじないがいくつか必要。簡単な設定やコマンドで回避できるのだけれど知らないとそれを解決するためのストレスがある。
- 自分の場合であれば完全に「Excel v.s. R」ではなく「表計算の延長でのちょっとした統計計算なら R は必要ない。」「最初からデータを分析するつもりなら R に親しむためにも R でやり通した方が良いかも」
私なりの結論
今回の「入門」と「演習」を通じて私なりの腹落ちとしては、「データサイエンス」という言い方をすると大袈裟ですが、その大半は「統計とそのビジネス/日社会への利用」だと理解しました。
もちろん多くのデータを入手しやすくなってきた今だからこそそのあらゆる分野で「データサイエンス!」と言われているのでしょうし、大学の共通テストでも「情報」という科目が設定されたのだと思います。
ビジネスの世界から離れると、なかなかまとまったデータを整理/分析するという機会はあまり有りませんが、社会の常識として「データサイエンス」には触れ続けたいと思いました。
参考
群馬大学 情報学部、大学院理工学府電子情報部門 教授 「入門のための概説」と「クイッ クリファレンス」