山梨大学電子シラバス>検索結果一覧>授業データ



授業科目名
担当教員
データサイエンス入門
塙 雅典
時間割番号
単位数
コース
履修年次
期別
曜日
時限
TEE117 2 (未登録) 1 後期 IV-1-V-1
[概要]
現代の高度にデジタル化された社会においては,生活や仕事に各種情報を有効に利活用する基礎的素養や,スマートフォンや様々なセンサから自動的に集められるデータから有用な情報を引き出すための様々な知識・能力が求められる。本科目では,現代社会で起きているデータによる産業革命とも呼ぶべき大きな変化を正しく認識した上で,データを正しく理解・分析・解釈し,データを元に様々な事象を説明できるようになることを目指し,数的データを取り扱うためのツールとしてのプログラミング言語とデータ分析に欠かせない統計学の基礎を学ぶ。さらに発展的な内容として,昨今データサイエンス分野の必携知識となっている機械学習(AI)や,文字データの解析についても簡単な利活用ができるようになることを目指す。
[具体的な達成目標]
(1)なぜデータサイエンスを学ぶ必要があるのかを,重要性を理解し説明できる
(2)MATLAB/Octaveの基礎を身につけ,様々な統計学の学習に活用できる
(3)基本統計量の性質を理解し、データの理解に役立てることができる
(4)確率変数及び確率分布の持つ役割と性質を理解し,代表値を求めることができる
(5)標本抽出法,母集団の統計的性質を推測法を理解し説明できる
(6)仮説検定を理解し、検定におけるエラーを説明できる
(7)テキストデータをコンピュータで分析する有効性を理解し説明できる
(8)機械学習の概要と可能性について説明できる
[必要知識・準備]
数列,微分積分学,順列組み合わせなど高校で学ぶ数学の基本事項とPCの基本的な使い方(タッチタイピング,Microsoft Windowsの操作,Microsoft Word等の基本的なオフィスアプリケーションの使い方,Webブラウザ操作など)に習熟しておくこと。また並行して開講される「信号とシステム」でも学ぶMATLABプログラミングは本授業においても重要なツールとなる上に,今後の学習・研究・仕事においても強力な武器となる。両方の授業を通じて,確実に習得すること。
[評価方法・評価基準]
No評価項目割合評価の観点
1試験:期末期 20  %具体的な達成目標(8)の機械学習の活用について理解度を問う 
2試験:中間期 30  %具体的な達成目標の(2)〜(4)について理解度を問う 
3小テスト/レポート 40  %各回の学修項目に応じて具体的な達成目標の(1)〜(8)につい て理解度を問う 
4受講態度 10  %各回の期限までに課題が提出されない場合には,その授業回の小テ スト/レポート点を失うこととなる。主体的継続的な学習態度を有することは大学生としての前提である 
[教科書]
  1. 小寺平治, ゼロから学ぶ統計解析, 講談社, ISBN:4061546562
[参考書]
(未登録)
[講義項目]
第1回 なぜデータサイエンスを学ぶのか
データサイエンスを学ぶ必要性と意義を自分の言葉で説明できるようにする。

第2回 MATLAB/Ocataveプログラミング入門
MATLAB/Ocataveの基礎的な文法を理解しを電卓代わりに使えるようにする。データの可視化のための様々なグラフィック機能を実際に使えるようにする。

第3回 データの整理
データを表や図で表し、全体の傾向をつかめるようにする。データの傾向を表す様々な量を知り、それらの使い方を自分の言葉で説明し,活用できるようにする。社会で実際に使われているデータの例として政府統計データe-Statにふれ,その取り込み方も学ぶ。

第4回 二つのデータの関係
相関図の作成,共分散・相関係数を自分の言葉で説明し,活用できるようにする。

第5回 確率分布と密度関数
確率変数・確率分布表・確率密度関数と確率,確率分布関数,期待値,分散,標準偏差などを理解し,自分の言葉で説明し,活用できるようにする。

第6回 同時確率分布。
複数の確率変数の振る舞いを表す同時確率関数/同時確率分布について学ぶ。同時確率変数と同時確率関数,確率変数の独立性,同時確率変数の期待値・分散,大数の法則を自分の言葉で説明し,活用できるようにする

第7回 二項分布の活用法
二項分布の活用法について学ぶ。ベルヌーイ試行と二項分布の関係,ポアソン分布について自分の言葉で説明し,活用できるようにする。

第8回 正規分布
正規曲線と正規分布について学ぶ。標準偏差が正規曲線の変曲点であること,正規分布と確率の関係などについて自分の言葉で説明し,活用できるようにする。

第9回 中間試験

第10回 推測統計入門
標本調査,標本平均,母平均の信頼区間の推定について学ぶ。推測統計の目的,標本調査の概要,標本平均は母平均の周りに密集すること,中心極限定理,標本分散は母分散の(n-1)/nになることなどについて,自分の言葉で説明し,活用できるようにする。

第11回 仮説検定
様々な仮説検定の方法について学ぶ。仮説検定とは何か,母平均の検定(母分散既知/未知),等平均仮説検定(母分散既知/未知),母分散の検定(母平均既知/未知),F分布と等分散仮説の検定,無相関の検定などについて自分の言葉で説明し,活用できるようにする。

第12回 テキストマイニングの基礎
文字データの分析手法を学ぶ。質的研究と量的研究の違い,データマイニング,テキストマイニングなどの用語,テキストマイニングの手順,KHcoderによるテキストマイニングの方法などについて自分の言葉で説明し,活用できるようにする。

第13回〜第15回 機械学習(AI)入門および総括評価課題
機械学習(AI)の基礎について学ぶ。科学の発展の4段階(実証科学,理論科学,計算科学,データ駆動科学),知能,人工知能,チューリングテスト,シンギュラリティなどの関連する用語,機械学習について複数の例,ニューラルネットワークと深層学習の概要などについて自分の言葉で説明し,活用できるようにする。SONY Neural Network ConsoleをプログラミングレスAI基盤として用いて,簡単な画像認識システムを構築できるようにする。
[教育方法]
【2020年9月10日追記】
Zoomなどによるライブオンライン授業(講義・PC演習)で開始するが,対面(PC教室の定員と履修者数の兼ね合いで半数ずつ入れ替えの予定)とライブオンラインのハイブリッドへの移行を検討する。その他の方法については以下の例年のやり方に準拠する。

情報処理端末教室において各回1.5コマの授業とし,各回の内容について講義と実習を交互に行う。講義用スライド資料・小テスト・課題・ワークショップ(学生同士の相互評価を含む課題)の提示を学習管理システムMoodle上で行うとともに,教室端末に導入されているMATLABかOctave-onlineを活用して毎回プログラミングスキルを磨く。統計学を学ぶ際には政府統計データe-Statなど社会で実際に活用されているデータも活用する。テキストデータ処理の学習には情報処理端末に導入されているKHcoderを活用するとともに,機械学習(深層学習)の学習にはSONY Neural Network Consoleを活用してプログラミングレスのAI応用基礎教育を実施する。
[JABEEプログラムの学習・教育目標との対応]
(未登録)
[その他]
(未登録)