数据科学基础 (Fall 2024): Difference between revisions

From TCS Wiki
Jump to navigation Jump to search
 
(46 intermediate revisions by 2 users not shown)
Line 31: Line 31:
|header6 =  
|header6 =  
|label6  = Email
|label6  = Email
|data6  = TBA
|data6  = lmm@nju.edu.cn
|header7 =
|header7 =
|label7  = office
|label7  = office
|data7  = 智能软件与工程学院
|data7  = 南雍-东207
|header8 = Class
|header8 = Class
|label8  =  
|label8  =  
Line 40: Line 40:
|header9 =
|header9 =
|label9  = Class meeting
|label9  = Class meeting
|data9  = Friday, 9am-12pm <br>南雍-西311
|data9  = Friday, 9am-12pm <br/>南雍-西311
|header10=
|header10=
|label10 = Office hour
|label10 = Office hour
|data10  = TBA
|data10  = Thursday, 6pm-8pm<br/>南雍-东207
|header11= Textbook
|header11= Textbook
|label11 =  
|label11 =  
Line 72: Line 72:


= Announcement =
= Announcement =
* TBA
* 因上课的同学太多,原教室无法容纳,从9月13日开始改为在西110上课。
* 因西110上课体验不太好,且已有部分同学退课,从9月29日开始重新<strong style="color:red;">回到西311上课</strong>。
* 9月20日修正了 [[数据科学基础 (Fall 2024)/Problem Set 1]] 中 Problem 1 的 [De Morgan’s Laws] 和 [<math>\sigma</math>-algebra] 的错误描述。
* 10月1日修正了 [[数据科学基础 (Fall 2024)/Problem Set 1]] 中 Problem 5 的 [Mutual independences] 的错误描述。
* 10月4日修改  [[数据科学基础 (Fall 2024)/Problem Set 1]] 中 Problem 3 的  [Symmetric 1D random walk (III)] 为选做题。没做出来不扣分。
* 10月11日添加了 [[数据科学基础 (Fall 2024)/Problem Set 2]] 中 Problem 1 的 [Cumulative distribution function (CDF)] 有关的定义,和 [Composing random variables] 有关的定义。
* 10月12日更新了已收到的第一次作业的名单。请同学们'''严格按照说明对文件进行命名''',并'''使用邮件的附件提交作业''',<strong style="color:red;">不要使用qq超大附件,它只是名字里带“附件”的网盘而不是附件</strong>,否则无法抓取到作业。仅抓取附件中以 "FA1.pdf" 结尾的文件。没有被抓取到作业的同学请联系助教重新提交。
* 11月1日上午的课<strong style="color:red;">调课到当天晚上</strong>9-11节(18:30-21:20),还是在西311。
* 因校运动会,11月8日的课程取消。
* 11月18日修正了 [[数据科学基础 (Fall 2024)/Problem Set 5]] 中 [Density function] 的错误描述。


= Course info =
= Course info =
* '''Instructor ''':  
* '''Instructor ''':  
:* [http://tcs.nju.edu.cn/yinyt/ 尹一通]:[mailto:yinyt@nju.edu.cn <yinyt@nju.edu.cn>],计算机学院 804  
** [http://tcs.nju.edu.cn/yinyt/ 尹一通]:[mailto:yinyt@nju.edu.cn <yinyt@nju.edu.cn>],计算机学院 804  
:* [https://liumingmou.github.io 刘明谋]:[mailto:TBA <TBA>],南雍-东207
** [https://liumingmou.github.io 刘明谋]:[mailto:lmm@nju.edu.cn <lmm@nju.edu.cn>],南雍-东207
* '''Teaching assistant''':
* '''Teaching assistant''':
** TBA
** 周灿:[mailto:bzy.cirno@gmail.com 📧] 仙林校区计科楼北栋426
** 陈弘毅:[mailto:502023330006@smail.nju.edu.cn 📧] 仙林校区计科楼北栋426
** 冯昱达:[mailto:yudafeng@smail.nju.edu.cn 📧] 仙林校区计科楼北栋426
** 丁天行:[mailto:652024330006@smail.nju.edu.cn 📧] 仙林校区计科楼北栋426
* '''Class meeting''':
* '''Class meeting''':
** 周五:9am-12pm,南雍-西311
** 周五:9am-12pm,南雍-<s>西311</s> <s>西110</s> <strong>西311</strong>
* '''Office hour''':  
* '''Office hour''':  
:* TBA,计算机学院 804(尹一通)
:* 周四:6pm-8pm,南雍-东207(刘明谋)
:* TBA,南雍-东207(刘明谋)
:* '''QQ群''': 302709730(申请加入需提供姓名、院系、学号)
:* '''QQ群''': 302709730(申请加入需提供姓名、院系、学号)


= Syllabus =
= Syllabus =
TBA
课程内容分为三大部分:
 
* '''经典概率论''':包括概率空间、随机变量及其数字特征、多维与连续随机变量
* '''概率与计算''':包括测度集中现象,概率法,离散随机过程三部分
* '''数理统计''':包括参数估计、假设检验、贝叶斯估计、方差分析、相关性及回归分析等统计推断内容。
 
对于第一和第二部分,要求清楚掌握基本概念,深刻理解关键的现象与规律以及背后的原理,并可以灵活运用所学方法求解相关问题。对于第三部分,要求熟悉数理统计相关的基本概念,以及典型的统计模型、统计推断方法。
 
经过本课程的训练,学生将能够掌握概率论和统计学的基本理论和方法,具备处理和分析实际数据的能力,为后续学习数据挖掘、机器学习、大数据技术等数据科学相关领域打下坚实基础。本课程采用课堂讲授、案例分析和课后练习相结合的教学方式,注重理论与实践相结合,培养学生运用所学知识解决实际问题的能力。通过本课程的学习,学生将能够具备扎实的数学基础,为未来从事数据科学研究和实践奠定坚实基础。


=== 教材与参考书 Course Materials ===
=== 教材与参考书 Course Materials ===
* '''[BT]''' 概率导论(第2版·修订版),[美]伯特瑟卡斯(Dimitri P.Bertsekas)[美]齐齐克利斯(John N.Tsitsiklis)著,郑忠国 童行伟 译,人民邮电出版社(2022)。
* '''[BT]''' 概率导论(第2版·修订版),[美]伯特瑟卡斯(Dimitri P.Bertsekas)[美]齐齐克利斯(John N.Tsitsiklis)著,郑忠国 童行伟 译,人民邮电出版社(2022)。
* '''[MU]''' ''Probability and Computing: Randomization and Probabilistic Techniques in Algorithms and Data Analysis'', by Michael Mitzenmacher, Eli Upfal; Cambridge University Press; 2nd edition (2017).
* '''[MU]''' ''Probability and Computing: Randomization and Probabilistic Techniques in Algorithms and Data Analysis'', by Michael Mitzenmacher, Eli Upfal; Cambridge University Press; 2nd edition (2017).
* '''[GS]''' ''Probability and Random Processes'', by Geoffrey Grimmett and David Stirzaker; Oxford University Press; 4th edition (2020).
* '''[BHK]''' ''Foundations of Data Science'', by Avrim Blum, John Hopcroft, and Ravindran Kannan; Cambridge University Press (2020).
* '''[BHK]''' ''Foundations of Data Science'', by Avrim Blum, John Hopcroft, and Ravindran Kannan; Cambridge University Press (2020).


Line 109: Line 129:


= Assignments =
= Assignments =
*TBA
*[[数据科学基础 (Fall 2024)/Problem Set 1|Problem Set 1]]  请在 2024/10/11 上课之前(9:00 UTC+8)使用邮件的附件功能提交到 [mailto:pr2024_nju@163.com pr2024_nju@163.com] (文件名为'<font color=red >学号_姓名_FA1.pdf</font>').
** [[数据科学基础_(Fall_2024)/第一次作业提交名单|第一次作业提交名单]]
*[[数据科学基础 (Fall 2024)/Problem Set 2|Problem Set 2]]  请在 <s>2024/10/18</S> '''2024/10/25''' 上课之前(9:00 UTC+8)使用邮件的附件功能提交到 [mailto:pr2024_nju@163.com pr2024_nju@163.com] (文件名为'<font color=red >学号_姓名_FA2.pdf</font>').
** [[数据科学基础_(Fall_2024)/第二次作业提交名单|第二次作业提交名单]]
*[[数据科学基础 (Fall 2024)/Problem Set 3|Problem Set 3]]  请在 2024/11/1 上课之前(18:30 UTC+8)使用邮件的附件功能提交到 [mailto:pr2024_nju@163.com pr2024_nju@163.com] (文件名为'<font color=red >学号_姓名_FA3.pdf</font>').
** [[数据科学基础_(Fall_2024)/第三次作业提交名单|第三次作业提交名单]]
*[[数据科学基础 (Fall 2024)/Problem Set 4|Problem Set 4]]  请在 2024/11/15 上课之前(9:00 UTC+8)使用邮件的附件功能提交到 [mailto:pr2024_nju@163.com pr2024_nju@163.com] (文件名为'<font color=red >学号_姓名_FA4.pdf</font>').
** [[数据科学基础_(Fall_2024)/第四次作业提交名单|第四次作业提交名单]]
*[[数据科学基础 (Fall 2024)/Problem Set 5|Problem Set 5]]  请在 2024/11/29 上课之前(9:00 UTC+8)使用邮件的附件功能提交到 [mailto:pr2024_nju@163.com pr2024_nju@163.com] (文件名为'<font color=red >学号_姓名_FA5.pdf</font>').


= Lectures =
= Lectures =
TBA
# [http://tcs.nju.edu.cn/slides/FDS2024/Intro.pdf 课程简介]
# [http://tcs.nju.edu.cn/slides/FDS2024/ProbSpace.pdf 概率空间]
#* 阅读:'''[BT] 第1章'''
# [https://tcs.nju.edu.cn/wiki/images/0/04/数据科学基础_(Fall_2024)_RandVar.pdf 随机变量 (Rev 1)]
#* 阅读:'''[BT] 第2章'''
#* 阅读:'''[MU] Chapter 2'''
#* [[数据科学基础 (Fall 2024)/Volume of Hamming balls|Volume of Hamming balls]]
#* [[数据科学基础 (Fall 2024)/Average-case analysis of QuickSort|Average-case analysis of '''''QuickSort''''']]
# [https://tcs.nju.edu.cn/wiki/images/9/94/数据科学基础_(Fall_2024)_Deviation-compressed.pdf  ‎偏差和矩 (Rev 2)]
#* 阅读:'''[MU] Chapter 3'''
#* 阅读:'''[BT] 章节 2.4, 4.2, 4.3, 5.1'''
# [https://tcs.nju.edu.cn/wiki/images/e/e8/%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6%E5%9F%BA%E7%A1%80_%28Fall_2024%29_Continuous.pdf 连续分布]
#* 阅读:'''[BT] 第3章, 和4.1节''' 或 '''[GS] Chapter 4'''
#* 阅读:'''[MU] Chapters 8, 9'''
#* [https://measure.axler.net/MIRA.pdf Measure, Integration & Real Analysis] by Sheldon Axler
# [https://tcs.nju.edu.cn/wiki/images/2/2f/%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6%E5%9F%BA%E7%A1%80_%28Fall_2024%29_Convergence-compressed.pdf 极限定理]
#* 阅读:'''[BT] 第5章'''
#* 阅读:'''[GS] Sections 5.7~5.10, 7.1~7.5'''


= Concepts =
= Concepts =
TBA
* [https://plato.stanford.edu/entries/probability-interpret/ Interpretations of probability]
* [https://en.wikipedia.org/wiki/History_of_probability History of probability]
* Example problems:
** [https://dornsifecms.usc.edu/assets/sites/520/docs/VonNeumann-ams12p36-38.pdf von Neumann's Bernoulli factory] and other [https://peteroupc.github.io/bernoulli.html Bernoulli factory algorithms]
** [https://en.wikipedia.org/wiki/Boy_or_Girl_paradox Boy or Girl paradox]
** [https://en.wikipedia.org/wiki/Monty_Hall_problem Monty Hall problem]
** [https://en.wikipedia.org/wiki/Bertrand_paradox_(probability) Bertrand paradox]
** [https://en.wikipedia.org/wiki/Hard_spheres Hard spheres model] and [https://en.wikipedia.org/wiki/Ising_model Ising model]
** [https://en.wikipedia.org/wiki/PageRank ''PageRank''] and stationary [https://en.wikipedia.org/wiki/Random_walk random walk]
** [https://en.wikipedia.org/wiki/Diffusion_process Diffusion process] and [https://en.wikipedia.org/wiki/Diffusion_model diffusion model]
*[https://en.wikipedia.org/wiki/Probability_space Probability space]
** [https://en.wikipedia.org/wiki/Sample_space Sample space]
** [https://en.wikipedia.org/wiki/Event_(probability_theory) Event] and [https://en.wikipedia.org/wiki/Σ-algebra <math>\sigma</math>-algebra]
** Kolmogorov's [https://en.wikipedia.org/wiki/Probability_axioms axioms of probability]
* [https://en.wikipedia.org/wiki/Discrete_uniform_distribution Classical] and [https://en.wikipedia.org/wiki/Geometric_probability goemetric probability]
* [https://en.wikipedia.org/wiki/Boole%27s_inequality Union bound]
** [https://en.wikipedia.org/wiki/Inclusion%E2%80%93exclusion_principle Inclusion-Exclusion principle]
** [https://en.wikipedia.org/wiki/Boole%27s_inequality#Bonferroni_inequalities Bonferroni inequalities]
* [https://en.wikipedia.org/wiki/Conditional_probability Conditional probability]
** [https://en.wikipedia.org/wiki/Chain_rule_(probability) Chain rule]
** [https://en.wikipedia.org/wiki/Law_of_total_probability Law of total probability]
** [https://en.wikipedia.org/wiki/Bayes%27_theorem Bayes' law]
* [https://en.wikipedia.org/wiki/Independence_(probability_theory) Independence]
** [https://en.wikipedia.org/wiki/Pairwise_independence Pairwise independence]
* [https://en.wikipedia.org/wiki/Random_variable Random variable]
** [https://en.wikipedia.org/wiki/Cumulative_distribution_function Cumulative distribution function]
** [https://en.wikipedia.org/wiki/Probability_mass_function Probability mass function]
** [https://en.wikipedia.org/wiki/Probability_density_function Probability density function]
* [https://en.wikipedia.org/wiki/Multivariate_random_variable Random vector]
** [https://en.wikipedia.org/wiki/Joint_probability_distribution Joint probability distribution]
** [https://en.wikipedia.org/wiki/Conditional_probability_distribution Conditional probability distribution]
** [https://en.wikipedia.org/wiki/Marginal_distribution Marginal distribution]
* Some '''discrete''' probability distributions
** [https://en.wikipedia.org/wiki/Bernoulli_trial Bernoulli trial] and [https://en.wikipedia.org/wiki/Bernoulli_distribution Bernoulli distribution]
** [https://en.wikipedia.org/wiki/Discrete_uniform_distribution Discrete uniform distribution]
** [https://en.wikipedia.org/wiki/Binomial_distribution Binomial distribution]
** [https://en.wikipedia.org/wiki/Geometric_distribution Geometric distribution]
** [https://en.wikipedia.org/wiki/Negative_binomial_distribution Negative binomial distribution]
** [https://en.wikipedia.org/wiki/Hypergeometric_distribution Hypergeometric distribution]
** [https://en.wikipedia.org/wiki/Poisson_distribution Poisson distribution]
** and [https://en.wikipedia.org/wiki/List_of_probability_distributions#Discrete_distributions others]
* Balls into bins model
** [https://en.wikipedia.org/wiki/Multinomial_distribution Multinomial distribution]
** [https://en.wikipedia.org/wiki/Birthday_problem Birthday problem]
** [https://en.wikipedia.org/wiki/Coupon_collector%27s_problem Coupon collector]
** [https://en.wikipedia.org/wiki/Balls_into_bins_problem Occupancy problem]
* Random graphs
** [https://en.wikipedia.org/wiki/Erd%C5%91s%E2%80%93R%C3%A9nyi_model Erdős–Rényi random graph model]
** [https://en.wikipedia.org/wiki/Galton%E2%80%93Watson_process Galton–Watson branching process]
* [https://en.wikipedia.org/wiki/Expected_value Expectation]
** [https://en.wikipedia.org/wiki/Law_of_the_unconscious_statistician Law of the unconscious statistician, ''LOTUS'']
** [https://dlsun.github.io/probability/linearity.html Linearity of expectation]
** [https://en.wikipedia.org/wiki/Conditional_expectation Conditional expectation]
** [https://en.wikipedia.org/wiki/Law_of_total_expectation Law of total expectation]

Latest revision as of 12:59, 18 November 2024

数据科学基础
Foundations of Data Science
Instructor
尹一通
Email yinyt@nju.edu.cn
office 计算机学院 804
刘明谋
Email lmm@nju.edu.cn
office 南雍-东207
Class
Class meeting Friday, 9am-12pm
南雍-西311
Office hour Thursday, 6pm-8pm
南雍-东207
Textbook
概率导论(第2版·修订版)
Dimitri P. Bertsekas and John N. Tsitsiklis
郑忠国 童行伟 译;人民邮电出版社 (2022)
Probability and Computing (2E)
Michael Mitzenmacher and Eli Upfal
Cambridge University Press (2017)
Foundations of Data Science
Avrim Blum, John Hopcroft, Ravi Kannan
Cambridge University Press (2020)
v · d · e

This is the webpage for the Foundations of Data Science (数据科学基础) class of Fall 2024. Students who take this class should check this page periodically for content updates and new announcements.

Announcement

  • 因上课的同学太多,原教室无法容纳,从9月13日开始改为在西110上课。
  • 因西110上课体验不太好,且已有部分同学退课,从9月29日开始重新回到西311上课
  • 9月20日修正了 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 1 的 [De Morgan’s Laws] 和 [[math]\displaystyle{ \sigma }[/math]-algebra] 的错误描述。
  • 10月1日修正了 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 5 的 [Mutual independences] 的错误描述。
  • 10月4日修改 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 3 的 [Symmetric 1D random walk (III)] 为选做题。没做出来不扣分。
  • 10月11日添加了 数据科学基础 (Fall 2024)/Problem Set 2 中 Problem 1 的 [Cumulative distribution function (CDF)] 有关的定义,和 [Composing random variables] 有关的定义。
  • 10月12日更新了已收到的第一次作业的名单。请同学们严格按照说明对文件进行命名,并使用邮件的附件提交作业不要使用qq超大附件,它只是名字里带“附件”的网盘而不是附件,否则无法抓取到作业。仅抓取附件中以 "FA1.pdf" 结尾的文件。没有被抓取到作业的同学请联系助教重新提交。
  • 11月1日上午的课调课到当天晚上9-11节(18:30-21:20),还是在西311。
  • 因校运动会,11月8日的课程取消。
  • 11月18日修正了 数据科学基础 (Fall 2024)/Problem Set 5 中 [Density function] 的错误描述。

Course info

  • Instructor :
  • Teaching assistant:
    • 周灿:📧 仙林校区计科楼北栋426
    • 陈弘毅:📧 仙林校区计科楼北栋426
    • 冯昱达:📧 仙林校区计科楼北栋426
    • 丁天行:📧 仙林校区计科楼北栋426
  • Class meeting:
    • 周五:9am-12pm,南雍-西311 西110 西311
  • Office hour:
  • 周四:6pm-8pm,南雍-东207(刘明谋)
  • QQ群: 302709730(申请加入需提供姓名、院系、学号)

Syllabus

课程内容分为三大部分:

  • 经典概率论:包括概率空间、随机变量及其数字特征、多维与连续随机变量
  • 概率与计算:包括测度集中现象,概率法,离散随机过程三部分
  • 数理统计:包括参数估计、假设检验、贝叶斯估计、方差分析、相关性及回归分析等统计推断内容。

对于第一和第二部分,要求清楚掌握基本概念,深刻理解关键的现象与规律以及背后的原理,并可以灵活运用所学方法求解相关问题。对于第三部分,要求熟悉数理统计相关的基本概念,以及典型的统计模型、统计推断方法。

经过本课程的训练,学生将能够掌握概率论和统计学的基本理论和方法,具备处理和分析实际数据的能力,为后续学习数据挖掘、机器学习、大数据技术等数据科学相关领域打下坚实基础。本课程采用课堂讲授、案例分析和课后练习相结合的教学方式,注重理论与实践相结合,培养学生运用所学知识解决实际问题的能力。通过本课程的学习,学生将能够具备扎实的数学基础,为未来从事数据科学研究和实践奠定坚实基础。

教材与参考书 Course Materials

  • [BT] 概率导论(第2版·修订版),[美]伯特瑟卡斯(Dimitri P.Bertsekas)[美]齐齐克利斯(John N.Tsitsiklis)著,郑忠国 童行伟 译,人民邮电出版社(2022)。
  • [MU] Probability and Computing: Randomization and Probabilistic Techniques in Algorithms and Data Analysis, by Michael Mitzenmacher, Eli Upfal; Cambridge University Press; 2nd edition (2017).
  • [GS] Probability and Random Processes, by Geoffrey Grimmett and David Stirzaker; Oxford University Press; 4th edition (2020).
  • [BHK] Foundations of Data Science, by Avrim Blum, John Hopcroft, and Ravindran Kannan; Cambridge University Press (2020).

成绩 Grading Policy

  • 课程成绩:本课程将会有若干次作业和一次期末考试。最终成绩将由平时作业成绩和期末考试成绩综合得出。
  • 迟交:如果有特殊的理由,无法按时完成作业,请提前联系授课老师,给出正当理由。否则迟交的作业将不被接受。

学术诚信 Academic Integrity

学术诚信是所有从事学术活动的学生和学者最基本的职业道德底线,本课程将不遗余力的维护学术诚信规范,违反这一底线的行为将不会被容忍。

作业完成的原则:署你名字的工作必须是你个人的贡献。在完成作业的过程中,允许讨论,前提是讨论的所有参与者均处于同等完成度。但关键想法的执行、以及作业文本的写作必须独立完成,并在作业中致谢(acknowledge)所有参与讨论的人。符合规则的讨论与致谢将不会影响得分。不允许其他任何形式的合作——尤其是与已经完成作业的同学“讨论”。

本课程将对剽窃行为采取零容忍的态度。在完成作业过程中,对他人工作(出版物、互联网资料、其他人的作业等)直接的文本抄袭和对关键思想、关键元素的抄袭,按照 ACM Policy on Plagiarism的解释,都将视为剽窃。剽窃者成绩将被取消。如果发现互相抄袭行为, 抄袭和被抄袭双方的成绩都将被取消。因此请主动防止自己的作业被他人抄袭。

学术诚信影响学生个人的品行,也关乎整个教育系统的正常运转。为了一点分数而做出学术不端的行为,不仅使自己沦为一个欺骗者,也使他人的诚实努力失去意义。让我们一起努力维护一个诚信的环境。

Assignments

Lectures

  1. 课程简介
  2. 概率空间
    • 阅读:[BT] 第1章
  3. 随机变量 (Rev 1)
  4. ‎偏差和矩 (Rev 2)
    • 阅读:[MU] Chapter 3
    • 阅读:[BT] 章节 2.4, 4.2, 4.3, 5.1
  5. 连续分布
  6. 极限定理
    • 阅读:[BT] 第5章
    • 阅读:[GS] Sections 5.7~5.10, 7.1~7.5

Concepts