数据科学基础 (Fall 2024)
This is the webpage for the Foundations of Data Science (数据科学基础) class of Fall 2024. Students who take this class should check this page periodically for content updates and new announcements.
Announcement
- 因上课的同学太多,原教室无法容纳,从9月13日开始改为在西110上课。
- 因西110上课体验不太好,且已有部分同学退课,从9月29日开始重新回到西311上课。
- 9月20日修正了 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 1 的 [De Morgan’s Laws] 和 [[math]\displaystyle{ \sigma }[/math]-algebra] 的错误描述。
- 10月1日修正了 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 5 的 [Mutual independences] 的错误描述。
- 10月4日修改 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 3 的 [Symmetric 1D random walk (III)] 为选做题。没做出来不扣分。
- 10月11日添加了 数据科学基础 (Fall 2024)/Problem Set 2 中 Problem 1 的 [Cumulative distribution function (CDF)] 有关的定义,和 [Composing random variables] 有关的定义。
- 10月12日更新了已收到的第一次作业的名单。请同学们严格按照说明对文件进行命名,并使用邮件的附件提交作业,不要使用qq超大附件,它只是名字里带“附件”的网盘而不是附件,否则无法抓取到作业。仅抓取附件中以 "FA1.pdf" 结尾的文件。没有被抓取到作业的同学请联系助教重新提交。
- 11月1日上午的课调课到当天晚上9-11节(18:30-21:20),还是在西311。
- 因校运动会,11月8日的课程取消。
Course info
- Instructor :
- 尹一通:<yinyt@nju.edu.cn>,计算机学院 804
- 刘明谋:<lmm@nju.edu.cn>,南雍-东207
- Teaching assistant:
- Class meeting:
- 周五:9am-12pm,南雍-
西311西110西311
- 周五:9am-12pm,南雍-
- Office hour:
- 周四:6pm-8pm,南雍-东207(刘明谋)
- QQ群: 302709730(申请加入需提供姓名、院系、学号)
Syllabus
TBA
教材与参考书 Course Materials
- [BT] 概率导论(第2版·修订版),[美]伯特瑟卡斯(Dimitri P.Bertsekas)[美]齐齐克利斯(John N.Tsitsiklis)著,郑忠国 童行伟 译,人民邮电出版社(2022)。
- [MU] Probability and Computing: Randomization and Probabilistic Techniques in Algorithms and Data Analysis, by Michael Mitzenmacher, Eli Upfal; Cambridge University Press; 2nd edition (2017).
- [BHK] Foundations of Data Science, by Avrim Blum, John Hopcroft, and Ravindran Kannan; Cambridge University Press (2020).
成绩 Grading Policy
- 课程成绩:本课程将会有若干次作业和一次期末考试。最终成绩将由平时作业成绩和期末考试成绩综合得出。
- 迟交:如果有特殊的理由,无法按时完成作业,请提前联系授课老师,给出正当理由。否则迟交的作业将不被接受。
学术诚信 Academic Integrity
学术诚信是所有从事学术活动的学生和学者最基本的职业道德底线,本课程将不遗余力的维护学术诚信规范,违反这一底线的行为将不会被容忍。
作业完成的原则:署你名字的工作必须是你个人的贡献。在完成作业的过程中,允许讨论,前提是讨论的所有参与者均处于同等完成度。但关键想法的执行、以及作业文本的写作必须独立完成,并在作业中致谢(acknowledge)所有参与讨论的人。符合规则的讨论与致谢将不会影响得分。不允许其他任何形式的合作——尤其是与已经完成作业的同学“讨论”。
本课程将对剽窃行为采取零容忍的态度。在完成作业过程中,对他人工作(出版物、互联网资料、其他人的作业等)直接的文本抄袭和对关键思想、关键元素的抄袭,按照 ACM Policy on Plagiarism的解释,都将视为剽窃。剽窃者成绩将被取消。如果发现互相抄袭行为, 抄袭和被抄袭双方的成绩都将被取消。因此请主动防止自己的作业被他人抄袭。
学术诚信影响学生个人的品行,也关乎整个教育系统的正常运转。为了一点分数而做出学术不端的行为,不仅使自己沦为一个欺骗者,也使他人的诚实努力失去意义。让我们一起努力维护一个诚信的环境。
Assignments
- Problem Set 1 请在 2024/10/11 上课之前(9:00 UTC+8)使用邮件的附件功能提交到 pr2024_nju@163.com (文件名为'学号_姓名_FA1.pdf').
- Problem Set 2 请在
2024/10/182024/10/25 上课之前(9:00 UTC+8)使用邮件的附件功能提交到 pr2024_nju@163.com (文件名为'学号_姓名_FA2.pdf'). - Problem Set 3 请在 2024/11/1 上课之前(18:30 UTC+8)使用邮件的附件功能提交到 pr2024_nju@163.com (文件名为'学号_姓名_FA3.pdf').
- Problem Set 4 请在 2024/11/15 上课之前(9:00 UTC+8)使用邮件的附件功能提交到 pr2024_nju@163.com (文件名为'学号_姓名_FA4.pdf').
Lectures
- 课程简介
- 概率空间
- 阅读:[BT] 第1章
- 随机变量 (Rev 1)
- 阅读:[BT] 第2章
- 阅读:[MU] Chapter 2
- Volume of Hamming balls
- Average-case analysis of QuickSort
- 偏差和矩 (Rev 2)
- 阅读:[MU] Chapter 3
- 阅读:[BT] 章节 2.4, 4.2, 4.3, 5.1
- 连续分布
- 阅读:[BT] 第3章, 和4.1节 或 [GS] Chapter 4
- 阅读:[MU] Chapters 8, 9
- Measure, Integration & Real Analysis by Sheldon Axler
Concepts
- Interpretations of probability
- History of probability
- Example problems:
- Probability space
- Classical and goemetric probability
- Union bound
- Conditional probability
- Independence
- Random variable
- Random vector
- Some discrete probability distributions
- Balls into bins model
- Random graphs
- Expectation