数据科学基础 (Fall 2024)

From TCS Wiki
Jump to navigation Jump to search
数据科学基础
Foundations of Data Science
Instructor
尹一通
Email yinyt@nju.edu.cn
office 计算机学院 804
刘明谋
Email lmm@nju.edu.cn
office 南雍-东207
Class
Class meeting Friday, 9am-12pm
南雍-西311
Office hour Thursday, 6pm-8pm
南雍-东207
Textbook
概率导论(第2版·修订版)
Dimitri P. Bertsekas and John N. Tsitsiklis
郑忠国 童行伟 译;人民邮电出版社 (2022)
Probability and Computing (2E)
Michael Mitzenmacher and Eli Upfal
Cambridge University Press (2017)
Foundations of Data Science
Avrim Blum, John Hopcroft, Ravi Kannan
Cambridge University Press (2020)
v · d · e

This is the webpage for the Foundations of Data Science (数据科学基础) class of Fall 2024. Students who take this class should check this page periodically for content updates and new announcements.

Announcement

  • 因上课的同学太多,原教室无法容纳,从9月13日开始改为在西110上课。
  • 因西110上课体验不太好,且已有部分同学退课,从9月29日开始重新回到西311上课
  • 9月20日修正了 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 1 的 [De Morgan’s Laws] 和 [[math]\displaystyle{ \sigma }[/math]-algebra] 的错误描述。
  • 10月1日修正了 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 5 的 [Mutual independences] 的错误描述。
  • 10月4日修改 数据科学基础 (Fall 2024)/Problem Set 1 中 Problem 3 的 [Symmetric 1D random walk (III)] 为选做题。没做出来不扣分。
  • 10月11日添加了 数据科学基础 (Fall 2024)/Problem Set 2 中 Problem 1 的 [Cumulative distribution function (CDF)] 有关的定义,和 [Composing random variables] 有关的定义。
  • 10月12日更新了已收到的第一次作业的名单。请同学们严格按照说明对文件进行命名,并使用邮件的附件提交作业不要使用qq超大附件,它只是名字里带“附件”的网盘而不是附件,否则无法抓取到作业。仅抓取附件中以 "FA1.pdf" 结尾的文件。没有被抓取到作业的同学请联系助教重新提交。
  • 11月1日上午的课调课到当天晚上9-11节(18:30-21:20),还是在西311。

Course info

  • Instructor :
  • Teaching assistant:
    • 周灿:📧 仙林校区计科楼北栋426
    • 陈弘毅:📧 仙林校区计科楼北栋426
    • 冯昱达:📧 仙林校区计科楼北栋426
    • 丁天行:📧 仙林校区计科楼北栋426
  • Class meeting:
    • 周五:9am-12pm,南雍-西311 西110 西311
  • Office hour:
  • 周四:6pm-8pm,南雍-东207(刘明谋)
  • QQ群: 302709730(申请加入需提供姓名、院系、学号)

Syllabus

TBA

教材与参考书 Course Materials

  • [BT] 概率导论(第2版·修订版),[美]伯特瑟卡斯(Dimitri P.Bertsekas)[美]齐齐克利斯(John N.Tsitsiklis)著,郑忠国 童行伟 译,人民邮电出版社(2022)。
  • [MU] Probability and Computing: Randomization and Probabilistic Techniques in Algorithms and Data Analysis, by Michael Mitzenmacher, Eli Upfal; Cambridge University Press; 2nd edition (2017).
  • [BHK] Foundations of Data Science, by Avrim Blum, John Hopcroft, and Ravindran Kannan; Cambridge University Press (2020).

成绩 Grading Policy

  • 课程成绩:本课程将会有若干次作业和一次期末考试。最终成绩将由平时作业成绩和期末考试成绩综合得出。
  • 迟交:如果有特殊的理由,无法按时完成作业,请提前联系授课老师,给出正当理由。否则迟交的作业将不被接受。

学术诚信 Academic Integrity

学术诚信是所有从事学术活动的学生和学者最基本的职业道德底线,本课程将不遗余力的维护学术诚信规范,违反这一底线的行为将不会被容忍。

作业完成的原则:署你名字的工作必须是你个人的贡献。在完成作业的过程中,允许讨论,前提是讨论的所有参与者均处于同等完成度。但关键想法的执行、以及作业文本的写作必须独立完成,并在作业中致谢(acknowledge)所有参与讨论的人。符合规则的讨论与致谢将不会影响得分。不允许其他任何形式的合作——尤其是与已经完成作业的同学“讨论”。

本课程将对剽窃行为采取零容忍的态度。在完成作业过程中,对他人工作(出版物、互联网资料、其他人的作业等)直接的文本抄袭和对关键思想、关键元素的抄袭,按照 ACM Policy on Plagiarism的解释,都将视为剽窃。剽窃者成绩将被取消。如果发现互相抄袭行为, 抄袭和被抄袭双方的成绩都将被取消。因此请主动防止自己的作业被他人抄袭。

学术诚信影响学生个人的品行,也关乎整个教育系统的正常运转。为了一点分数而做出学术不端的行为,不仅使自己沦为一个欺骗者,也使他人的诚实努力失去意义。让我们一起努力维护一个诚信的环境。

Assignments

Lectures

  1. 课程简介
  2. 概率空间
    • 阅读:[BT] 第1章
  3. 随机变量 (Rev 1)
  4. ‎偏差和矩 (Rev 2)
    • 阅读:[MU] Chapter 3
    • 阅读:[BT] 章节 2.4, 4.2, 4.3, 5.1
  5. 连续分布

Concepts