19 Matching Annotations
  1. May 2023
    1. recommendations, object detection, image classification, image similarity activity classification

      建议, 对象检测, 图像分类, 图像相似度 活动分类

    1. 定义问题 寻找解决方案 任务分解 重组 自动化实现

      说起来bit by bit这种分而治之的思想,我自认为是第一次接触编程(CS50)时最大的收获,不仅贯穿了之后的cs学习,而且也对很多现实问题的解决提供了指导思想。 刚刚突然想起来老师的这本书就叫bit by bit,何尝不是某种缘分呢!

    1. Publish on Github Pages

      关于GitHub Pages的部署,我已经成功地进行了如下指令:

      1.pip install ghp-import

      2.!jupyter nbconvert --to html 02-2.ipynb (我的本地仓库目录结构是:CC/lesson/02/02-2 其中02-2目录下面有_site,02-2ipynb,izakku.jpg这三个文件,而_site目录下有02-2.html一个文件)

      3.!ghp-import -n -p -f _site(命令行回复:To github.com:Alanlaye/CC.git 9df5ad8..690e649 gh-pages -> gh-pages)

      当我试图打开链接https://Alanlaye.github.io/02-2/02-2.html

      网站返回404: There isn't a GitHub Pages site here. If you're trying to publish one, read the full documentation to learn how to set up GitHub Pages for your repository, organization, or user account.

      我刚刚看了下我的GitHubCC仓库的gh-pages分支,我发现里面有两个文件:02-2.html, .nojekyll 我已经尝试重新用git commit --allow-empty -m "Trigger rebuild" git push命令来触发重新构建,也清理过浏览器缓存,但还是404,这是为什么呢?

    2. 运行C代码

      我的gcc似乎不能加中文,过不了编译

      也不能加注释似乎会把注释也视作指令所以报错

    1. NumPy /SciPy for scientific computing pandas to make Python usable for data analysis matplotlib to make graphics scikit-learn for machine learning

      1.NumPy /SciPy用于科学计算 2.pandas使Python可用于数据分析 3.Matplotlib来制作图形 4.用于机器学习的Scikit-learn

    1. 驱动计算传播的数据主要来自于人类使用数字媒体时记录下来的数字痕迹(digital traces)

      数字痕迹——用户行为:用户属性数据、行为数据

    2. 评估每一个网页内容的传播价值,而完成这一目标根本方法就在于计算。反过来经过计算的所得到的搜索结果质量更高,传播效果更好。

      谷歌pagerank算法中的计算与传播

    3. 计算传播是指数据驱动的、借助于可计算方法所进行的传播过程,而分析计算传播现象的研究领域就是计算传播学(王成军, 2015)。

      概念

    4. 第一章 计算传播学简介#

      关于这一讲想明白的几个观点:什么是计算传播? ——计算传播是指借数据驱动、借助可计算方法所进行的传播过程,分析这种计算传播现象的研究领域就是计算传播学,计算传播学是计算社会学的一个分支,也是计算传播产业的发展。 ——计算传播产业的几个重要方向有:数据驱动的新闻生产、计算广告和媒体推荐系统——新的信息把关模式

      关于可计算性? ——可计算性是计算传播的基础,最著名(通俗)的可计算性问题是理发师悖论;将其抽象化有罗素悖论、希尔伯特可判定性问题以及哥德尔不完备定理;而停机问题解决了希尔伯特判定问题,通用图灵机理论(可计算模型)也应运而生——也就是能用编程语言写出来并运行的都是可计算函数,这是计算机领域的可计算性

      传播学可计算化的基础? ——传播学可计算化的基础是人类传播行为的可计算性。通过对人类使用数字媒体留下的数字痕迹进行分析与建模,收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理; ——而传播学可计算化的基础依赖于两个条件:数据和计算方法。

    5. 计算传播学作为一个研究领域,更加重视对于数据本身的使用,但是需要强调的是数据只是起点。通过数据挖掘,发现人类传播行为的模式才更有意义。从数据到模式的跨越,衡量了计算传播学研究的发展阶段。

      从数据到模式的跨越

    6. Big Data Doing data science Beginning Python Networks, crowds, and Markets

      推荐书籍

    7. “计算传播学是计算社会科学的重要分支。它主要关注人类传播行为的可计算性基础,以传播网络分析、传播文本挖掘、数据科学等为主要分析工具,(以非介入的方式)大规模地收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理,可以被广泛地应用于数据新闻和计算广告等场景”。

      王成军老师对计算传播学的定义

    8. 计算传播是指数据驱动的、借助于可计算方法所进行的传播过程,而分析计算传播现象的研究领域就是计算传播学(王成军, 2015)。一方面,计算传播学的提出是计算传播产业发展的自然结果;另一方面,计算传播学(computational communication research)是计算社会科学(computational social science)浪潮当中的一个重要分支。

      计算传播学的定位:计算传播(一种现象);计算传播产业(一种产业);计算社会学(一种社会科学派别); 计算传播学是指分析计算传播现象的社会科学;是计算社会学的分支,是计算传播产业的发展

    9. Analyzing and logically organizing data Data modeling, data abstractions, and simulations Formulating problems such that computers may assist Identifying, testing, and implementing possible solutions Automating solutions via algorithmic thinking Generalizing and applying this process to other problems

      1.分析和逻辑组织数据 2.数据建模、数据抽象和模拟 3.提出问题,使计算机可以提供帮助 4.识别、测试和实现可能的解决方案 5.通过算法思维自动化解决方案 6.将此过程推广并应用于其他问题

    10. 图灵停机:你能用编程语言写出来并运行的都是可计算函数

      !(这部分可以再仔细查查资料准备准备)软工1的第一讲就是可计算性与可计算模型:罗素悖论——希尔伯特判定问题——停机问题(程序的可判定性)——通用图灵机

    1. The first lesson of Web-scale learning is to use available large-scale data rather than hoping for annotated data that isn’t available. For instance, we find that useful semantic relationships can be automatically learned from the statistics of search queries and the corresponding results– or from the accumulated evidence of Web-based text patterns and formatted tables– in both cases without needing any manually annotated data.

      web规模学习是指利用互联网上海量的数据来进行机器学习的方法。这段话的意思是,web规模学习的一个重要原则是尽量利用已有的大规模数据,而不是期待获得人工标注的数据。人工标注的数据是指有人为每个数据样本添加一些额外的信息,例如类别、属性、关系等,以便于机器学习算法使用。但是人工标注的数据往往成本高、效率低、数量少,而且可能存在主观性和不一致性的问题。

      这段话举了两个例子来说明如何利用已有的大规模数据来进行web规模学习。第一个例子是从搜索查询的统计数据和相应的结果中自动学习有用的语义关系。语义关系是指词语之间的意义上的联系,例如同义词、反义词、上下位词、部分整体词等。搜索查询和结果中包含了大量的用户和网页提供的信息,可以反映出词语之间的语义关系。例如,如果一个查询中包含了“苹果”这个词,而结果中出现了“iPhone”、“MacBook”、“iPad”等词,那么就可以推断出这些词和“苹果”有一种品牌和产品的语义关系。通过统计分析搜索查询和结果中出现的词语和它们之间的共现频率,就可以自动地学习到很多有用的语义关系,而不需要人工标注数据。

      第二个例子是从基于web的文本模式和格式化表格的累积证据中学习有用的语义关系。文本模式是指一些固定的词语搭配,例如“X是Y的首都”、“X和Y是同义词”等,它们可以表达出一些语义关系。格式化表格是指一些按照一定结构和规则排列的数据,例如“国家-首都-人口”、“品牌-产品-价格”等,它们也可以表达出一些语义关系。互联网上有很多这样的文本模式和格式化表格,它们可以提供很多关于词语之间语义关系的线索。例如,如果在一个文本模式中出现了“北京是中国的首都”,那么就可以推断出“北京”和“中国”有一种首都和国家的语义关系。如果在一个格式化表格中出现了“苹果-iPhone-699美元”,那么就可以推断出“苹果”和“iPhone”有一种品牌和产品的语义关系。通过累积分析互联网上的文本模式和格式化表格中出现的词语和它们之间的匹配情况,就可以自动地学习到很多有用的语义关系,而不需要人工标注数据。

      总之,这段话的意思是,web规模学习应该充分利用互联网上已有的大规模数据,而不是寄希望于人工标注的数据。这样可以提高学习效率、降低学习成本、增加学习范围、提高学习质量。

    2. Big Data and whole data are not the same. Without taking into account the sample of a data set, the size of the data set is meaningless. For example, a researcher may seek to understand the topical frequency of tweets, yet if Twitter removes all tweets that contain problematic words or content – such as references to pornography or spam – from the stream, the topical frequency would be inaccurate. Regardless of the number of tweets, it is not a representative sample as the data is skewed from the beginning.

      大数据和全数据不一样。如果不考虑数据集的样本,数据集的大小是没有意义的。

    1. 另外,我想感谢Github平台对于本书和相关课程起到了非常重要的作用。为便于教学,课程中使用的所有Jupyter Notebook形式的代码、数据、图片均通过Github完整的记录下来并对所有人开放。借助于nbviewer平台,读者可以非常便利地查看所有的Jupyter Notebook,并在幻灯片和代码两种模式中自由切换。当然,实现这一结果的基础是所有的Jupyter Notebook存储在Github平台上。本书的电子版本也通过Github Pages展现。每次更新的结果,均通过Github进行更新。每年开设两次相关课程使得本书所涉及到的内容可以迅速迭代。”苟日新,又日新“。聚沙成塔,集腋成裘,古人诚不我欺也。

      JupyterNoteBook

    2. JupyterBook