140 Matching Annotations
  1. Nov 2023
    1. 方法:

      基础介绍:

      考虑到现有模型还没有探索,什么样的Instruction数据集是更有效的,而且什么因素导致了好的Instruction data,暂未有人探索。 考虑到这些问题,作者探索什么是好的visual Instruction这个问题。基于这个目标,作者首先对现有的 visual Instruction set进行了评估,目标是发现关键因素。

      作者主要从task type和Instruction characteristic两个方面来评估。作者选择了六个典型的Instruction dataset,使用两个典型的BLIP2和MiniGPT-4来评估。根据实验结果,作者发现: 1. 对于task type,视觉推理任务对于提升模型的image caption和quetison answering任务很重要。 2. 对于Instruction characteristic,提升Instruction的复杂度更加有帮助对于提升性能,相比task的多样性,以及整合细粒度的标注信息。

      基于上述发现,作者开始构建复杂的视觉推理指令集用于改善模型。

      首先最直接的方法是通过chatgpt和gpt4来优化指令集,基于图像的标注。因为指令集跨跨模态的特性,LLMs可能会过于简单甚至包含本来图片中不存在的物体。 考虑到上述问题,作者提出了一个系统的多阶段的方法,来自动生成visual Instruction数据集。

      输入一张图,根据可以获得标注,caption或者object,作者采用了一种先生成,再复杂化,再在重组的pipeline来生成Instruction。具体的,作者首先,使用特殊的prompt指导prompt来生成一个初始指令。然后使用迭代的方式,复杂化-->验证的方式,来逐步提升Instruction的复杂程度,同时保证质量。最后,将Instruction重组成多种形式,在下游任务重,获得更好的适应性。

      前提条件:

      视觉指令收集:

      任务类型,之前的指令微调的数据集,都是利用带有标注的图片。主要包括一下三个任务类型: 1. Image Caption,生成文本描述 2. VQA任务:需要模型根据问题生成关于图片的回答 3. Visual reasoning:需要模型基于图片内容进行推理。

      为了研究任务类型的影响, 作者考虑一个最常用的指令微调数据集LLaVA-Instruct。作者将其划分成三个子数据集,LLaVA-Caption, LLaVA-VQA and LLaVA-Reasoning。

      指令特性: 指令的特性包括。 * 任务的多样性,已经有工作发现,提升工作的多样性,对于zero-shot能力是有帮助的。可以通过和不同的任务整合来获得此类能力。 * 指令的复杂程度,这是一个被广泛应用的策略,提升LLMs指令集的复杂程度。作者同样使用复杂的多模态做任务,例如,多跳的推理任务,来提升MLLMs的指令遵循能力。 * 细粒度的空间感知。对于MLLMs而言,感知细粒度的空间信息对图片中的特定物体,是必要的。基于这个目标。空间位置的标注可以包括在有文本的指令集中。

  2. Jun 2023
  3. Mar 2023
    1. 是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

      HDFS为文件系统

    2. HDFS是一个主/从(Mater/Slave)体系结构,由三部分组成: NameNode 和 DataNode 以及 SecondaryNamenode: NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。 DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个 DataNode 上存储多个副本,默认为3个。 Secondary NameNode 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。最主要作用是辅助 NameNode 管理元数据信息。

      HDFS结构

  4. Dec 2022
    1. 比起其他主题,自学数据库系统需要更多的付出。这是一个相对年轻的研究领域,并且出于很强的商业动机,研究者把想法藏在紧闭的门后。此外,许多原本有潜力写出优秀教材的作者反而选择了加入或创立公司。
  5. Oct 2022
    1. 那么作为一名工程师,或者技术管理者,如何去利用有限的时间去培养这些思维和能力呢?

      一是定目标的时候都尽可能量化。不要只是想着要 improve,enable,想想你具体 improve 了多少,enable 了什么。

      二是动手搭一些简单的 dashboards去追踪你的目标指标。这样你就能随时观测你离你的目标有多少,从趋势上知道你做那些事对你的目标有最大的帮助。

      三是保持一颗好奇心,看到设定好的数据有任何不是很理所当然的波动或者变化的时候,试着打破沙锅问到底,试试自己能不能去解读这些波动和变化。并且勤于动手去写一些简单的 SQL,知道数据的来龙去脉,知道每个数据的波动,其上游和下游可能受影响的数据还可能有哪些。

      另外,如果组里有一名数据分析师或者数据科学家,不要觉得只是各做各的事,尝试着更紧密的合作和沟通,学习一些简单的技巧和思路,加上你对系统的实现有很好的了解,等你能够熟练运用一些简单的数据技能的时候,就会发现对彼此的工作都会有很大的帮助。

    2. 最后的结果就是组里不论任何大小决定,都用数据说话,决策过程也变得很透明。

    3. 给我印象最深的,是第一次听他在公司做报告的时候引用的 Peter Drucker 的一句话:“If you can’t measure it, you can’t improve it.” 这句话在后来的工作中多次的被印证,而很多时候,及时有效的一个数据分析,可以帮我们找到正确的方向,做改进最省力的办法,以及时刻帮助我们了解项目或者产品的好坏。

    4. 首先就是对各种 bug,incident,或者系统漏洞处理的优先级排序。以前我遇到别人报了一个问题,第一反应就是凭直觉去判断这个问题是因为什么,好不好修,怎么修,以及引发的可能性会不会很大。现在每遇到一个问题,第一件事就是去 “measure it”,这个问题影响到的人可能有多少,给公司带来的损失是多少。每个小时每天新的影响有多大等等。每个 bug report 上都有这样的 SQL query 和数据,然后团队就根据切实的数据去决定哪些问题是急事,哪些可以稍微放一放。这样一来团队始终都可以做到把问题控制在最小,而且对于略推后的问题心里也十分有底会有多大的影响。

  6. Aug 2022
    1. 事务自动开启、提交或回滚,比如insert、update、delete语句,事务的开启、提交或回滚由mysql内部自动控制的
  7. Jul 2022
    1. 大数据分析/挖掘尽管重要,产品的信息化也十分重要,企业需要一个从大数据到大产品的进程。
  8. Jun 2022
    1. 所谓的关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。

      关系型数据库,是建立在【关系模型】基础上的数据库,借助【集合代数】等数学概念和方法来处理数据库中的数据。

  9. May 2022
    1. 购物车界面的业务逻辑拆分成了两部分: 接口部分:Cart 和 CalculateCart 是接口。变动相对来说不频繁。 实现部分:具体的 calcXszkPromotion,calcMemberPromotion 这些界面渲染方法

      利用依赖倒置,我们可以把 CalculateCart 定义在依赖关系的底层,由限时折扣,会员优惠这些 Git 仓库去做接口实现。

    2. 运营位是指给界面上留下固定的位置给运营来配置

      运营位,是指给界面上留下固定的位置,给运营来配置。

      把一个界面做成数据驱动的,哪些地方留了多大槽,可以配置什么东西。 营销玩法是无穷的,策略是天天变的,但营销位是相对来说变化不那么频繁的。

    3. 服务端数据集成的方式

      服务端数据集成的方式。 数据集成可以实现任意复杂的需求,是对需求形态限制最小的集成方式。

  10. Apr 2022
    1. 整体风格 :即把一个完整的应用当成一开发单元。 企业应用通常包含三个部分:客户端界面(由HTML、Javascript组成,使用浏览器进行访问)、数据库(由许多的表组件构成一个通用的、相互关联的数据管理系统)、服务端应用。服务端应用处理HTTP请求、执行领域逻辑、检索并更新数据库中的数据、使用适当的HTML视图发送给客户端。服务端应用是完整的 ---- 由单一的逻辑层次执行。系统中任务变更都会导到服务端的应用重新编辑并发布一个新的版本。     这样的整体服务是这样的构建系统的很自然的方式。虽然利用开发语基础特性会把应用封装成类、函数、命名空间,但是业务中所有逻辑都要在单一的进程中处理完成。 在某些场景中,开发者可能在的笔计本中开发、测试应用,然后利用部署通道来保证经过正常测试、发布的修改内容正确的发布的产品中。也可以使用横向扩展,通过负载均横系统将事个应用部署到多台服务器上。     整体风格的应用也是相当成功的,但是越来越多的人感觉到有点不妥,特别是在云中进行应用的发布 时。变更发布周期被绑定了 ---- 原来可以划分成小的应用、小的需要的变更,需要统一的进行编译和发布。 随着时间的推移,人们通常难于维护一种优美的模块化的结构,使得一个模块的变更很难不会影响到其它的模块。进行扩展,也需要进行整体的扩展,而不能根据进行部分的扩展。

      整体风格:把一个完整的应用,当成一开发单元。

      企业应用,通常包含三部分: 1》客户端界面(由 HTML、JavaScript组成,使用浏览器进行访问)、 2》数据库(由许多的表组件构成一个通用的、相互关联的数据管理系统)、 3》服务端应用。


      服务端应用处理 HTTP 请求、执行领域逻辑、检索并更新数据库中的数据、使用恰当的 HTML 视图发送给客户端。 服务端应用是完整的——由单一的逻辑层次执行。 系统中,任务变更都会导致服务端的应用重新编辑,并发布一个新的版本。

      整体风格,利用开发语言基础特性把应用封装成类、函数、命名空间,但业务中所有逻辑都是要在单一的进程中处理完成。

      开发、测试应用,利用部署通道保证经过正常测试,发布修改的内容。

      横向扩展,通过负载均衡系统,将多个应用部署到多台服务器上。

      整体风格,在云中进行应用发布时,变更发布周期被绑定了。原本可划分成小的应用、小的需求的变更,需要统一的进行编译和发布。

      人们难于维护一种优美的模块化的结构,使得一个模块的变更不会影响到其他的模块。

      要进行扩展,也需进行整体的扩展,而不能根据进行部分扩展。

  11. Feb 2022
    1. NoSQL 数据库的问题在于,随着时间的流逝,你的简单模型不可避免地变得越来越复杂,然后它不再起作用。在过去的十年中,我已经意识到使用 RDBMS 数据库基本上是100%的正确选择

      Hacker News 读者

      当没想清楚的时候尽量选择 RDBMS, 之后根据去调整.

    1. 每月最多只能免费处理 1TB 的数据。如果需要更多则必须每月至少支付 49 美元。1TB/月对于测试工具和个人项目可能绰绰有余,但如果你需要它来实际公司使用,肯定是要付费的。

      需要花钱。这让我有点退却。 https://www.terality.com/

  12. Nov 2021
    1. 2 HOMER     可再生能源互补发电优化建模 ( Hybrid Optimization Model for Electric Renewable,HOMER) 是由 NREL 资助开发的可再生能源混合发电经济-技术-环境优化分析计算模型,主要针对小功率可再生能源发电系统结合常规能源发电系统形成的混合发电系统进行优化。     HOMER 的优点在于其灵活的系统建模能力,能够对多种可再生能源、发电技术进行建模仿真,储能模型考虑了飞轮、蓄电池、液流电池以及氢储能。HOMER能够对并网型和独立型微电网系统进行建模仿真,支持基于全年 8 760 h 能量平衡仿真的系统容量优化以及参数灵敏度分析。其应用范围广泛,适用于不同规模的系统,目前已在城市、海岛、村庄、社区、住宅等规模下的可再生能源规划及电网优化设计中得到应用。此外,HOMER 还能提供不同系统配置下详细的经济分析结果,但不足是作为能源规划分析软件,没有对网络进行建模。

      并网和独立型微电网

  13. Sep 2021
    1. 由于人类活动的增加和城市化的加速,美国异常炎热的夜间温度越来越普遍。为了研究美国城市夜间低温气候趋势,纽约时报的数据记者绘制了从1960年以来的每日天气数据图表,这些数据来自美国近250个有持续天气记录的机场:在亚特兰大,被定义为“异常炎热”的夏夜最低气温自 1960 年以来增加了 8 倍

  14. Jun 2021
  15. Feb 2021
    1. We’re in the middle of a data revolution. Business processes everywhere are becoming digitized. Firms like Walmart and Target know exactly what you search for and what you end up buying. Other firms like ADP, Mastercard and FedEx are intimately involved in payrolls, transactions, delivery and every other stage of the commercial pipeline. And every single action that these firms take is recorded and stored for analysis. Human interactions are also becoming digitized. Social networks, instant messaging and web search paint a dynamic, real-time picture of what people are interested in and who they’re talking to. Again, every single action is recorded and stored for posterity. Smartphones are ubiquitous. This means an accurate location sensor, audio recorder, still/video camera, radio transponder and internet connection in every pocket. Almost no part of the world is outside the limits of cellular coverage. Cars and trucks now have embedded sensors, tracking position, velocity, traffic and much more. Satellites and GPS have gone from the preserve of the few (military) to the plaything of the many; imagery and position data are today a public good. As a result of these technological innovations, we are swimming in a sea of data. Yet this data would be meaningless if it weren’t for another, parallel advancement in the area of computation. Thanks to the relentless progress of Moore’s Law, we have the bandwidth to capture all this data, the memory to store it and the cycles to analyze it and extract commercial value from it. This capacity has transformed industries everywhere.

      所有的业务流程都在数字化。像 Walmart 和 Target 这样的公司可以精确地知道你在找什么,你最终会买什么。其他公司如 ADP、MasterCard 和 FedEx 等则深入参与到了薪酬、交易、交付,以及商业流程上的各环节。这些公司的每一个活动都为分析而记录和存储了下来。

      人与人之间的交互也正数字化。社交网络、即时通讯和网络搜索描绘了关于人们的兴趣和交谈对象的一幅生动、实时的图景。同样,每一个活动都为后世而记录和存储了下来。

      智能手机无处不在。这意味着在每个口袋里都有一个精确的位置传感器、录音机、摄影/摄像机、无线电应答机和互联网连接。几乎已经没有处于手机网络覆盖范围之外的世界了。

      汽车和卡车现在都已嵌入传感器,跟踪位置、速度、交通情况等。卫星和 GPS 已经从少数人的特权(军事)变成了大众的玩物;图像和位置数据是当今的公共利益。

      由于这些技术创新,我们被淹没在了一片数据的汪洋之中。然而,如果没有另一个计算领域的平行并进,这些数据将毫无意义。由于摩尔定律的不断推进,我们有足够的带宽采集这些数据,有足够的内存来存储,周期性地进行分析,并从中提取商业价值。

    2. And companies will evolve to make use of all this data. Today, for every Amazon or Target that runs a rigorous program of data collection, analysis and action, there are dozens of companies that still operate by old-school rules. As time goes by, these firms will either adapt or become extinct. Either way, the future belongs to businesses that embrace the data revolution. This means that the amount of business data available to analysts will only continue to grow.

      所有的公司都将会学着来利用所有这些数据。现在,相对于每一个类似 Amazon 或 Target 那样,运行着严格的程序来进行数据收集、分析和行动的公司,仍有更多公司在用老式的规则运转。随着时间的推移,这些公司要么去适应,要么会消失。不管怎样,未来属于那些拥抱数据革命的公司。这意味着可供分析师使用的商业数据只会越来越多。

  16. Dec 2020
  17. Dec 2018