Hypothesis

11 Matching Annotations

May 2026
www.anthropic.com www.anthropic.com

https://www.anthropic.com/research/glasswing-initial-update

1
1. fxp007 22 May 2026
  
  in Public
  
  90.6% (1,587) have proved to be valid true positives, and 62.4% (1,094) were confirmed as either high- or critical-severity
  
  这两个百分比数据点(90.6%验证率，62.4%确认高危率)对于评估AI模型在安全漏洞检测中的可靠性至关重要。90.6%的验证率表明AI模型的误报率相对较低，这在AI安全领域是相当出色的表现。然而，62.4%的确认高危率意味着近40%的AI评估高危漏洞实际严重程度较低，这反映了AI在严重性评估上仍有改进空间。
  
  data-point accuracy-metrics ai-reliability
Visit annotations in context

Tags

data-point

ai-reliability

accuracy-metrics

Annotators

fxp007

URL

anthropic.com/research/glasswing-initial-update
Apr 2026
sakana.ai sakana.ai

https://sakana.ai/fugu-beta/

1
1. fxp007 30 Apr 2026
  
  in Public
  
  _Self-reported score with custom Anthropic scaffold._ SWEPro were evaluated with the mini-swe-agent scaffold. However, we use the scores reported by Anthropic for Opus with the max thinking efforts due to frequent timeouts during our evaluation trials.
  
  脚注2揭示了重要数据点：Opus 4.6的53.4分是Anthropic的自报分数，因为作者在评估过程中频繁遇到超时问题，无法自行验证。这表明性能比较中存在数据可靠性问题，特别是对于Opus的评估依赖于厂商自报数据，可能存在偏差。
  
  data-point evaluation-methodology data-reliability
Visit annotations in context

Tags

data-point

evaluation-methodology

data-reliability

Annotators

fxp007

URL

sakana.ai/fugu-beta/
Jan 2022
hackmd.io hackmd.io

Argument quality and fallacies - HackMD

1
1. cheyennechooi 17 Jan 2022
  
  in BehSci
  
  Argument quality and fallacies. (n.d.). HackMD. Retrieved January 17, 2022, from https://hackmd.io/@scibehC19vax/argumentquality
  
  is:article lang:en arguments fallacies argument quality norms standards self-contradiction inconsistency claim evidence vaccination debate factual error vaccine hesitancy ignorance source reliability ad hominem argument bias slippery slope causation statistical fallacies Simpson's paradox vaccine data
Visit annotations in context

Tags

bias

argument quality

vaccine data

is:article

ad hominem argument

self-contradiction

arguments

causation

statistical fallacies

source reliability

Simpson's paradox

vaccination debate

factual error

inconsistency

fallacies

evidence

lang:en

ignorance

claim

norms

slippery slope

vaccine hesitancy

standards

Annotators

cheyennechooi

URL

hackmd.io/@scibehC19vax/argumentquality
www.statnews.com www.statnews.com

Scientists try to pinpoint why rapid Covid tests are missing some cases

1
1. lucyparfitt16 16 Jan 2022
  
  in BehSci
  
  Scientists try to pinpoint why rapid Covid tests are missing some cases. (2022, January 6). STAT. https://www.statnews.com/2022/01/06/scientists-try-to-pinpoint-why-rapid-covid-tests-are-missing-cases/
  
  is:news lang:en COVID-19 rapid COVID test testing PCR reliability detection science Omicron antigen test nasal swab saliva test transmission sensitivity variant early symptomatic infection false negative data throat swab research
Visit annotations in context

Tags

variant

COVID-19

detection

Omicron

sensitivity

false negative

early symptomatic infection

is:news

reliability

PCR

nasal swab

throat swab

saliva test

transmission

science

data

research

lang:en

antigen test

rapid COVID test

testing

Annotators

lucyparfitt16

URL

statnews.com/2022/01/06/scientists-try-to-pinpoint-why-rapid-covid-tests-are-missing-cases/
Sep 2021
www.nature.com www.nature.com

The Venezuelan health-care workers secretly collecting COVID stats

1
1. forbriger 03 Sep 2021
  
  in BehSci
  
  Taylor, L. (2021). The Venezuelan health-care workers secretly collecting COVID stats. Nature, 597(7874), 20–21. https://doi.org/10.1038/d41586-021-02276-1
  
  is:news lang:en COVID-19 health care Venezuela government suppresion data reliability research network
Visit annotations in context

Tags

suppresion

COVID-19

data

health care

Venezuela

reliability

is:news

government

lang:en

research

network

Annotators

forbriger

URL

nature.com/articles/d41586-021-02276-1
Dec 2020
leighblackall.blogspot.com leighblackall.blogspot.com

No LMS - an argument for when your institution comes to reviewing their Learning Management System

1
1. michael_rowe 10 Dec 2020
  
  in Public
  
  I haven't met anyone who makes this argument who then says that a one stop convenient, reliable, private and secure online learning environment can’t be achieved using common every day online systems
  
  Reliable: As a simple example, I'd trust Google to maintain data reliability over my institutional IT support.
  
  And you'd also need to make the argument for why learning needs to be "private", etc.
  
  data reliability data integrity privacy
Visit annotations in context

Tags

data reliability

data integrity

privacy

Annotators

michael_rowe

URL

leighblackall.blogspot.com/2016/06/no-lms-argument-for-when-your.html
Aug 2020
psyarxiv.com psyarxiv.com

Statements about the Pervasiveness of Behaviour Require Data about the Pervasiveness of Behaviour

1
1. ErikStuchly 14 Aug 2020
  
  in BehSci
  
  Speelman, C., & McGann, M. (2020). Statements about the Pervasiveness of Behaviour Require Data about the Pervasiveness of Behaviour [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/bxzm4
  
  is:preprint lang:en pervasiveness behavioral science research reliability validity research practice metascience statistics inference generalization scientific theory data analysis
Visit annotations in context

Tags

generalization

metascience

statistics

inference

research practice

validity

reliability

research

lang:en

behavioral science

is:preprint

pervasiveness

scientific theory

data analysis

Annotators

ErikStuchly

URL

psyarxiv.com/bxzm4/
Jun 2020
psyarxiv.com psyarxiv.com

Reliability Multiverse

1
1. katietaylor_99 27 Jun 2020
  
  in BehSci
  
  Parsons, Sam. ‘Reliability Multiverse’, 26 June 2020. https://doi.org/10.31234/osf.io/y6tcz.
  
  is:preprint lang:en analytic flexibility statistics effect sizes p values data processing decision making reliability measur multiverse analysis splithalf accuracy response time stroop task flanker task internal consistency test-retest arbitrary unpredictable heterogeneity error
Visit annotations in context

Tags

splithalf

flanker task

data processing

arbitrary

effect sizes

test-retest

error

measur

reliability

multiverse analysis

heterogeneity

analytic

statistics

unpredictable

flexibility

decision making

lang:en

internal consistency

is:preprint

response time

accuracy

stroop task

p values

Annotators

katietaylor_99

URL

psyarxiv.com/y6tcz/
www.reddit.com www.reddit.com

r/BehSciResearch - some questions about 'what-if' modelling

1
1. edampf 19 Jun 2020
  
  in BehSci
  
  DaveLagnado on Reddit
  
  is:blog COVID-19 lang:en Reddit modeling what-if government policy decision making intervention response expert advice data information reliability discussion behavioral change
Visit annotations in context

Tags

advice

information

COVID-19

behavioral change

reliability

modeling

Reddit

discussion

expert

policy

intervention

data

is:blog

what-if

decision making

government

lang:en

response

Annotators

edampf

URL

reddit.com/r/BehSciResearch/comments/fshec8/some_questions_about_whatif_modelling/
May 2020
psyarxiv.com psyarxiv.com

Causal explanations, error rates, and human judgment biases missing from the COVID-19 narrative and statistics

1
1. edampf 07 May 2020
  
  in BehSci
  
  Fenton, N., Hitman, G. A., Neil, M., Osman, M., & McLachlan, S. (2020). Causal explanations, error rates, and human judgment biases missing from the COVID-19 narrative and statistics [Preprint]. PsyArXiv. https://doi.org/10.31234/osf.io/p39a4
  
  is:preprint COVID-19 lang:en infection healthcare symptom screening data bias decision making diagnostics assessment judgment testing PCR reliability classification knowledge gaps medicine error rate
Visit annotations in context

Tags

bias

assessment

COVID-19

reliability

PCR

error rate

screening

diagnostics

classification

infection

medicine

data

knowledge gaps

decision making

symptom

lang:en

judgment

is:preprint

healthcare

testing

Annotators

edampf

URL

psyarxiv.com/p39a4/
Apr 2020
psyarxiv.com psyarxiv.com

Improving the Utility of Non-Significant Results for Educational Research

1
1. edampf 30 Apr 2020
  
  in BehSci
  
  Edelsbrunner, P. A., & Thurn, C. (2020, April 22). Improving the Utility of Non-Significant Results for Educational Research. https://doi.org/10.31234/osf.io/j93a2
  
  is:preprint lang:en competence model equivalence testing framework misinterpretation non-significant results research data analysis education policy theory practice reliability
Visit annotations in context

Tags

practice

data analysis

competence model

reliability

research

lang:en

education

framework

is:preprint

non-significant

theory

equivalence testing

results

policy

misinterpretation

Annotators

edampf

URL

psyarxiv.com/j93a2/