Word侦探:科学可能帮助手指意见专栏作家
华盛顿(美联社) – 语言侦探表示,撰写匿名“纽约时报”评论文章的关键线索可能并不是奇怪而闪烁的“lodestar”,而是人们通常读到的那些非常简单的词:“我,“”和“但是”。“
和lodestar?一些专家说,这可能是一个红色的鲱鱼,意味着将侦探扔掉。
专家使用语言使用,统计和计算机科学的组合来帮助确定谁编写了匿名或可能抄袭的文档。他们甚至以这种方式解决了犯罪和历史谜团。有些人称之为法庭语言学,有些人称之为测量学,或者只是做“作者归属”。
一名身份不明的“高级政府官员”在“泰晤士报”上写道,他或她是政府内部遏制特朗普最危险冲动的“抵抗”运动的一部分后,该领域突然处于中心位置。
杜肯大学计算机和语言科学家帕特里克·朱拉说:“我的手机已经响应了要求进行分析,我只是没有时间。”
霍普斯特拉大学语言学教授罗伯特伦纳德曾通过检查语言来帮助解决谋杀问题,他表示,如果专家能够从身份已知的官员那里获得正确数量的写作样本,“当然可以进行分析”。
一位政治科学家认为特朗普政府中约有50人符合“泰晤士报”作为高级行政官员的描述,可能是作者。专家说,关键在于看他们如何写作,他们使用的单词,他们彼此相邻的单词,拼写,标点符号甚至时态。
“语言是一组选择。怎么说,怎么说,何时说,“尤拉说。 “还有很多不同的选择。”
Juola和其他专家最喜欢的技术之一是查看所谓的“功能词”。这些是人们一直使用的词,但很难定义,因为它们更多地提供功能而不是意义。一些例子是“of”,“with”,“the”,“a”,“over”和“and”。
“我们都使用它们,但我们不会以同样的方式使用它们,”Juola说。 “我们不会以相同的频率使用它们。”与撇号和其他标点符号相同。
例如,你说伊利诺伊理工学院的计算机科学和数据专家Shlomo Argamon是“不同于”还是“不同于?”。
Argamon说,女性倾向于更多地使用第一人称代词和第二人称代词 – “我”,“我”和“你” – 以及更多的现在时态。
他说,男人更常使用“这个”,“一个”,“这个”和“那个”。
“你寻找线索,你试图评估这些线索的有用性,”Argamon说。但他并不乐观,因为各种原因将破解特朗普的意见案例,包括“纽约时报”对风格的编辑以及用其他人喜欢使用的词汇来愚弄语言侦探的可能性,例如“lodestar”。大多数情况下,他是悲观的,因为要进行适当的比较,必须收集所有嫌疑人的样本并且必须相似,例如所有意见专栏,而不是小说,演讲或杂志故事。
德雷塞尔大学的雷切尔格林斯塔特研究人们试图用他们通常不使用的词语或有目的的不良拼写来甩掉调查人员。她说,她的第一直觉是“lodestar”这个词 – 一位副总统迈克·彭斯多次使用过 – 是“红鲱鱼”。这似乎太刻意了。
霍夫斯特拉的伦纳德说:“大多数人仍在寻找像lodestar这样的声音大小的功能,而不是试图掌握整个画面。”
格林斯塔特说,语言分析“可能有助于形成”撰写“纽约时报”观点的人物,但她补充说“我自己会担心使用它”。
尽管如此,在合适的条
Juola在大约15次审判中作证,并处理了更多从未将其告上法庭的案件。他最大的案例发生在2013年,当时一家英国报纸得到一条提示,罗伯特加尔布雷思的“杜鹃的召唤”这本书真的是哈利波特作家JK罗琳写的。大约一个小时后,Juola用两个罗琳书,“杜鹃的召唤”和其他六部小说进入他的计算机,用四种不同的系统分析语言模式,并得出结论,罗琳做到了。
几天后,罗琳承认。
这是语言使用第一次触发真正的罪魁祸首。 Unabomber的兄弟因为他独特的写作风格而认出了他。现场开拓者帮助寻找绑架者,他们在人行道和道路之间的草地区使用了独特的术语“魔鬼带”。该短语仅用于俄亥俄州的部分地区。
即使在政治方面,扑克也是如此。 1996年,关于Clintonesque总统候选人的小说“原色”让华盛顿热衷于弄清楚谁是匿名作家。 Vassar教授和其他工作的分析指向了新闻周刊的Joe Klein,他终于承认了这一点。
但文学的调查可以追溯到共和国的建立。历史学家很难弄清楚亚历山大·汉密尔顿写的哪些特定的联邦党人文章,以及詹姆斯麦迪逊撰写的文章。 1963年的一项统计分析发现:许多线索中的一条归结为使用“while”和“while”这两个词。麦迪逊使用“while”;汉密尔顿喜欢“同时”。
Juola说,该领域的专家一般可以告诉外向者,女性,女性,教育水平,年龄,地点的内向,几乎所有东西,但占星术。
“科学非常好,”尤拉说。 “这不是DNA。一些科学家实际上认为它是我们所拥有的第二种最准确的法医鉴定形式,因为它非常好。“