用PROMPT識別個人信息,包含年齡、位置、性別甚至收入等

研究人員利用AI分析 Reddit 上的帖子,直接通過用戶的寫作方式就能夠準確地識別其年齡、位置、性別甚至收入等個人信息。

瑞士蘇黎世聯邦理工學院的Robin Staab和Mark Vero讓九個LLMs分析Reddit帖子數據庫,從用戶的寫作方式中提取身份信息。GPT-4以85%的總體準確率取得了最高成績。

他們隨機選擇了1500個活躍用戶的個人資料,然後將其縮減到520個用戶,對於這些用戶,他們能夠自信地識別出出生地、收入檔次、性別和位置等屬性,無論是在他們的個人資料還是帖子中。

當給定這些用戶的發帖歷史時,一些LLMs能夠高度準確地識別出這些屬性。GPT-4以85%的總體準確率取得了最高成績,而相對低功率的LLM LlaMA-2-7b的準確率最低,為51%。Staab表示:「這告訴我們,我們在互聯網上無意中洩露了很多個人信息。

許多人可能不會認為你可以直接從他們的寫作方式推斷出他們的年齡或位置,但LLMs是相當有能力的。」 有時,個人詳細信息會在帖子中明確說明。例如,一些用戶在有關財務建議的論壇中發佈他們的收入。但是,一些特徵對AI來說比其他特徵更容易辨識。

GPT-4在猜測性別方面的準確率為97.8%,而在收入方面的準確率僅為62.5%。 英國薩里大學的Alan Woodward表示:「我們才剛剛開始理解LLMs的使用可能如何影響隱私。」 詳細報道:https://newscientist.com/article/2400514-ais-can-guess-where-reddit-users-live-and-how-much-they-earn/

Scroll to Top