当心你的手机正上演窃听风云
最近,有很多大的促销活动。所有家电企业都准备在年底收获好收成。
各种应用推广和产品推荐也都是24小时不间断的,所以我们应该保持干净的双手度过一个美好的一年。
这样一来,最大的受害者就是等待压岁钱的熊孩子。
他们不但没有钱,而且可能被长老空手掳走。年轻时,他们将承受命运的沉重打击。
当涉及到应用程序推送和产品推荐时,很多人都有恐慌的担忧。
APP到底有没有窃听我们?
这是怀疑你的应用程序正在向你录音。
你经常和人聊一件事,很快就会看到购物应用或搜索引擎、浏览器或应用等广告行业的相关广告,这让人很害怕,觉得你有一双神秘的眼睛看着你,很害怕。
怎么说,我觉得你的想象力太丰富了。这种猜测是有道理的,但既不是对的,也不是错的。
正确的是,我们的生活被各种精确的推动所占据。所有主要的应用程序都有一定程度的[猜测]行为,目的是让你付费。
错误的是,没人录你。
事实上,随着科技和大数据的发展到了这个程度,录音是一种非常低效的播放方式,而且音速不够快。
我们的高科技镰刀都是光速的。
录音来做信息采集不现实
为什么公司不使用录音来收集信息和推送广告呢?
并不是说一个商业公司的良心其实是一件很奇怪的事情。
这是一切的目的。广告推送的目的是追求转换率,最大化自己的利益,降低成本。卖方还需要看成本表现。
从成本效益的角度看,录音是一种低效率、低利润、高误码率、高成本的沙雕方案,没有人能做到。
大多数敢于尝试录音方案的朋克在投入产出失衡后破产,因此市场上很少看到完整的商业录音分析方案。当然,安全对投入产出和业务有不同的理解。
想想看。如果你想制定一个录制计划,首先你不能回避的是对应用资源的占用。对于应用程序来说,连续录制是一个很大的负担。因此,这款应用的运行效率低,耗电量和热量大大增加,运行起来就像吃一个香肠一样尴尬。
更重要的是,你如何保存录制的音频?本地预订?这个音频文件太大了,无法想象。一个应用程序将记录一天。最后,记录的文件会有几个g。有朋克用户可以直接查看你的源文件夹。一旦你找到录音,你可以等待铁拳的攻击。
在线传输?用户的流量很贵,当用户定期查看手机流量记录时,会发现一个应用消耗了大量流量,这不是视频或游戏应用,几分钟内就会曝光。
本地直接解决方案?只有文字?这是可行的,但最大的问题是,当竞争对手反编译安装包时,您需要小心。一旦你看到相关的代码和型号,内裤就不见了。
事实上,很少有互联网公司把复杂的模型放在本地,因为它们很容易被竞争对手直接破解;
如果使用云模型进行记录分析,流量消耗和网络稳定性将大大降低准确性。
从技术上讲,录音并不是一个合理的计划,不是说它做不到,而是要花很多钱。
这与道德无关。
为什么录音走不通?
如果录制只是为了打破很多东西,即使一件东西很容易使用,打破很多东西也不是大问题。
痛苦和幸福也是一种生活。
但这种记录方案最致命的问题是,在消耗大量资源后,准确率太高。
想想看。如果你的应用程序使用录音监控方案,第一个问题是区分谁在说话?手机的主人在说话吗?音源是个大问题。
想象一下,我走过你身边,大声喊我爱贾斯珀然后你打开手机,看到了贾斯珀的广告。你觉得它很沙雕吗?你认为我在性骚扰你吗?
在解决了录制谁的声音(声纹方案)的问题之后,您将遇到第二个问题,即语言识别的准确性。
我们的日常环境非常嘈杂,会有很多噪音,而且很多人的普通话不规范,机器无法有效识别,事实上,绝大多数方言,机器无法做任何事情来识别各种沙雕。
尤其是温州话,是魔鬼的语言。它可以在战争时代作为一种神奇的语言使用。
如果我们解决了语言的准确性问题,那么还有第三个问题,那就是音频实时语义识别。
目前,这一问题几乎没有得到解决,所有人工智能在音频实时语义识别方面都很容易成为智能障碍。
注意,我说的语义识别不是把你的单词翻译成单词。这不是很难。我说的是要真正理解你的语言的意思。
例如,“死鬼”这个词的意思是男人对女人说,男人对男人说,女人对男人说,男人对死去的人说。他们都有不同的意思,但他们都是死鬼。
人类对语义的理解是把特定的场景,甚至特定的说话人(同一个词,不同的人说它不是同一个意思)结合起来,这在现阶段的机器是不可能的。
不要说机器不能做到这一点,很多人不能,例如:灵活的工作系统=不要考虑按时下班,谁能忍受。
特别是APP录制需要快速记录人们在现实生活中快速出现的场景、未知的对话对象、未知的普通话非标准魔幻对话,并对其进行记录和分析,准确获取其中的含义。
如果任何一家公司真的有能力做到这一点,并作出一个屁推,这将是一个诺贝尔奖直接。
以上三个问题,我喜欢称之为录音方案的灵魂三个问题,而在这三个问题之上又有一个终极问题。
还记得我说大部分录音项目都破产了,还有一小部分,小部分去哪儿了?
其中一小部分是因为收集隐私和经济自由而被抓获的。毕竟,监狱不需要花钱。
触发录音采集信息容易吗?
当你读到这里时,你一定既意识到了又困惑了。
我意识到我真的不能被录下来。令我困惑的是为什么我说了些什么。之后,又有相关推送应用?
我告诉你吧。没有公司录音。这并不意味着没有公司使用声音来收集数据。
只是,收集数据的方式并不是你所认为的大规模记录监控,而是通过特定的关键字来唤醒。
例如,如果您使用苹果,您将[嗨,Siri]唤醒Siri功能。
如果你用小米,你会唤醒收藏。
事实上,许多应用程序推送使用了一个类似的方案,也就是说,它不记录你所说的话,也不分析你所说的话。只要你说一个特定的词,它就会被唤醒,但唤醒不是一个明亮的屏幕之类的,而是唤醒推送逻辑,将相关的项目推给你。
再来一颗栗子。如果它是一个外卖的应用程序,这种唤醒词汇可能包含奶茶,比萨饼,烤面包,Malatang,Hami melon的话。只要你说类似的话,你可能会醒来,并推动。
例如,对于OTA APP,这种唤醒词汇可能包含诸如[旅行]、[泰国]、[签证]、[旅馆]、[假日]之类的词语。只要你说类似的话,它就可能醒过来。
例如,在购物应用程序中,唤醒词库可能包含诸如口红、靴子、裙子、水果、笔记本等单词,只要你说出类似的词,你就可以唤醒它。
在每一个应用程序的词典中,可能有成千上万或甚至成百上千字,这些词汇基本上涵盖了你可能的消费场景。
很多很神奇的功能,就像被拆了一样,就像魔术一样。
一个唤醒脚本+叙词表的东西,如此神秘。
除了录音唤醒还有什么?
虽然词汇唤醒的逻辑是一个更实际的解决方案,但在实际的信息收集中,有更多的主流和有效的信息来让商家知道你是谁,以及如何向你推销东西。
你忽视的这些事情才是真正的关键。我会随便提两个简单的。
第一个是输入法。
谁知道你的一切?当然是输入法。
不要总是怀疑什么应用程序监视你的聊天记录。首先你需要怀疑的是你的输入方法是否已经出卖了你。
只要你输入,你不能隐藏的是输入方法,你输入什么内容和在哪里输入(搜索引擎?社交软件?地图?短信?卖方议价?),对输入方法是透明的。
更重要的是,你不难得到或分析你经常输入的单词和它们的意思。以上的语义分析对于纯音频很难实现,而纯文本语义分析是一种比较成熟的技术。
此外,使用所有输入方法的次数越多,就越能理解它们。那么,你怎么理解他们?
好好想想。
第二个是推送SDK。
什么是SDK?您可以将其理解为一个包,嵌入到应用程序中以执行特定模块的特定功能。
最流行的SDK是push SDK,它是手机接收的各种应用程序的推送消息。有一家专门的公司,把SDK嵌入到每一个主要的应用中,然后专门负责推送,这比自己的开发要好得多。而且,优质的SDK往往非常适合各种手机和应用的适配,所以一般的应用都是一个外部推送的SDK。
你手机上的30个应用可能都是同一家公司提供的push-sdk,所以对这家公司来说,你的手机基本上是透明的,很明显你会知道手机安装了哪些应用,用户最终使用了哪些应用,甚至用户对手机的应用轨迹和应用行为。
这些行为可以标记,然后打包。目前市场非常成熟。
推动sdk的国内巨头不超过5家(最大的只有3家),他们非常积极地向外界销售标签数据。
你看,当你知道输入法和SDK,你对世界的看法就会改变。
当你收到一个广告,你甚至可以分析哪一个卖给你。
是搜索引擎还是搜索引擎时使用的输入方法,还是监视移动应用程序活动的SDK,还是某些语言从同义词库开始?
很多人不知道他们被卖的时候是怎么被卖的。
猜猜是谁卖给你的很有趣。只是有点黑色幽默。
技术无罪!但是。。。。
本文只是简单介绍了流言的录制和最基本的信息采集渠道。有很多更隐蔽,甚至更富有想象力的方式,使用户画像通过逻辑交叉检查。一本书是可以写的。这本书的名字是“作者被大公司吊死殴打”。
数据采集、图像制作、广告推送技术和产品逻辑,这些东西其实并不是什么秘密,甚至有专门讨论广告推送逻辑原理和策略的技术书籍。
我承认技术是无辜的,但我也认为技术需要约束,或者技术背后的人需要约束。
在这个人人几乎透明的时代,我们实际上需要警惕所谓的大数据,也需要法律约束。
因为数据可以让生活更方便的同时,失控会造成灾难。
当我知道你所有的资料,在某种程度上,我比你更了解你,我就是你。
所以我们需要约束人们的行为,所以我们需要增加作恶的成本。
毕竟,人是复杂的,人性是自私的。
我不想有一天成为大数据的棋子。
恐怕设计的世界不再有趣了。