心血来潮,我尝试分析了我的浏览器记录,发现了一点点“不得了的”事情。
TL;DR
- 我有 411k 访问记录,只有 27k 主动访问,占比仅 5%
- 我竟然访问过 63 个 Google 提供的服务
- Open Source in https://github.com/ThaddeusJiang/history_analytics
正文:
首先,分析的数据来自我的 Arc Browser,我从 2023 年开始使用 Arc Browser 作为主力浏览器,之前的数据在 Brave Browser 中,我这次没有分析旧的浏览器记录。
我分析了 411,345 条访问记录,其中包含 100,585 URLs 和 27,687 次主动访问;虽然我感觉自己已经很久没有访问 Google 搜索了,但是从数据上看 Google 依然是我使用最多的搜索引擎,占全部访问量的 7.23%。
哈哈哈 和我的记忆有一点点出入。
在我全部访问记录里,访问量最大的服务/域名依次是
- github.com
- google.com
- localhost
- twitter.com
- ...
GitHub
从数据上看,一共访问 GitHub 92,340 次,查看过 2,271 Repositories。最近工作的 repository 访问量一骑绝尘,接下来就是我的个人项目了。
排除 Personal and Work Projects,我访问最多的 open source repositories 分别是
- epic-stack
- ex_doc
- conform
- blues-stack
- zed
- react-google-maps
- ...
其中 ex_doc, surface, ex_gram 是 elixir 生态。很高兴自己越来越多的使用 elixir 了。
我一共访问 Google 相关服务 78,999 次,让我感到震惊的是我竟然使用了 Google 63 种网络服务,🤯
我甚至不知道 Google 有这么多服务,😂
Localhost
localhost 没什么可说的,作为程序员,访问多很合理。
3000 是 JS web frameworks 常用的端口,8000 系是 server 常用端口。
一共访问 Twitter 21,953 次,其中主动访问 2,304 次。
我分析了我常关注的推油,我看过 1,327 位推油的推文, 最常关注的依次是 yihong0618, mieisgood, disksing, nishuang 等。
其实 Twitter 数据很有意思,有时间的时候,我还想知道自己访问 twitter 的月度次数,星期分布,时间分布等等。
Others
在分析浏览记录时,我意识到对于大多数网友或者程序员来说,可能大家访问 top10 的服务都大同小异。或许去除最最常见的服务,top 11~20 才能反映出大家的不同。
我的 top 11 ~ 20
- notion.so
- vercel.com
- www.aier.com
- datadoghq.com
- accounts.google.com
- atlassian.net
- fly.io
- youtube.com
- remix.run
- openai.com
最后
遇到的几个小问题:
1. Chromium 系列浏览器 History 使用 SQLite 存储浏览记录,使用自增主键,导致合并不同浏览器的记录不方便,容易出现主键关联错误。
所以,我没有暂时没有合并我的多个浏览器的历史记录。
2. SQLite 默认不支持 RegExp,处理 URL 麻烦。
所以,我使用 pgloader 将 SQLite 导入到 PostgreSQL 才进行分析。
3. 通过 Metabase UI 编写 Questions 生成的查询代码难以阅读。
所以,我是编写 SQL 来分析。SQL 对 developer 友好;UI 对一般用户友好。
我使用的工具: