勒西科技日报

谷歌推出Veo 3、Imagen 4和AI电影制作工具Flow；
深度学习即应用拓扑学；
表情符号的困境（2022）；
Gemma 3n预览：专为移动端打造的高效AI；
Litestream重大升级：为SQLite注入云原生能力；

以上是今天的前五条黑科技新闻标题。

总共25条，具体内容您往下读…

1. 谷歌推出Veo 3、Imagen 4和AI电影制作工具Flow

🔗 blog.google: Veo 3 and Imagen 4, and a new tool for filmmaking called Flow

🔥🔥: 563 | 💬: 325 | 🗓️ 2025-05-20

谷歌DeepMind发布新一代生成式媒体模型：Veo 3支持视频与音频同步生成，具备真实物理效果和精准口型同步；Imagen 4提升图像细节与排版能力，支持2K分辨率；Flow整合多模型实现电影级叙事控制。同时，Lyria 2为音乐创作提供实时生成工具，所有输出均含SynthID水印以标识AI内容。这些工具现已面向部分用户开放，旨在赋能创作者高效实现创意。

2. 深度学习即应用拓扑学

🔗 theahura.substack.com: Deep Learning Is Applied Topology

🔥🔥: 393 | 💬: 159 | 🗓️ 2025-05-20

本文探讨了深度学习与拓扑学的深刻联系。拓扑学研究空间变形下的不变性质，而神经网络通过矩阵运算（线性代数）本质上是在高维空间中扭曲数据流形，使其可分。例如，图像和词语均可视为高维流形上的点，神经网络通过调整流形结构实现分类或翻译。嵌入向量将概念映射为数学对象，支持”国王-男人+女人=女王”等运算。当前AI训练（如指令微调、RLHF）可视为在推理流形上向更优区域移动，而强化学习（如Deepseek R1）尝试直接优化推理路径。最终，一切数据皆存在于某种流形之上，而AI的核心能力正是发现并利用这些隐式拓扑结构。

3. 表情符号的困境（2022）

🔗 artofproblemsolving.com: The emoji problem (2022)

🔥🔥: 320 | 💬: 60 | 🗓️ 2025-05-20

该博客来自AoPS社区的Turtle Math板块，讨论了表情符号在现代通信中的挑战。文章指出，虽然表情符号能丰富表达，但也存在加载问题和跨平台兼容性差异，导致用户体验不一致。作者呼吁开发者关注这些技术缺陷，以提升数字化交流的流畅性。

4. Gemma 3n预览：专为移动端打造的高效AI

🔗 developers.googleblog.com: Gemma 3n preview: Mobile-first AI

🔥🔥: 287 | 💬: 101 | 🗓️ 2025-05-20

谷歌推出Gemma 3n预览版，这是一款基于全新架构的开源模型，专为手机、平板和笔记本等移动设备优化。通过与高通、联发科等厂商合作，该模型实现了低内存占用（动态内存仅2GB/3GB）和快速响应（速度提升1.5倍），支持多模态交互（文本、图像、音频及视频）。其创新技术如Per-Layer Embeddings显著降低RAM需求，同时提供多语言增强和隐私优先的本地化处理。开发者可通过Google AI Studio或AI Edge工具提前体验，为Android和Chrome平台构建实时智能应用。

5. Litestream重大升级：为SQLite注入云原生能力

🔗 fly.io: Litestream: Revamped

🔥🔥: 284 | 💬: 58 | 🗓️ 2025-05-20

Litestream是一款开源工具，通过将SQLite数据库变更实时同步到对象存储（如S3），使其具备灾难恢复能力。此次升级融合了其衍生项目LiteFS的核心技术：

LTX文件格式实现高效时间点恢复，通过事务感知的压缩机制减少冗余数据回放；
利用对象存储的条件写入功能替代Consul，实现无依赖的单一写入者保障；
新增轻量级只读副本支持，通过SQLite虚拟文件系统直接从云端获取数据。

此次改进还支持批量同步数千个数据库，并有望为AI代码代理提供数据回滚基础能力。

6. 谷歌AI至尊版发布：最强AI订阅计划上线

🔗 blog.google: Google AI Ultra

🔥🔥: 277 | 💬: 292 | 🗓️ 2025-05-20

谷歌推出Google AI Ultra订阅服务，提供最高级别的AI模型访问权限和高级功能，包括Gemini深度研究、Veo 3视频生成早期体验及Flow电影制作工具。该计划面向开发者、创意人士等高端用户，月费249.99美元（首三月5折优惠）。同时，Google AI Pro用户将免费升级，获得Flow工具和Chrome版Gemini早期访问。此外，部分国家大学生可免费使用AI Pro一学年。

7. 90s.dev：一款基于浏览器的复古游戏开发工具

🔗 90s.dev: Show HN: 90s.dev – Game maker that runs on the web

🔥🔥: 251 | 💬: 96 | 🗓️ 2025-05-20

开发者耗时数月打造了90s.dev，这是一个独特的网页端游戏开发平台，灵感源自《魔兽争霸》等经典游戏。其核心是一个320x180画布的API框架，支持TypeScript和WebGL2，可实现60帧游戏或像素艺术工具（如地图编辑器）。平台采用模块化设计，允许通过GitHub或NPM共享应用，并创新性地引入抽象视图和自动布局系统简化GUI开发。社区可协作扩展功能，未来计划支持更多第三方应用集成。

8. 从零实现一个简易搜索引擎

🔗 bernsteinbear.com: A simple search engine from scratch

🔥🔥: 245 | 💬: 51 | 🗓️ 2025-05-20

作者与Chris Gregory合作，基于word2vec词嵌入技术，用几小时搭建了一个博客搜索引擎。核心思路是将文章和查询词转换为300维向量（通过叠加各单词向量），再用余弦相似度排序结果。文中详细解释了向量距离计算、文本归一化处理，并演示了终端REPL和网页前端的实现。为优化网页性能，采用分块加载词向量文件（仅下载所需部分）。最后通过自制评估集测试搜索效果，验证了该方法的实用性。

9. 用Janet编写的Windows平铺窗口管理器

🔗 agent-kilo.github.io: Show HN: A Tiling Window Manager for Windows, Written in Janet

🔥🔥: 220 | 💬: 74 | 🗓️ 2025-05-20

Jwno是一款为Windows 10/11设计的高度可定制平铺窗口管理器，采用Janet语言开发，主打括号魔法操作体验（开发者保证“完全可控”）。支持管理Emacs框架、Sonic Pi等应用，并提供REPL交互窗口。当前文档仍在完善中，但已提供新手指南（功能、安装、教程）和进阶资源（参考手册、开发指南）。开源代码托管于GitHub/Chisel，用户可通过itch.io下载体验。注：部分文档链接可能暂不可用。

10. NSA选择器：将网络数据流转换为音频的Eurorack模块

🔗 github.com: The NSA Selector

🔥🔥: 213 | 💬: 60 | 🗓️ 2025-05-20

这是一款Eurorack模块，配备两个以太网接口和一个音频输出，可将网络数据流实时转换为音频信号。不依赖任何协议，直接截取原始比特流生成声音，支持创意应用如监听未加密图像传输（如.bmp文件）或游戏数据。模块内置4位DAC，采样率高达25MHz，需搭配低通滤波器使用。提供组装套件或成品，适用于实验音乐和网络艺术探索。

关键词：数据转音频、4位DAC、以太网监听

11. 为何美国长期存在贸易逆差？

🔗 libertystreeteconomics.newyorkfed.org: Why does the U.S. always run a trade deficit?

🔥🔥: 211 | 💬: 469 | 🗓️ 2025-05-20

美国贸易逆差的直接原因是出口未能匹配进口需求，但更深层因素在于国内储蓄不足，需依赖外资填补投资缺口。国民账户分析显示，逆差本质是储蓄与投资的宏观失衡：当国内储蓄不足以支撑投资时，需通过贸易逆差引入外资。数据表明，储蓄率长期低于投资占比，且家庭与政府储蓄常相互抵消。政策（如自由贸易协定）可能改变贸易结构，但只有调整储蓄或投资才能缩小逆差。尽管特定商品（如石油）逆差消失，整体逆差仍随储蓄缺口扩大。减少逆差需经历投资下降或储蓄提升的阵痛，如2008年金融危机后的调整。

12. 关于Deno消亡的报道言过其实

🔗 deno.com: Reports of Deno’s Demise Have Been Greatly Exaggerated

🔥🔥: 196 | 💬: 184 | 🗓️ 2025-05-20

近期针对Deno及其生态（如Deploy、KV、Fresh）的质疑被夸大。尽管部分批评合理（如沟通不足），但Deno实际发展强劲：Deno 2发布后用户数翻倍，Node兼容性提升显著。Deno Deploy正转型为全栈应用平台，优化区域部署策略；KV将保持测试版，未来重点整合计算与状态管理。团队承诺加强沟通，并透露多项新计划正在推进，包括JSR开源治理和TC39标准参与。Deno的目标始终是打造更完善的JavaScript开发生态。

13. 大语言模型在招聘决策中的系统性偏见：性别与位置偏好显著

🔗 davidrozado.substack.com: The behavior of LLMs in hiring decisions: Systemic biases in candidate selection

🔥🔥: 187 | 💬: 165 | 🗓️ 2025-05-20

研究发现，22种主流大语言模型（LLMs）在模拟招聘任务中普遍存在性别偏见，女性候选人被选中的概率比男性高13.8%（56.9% vs 43.1%）。即使简历资质完全相同，添加显性性别字段后偏见进一步加剧。实验还发现模型存在明显的位置偏见，63.5%的情况下优先选择提示词中排首位的候选人。值得注意的是，掩盖性别信息后偏见消失，但模型规模与偏见程度无显著关联。这些发现对当前企业宣称的”无偏见AI招聘工具”提出了质疑，凸显了高风险决策中AI部署的伦理风险。

14. AI的能源足迹：被忽视的隐形成本

🔗 technologyreview.com: AI’s energy footprint

🔥🔥: 154 | 💬: 159 | 🗓️ 2025-05-20

MIT技术评论揭示，AI行业的能源消耗远超预期。单个查询能耗虽小，但全球每日数十亿次请求叠加后，碳排放量惊人。训练GPT-4耗电相当于旧金山三天的用电量，而80%-90%的AI算力用于日常推理。科技巨头正斥巨资建设数据中心，甚至推动核电站项目，但能源来源仍以高碳为主。关键问题在于：企业拒绝公开能耗细节，导致监管与规划困难。若不改变，AI的能源需求或将在2028年占全美数据中心用电的一半。

15. 英伟达技术的崛起：从Sun到图形芯片霸主

🔗 blog.dshr.org: The Dawn of Nvidia’s Technology

🔥🔥: 146 | 💬: 52 | 🗓️ 2025-05-20

本文回顾了英伟达早期技术创新的关键细节，重点聚焦成像模型和I/O架构两大突破。作者作为Sun前员工，参与了英伟达初创阶段的技术决策：NV1芯片采用二次曲面片技术，通过减少数据传输量在PCI总线带宽限制下实现3D游戏流畅运行；而虚拟化对象架构（含软件资源管理器）则成为英伟达快速迭代芯片的“秘密武器”，允许硬件功能通过软件模拟实现。文章还揭示了英伟达从Sun继承的多进程与虚拟内存设计理念如何为其奠定技术优势，并最终在DirectX时代通过转向三角形建模存活下来。

16. Red：下一代全栈编程语言

🔗 red-lang.org: Red Programming Language

🔥🔥: 138 | 💬: 69 | 🗓️ 2025-05-20

Red是一种受REBOL启发的现代编程语言，旨在成为首个全栈语言，覆盖从系统编程到高级脚本的所有层级。其核心特点包括：人类友好语法、自包含工具链（仅1MB无依赖）、跨平台编译以及支持多种编程范式（函数式、响应式等）。Red还内置丰富的功能，如GUI系统、模式匹配宏和并行处理能力，同时保持低内存占用和高性能。

Red的愿景是提供一套语言构建工具集，而非单一语言，开发者可以用统一语法应对不同抽象层级的任务。自2011年发布以来，Red持续演进，目标是通过单文件工具链实现“一次编写，随处编译”的终极开发体验。

17. “.NET零分配LINQ库ZLinq发布”

🔗 neuecc.medium.com: “ZLinq”, a Zero-Allocation LINQ Library for .NET

🔥🔥: 129 | 💬: 44 | 🗓️ 2025-05-20

ZLinq是一个基于结构体和泛型实现的零分配LINQ库，支持Span、SIMD、文件系统等扩展场景，并兼容.NET Standard 2.0、Unity等多平台。其核心优化包括TryGetNext接口减少迭代开销、SIMD加速及内部迭代器设计，性能在多数场景超越标准LINQ。通过Source Generator可无缝替换现有代码，已通过9000项测试确保行为一致性。作者凭借多年LINQ开发经验（如linq.js、UniRx）实现了这一高性能方案。

18. 罗宾：自动化科学发现的多智能体系统

🔗 arxiv.org: Robin: A multi-agent system for automating scientific discovery

🔥🔥: 128 | 💬: 17 | 🗓️ 2025-05-20

该研究介绍了罗宾——首个能全流程自动化科学发现的多智能体系统。它整合文献检索与数据分析，自主生成假设、设计实验、解读结果并优化假设，形成“实验室在环”的迭代研究框架。该系统成功发现了一种治疗干性年龄相关性黄斑变性（dAMD）的新疗法，提出Ripasudil（一种从未用于dAMD的ROCK抑制剂）并通过RNA测序实验揭示了其作用机制与ABCA1基因的关联。所有研究环节均由罗宾独立完成，标志着AI驱动科学发现的新范式。

19. Gemma 3n预览版发布：专为移动端打造的高效AI

🔗 developers.googleblog.com: Gemma 3n preview: Mobile-first AI

🔥🔥: 128 | 💬: 1 | 🗓️ 2025-05-20

Google推出Gemma 3n预览版，这是一款基于全新架构的开源模型，专为手机、平板和笔记本等移动设备优化。通过与高通、联发科等厂商合作，该模型实现了低内存占用（动态内存仅2GB/3GB）和快速响应（速度提升1.5倍），支持多模态交互（文本、图像、音频和视频）及离线隐私保护。开发者可通过Google AI Studio或AI Edge工具提前体验，为Android和Chrome平台构建智能应用。

20. OpenAI Codex 实测体验：潜力与待完善的AI编程助手

🔗 zackproser.com: OpenAI Codex hands-on review

🔥🔥: 122 | 💬: 89 | 🗓️ 2025-05-20

作者试用OpenAI Codex后，认为其多线程任务并行处理的设计契合高效工作流，能通过自然语言快速发起多个代码维护任务（如文本修改、样式调整）。当前亮点包括GitHub仓库无缝对接、手机端操作支持，以及自动生成PR描述的功能。但存在明显短板：错误处理不稳定，复杂重构任务体验卡顿，且沙箱无网络连接导致依赖更新受限。尽管尚未带来颠覆性效率提升，作者看好其未来通过模型优化和分支管理改进，成为日常工作的核心调度工具。

21. Kubernetes原生分布式大模型推理框架llm-d发布

🔗 llm-d.ai: llm-d, Kubernetes native distributed inference

🔥🔥: 104 | 💬: 14 | 🗓️ 2025-05-20

llm-d是一个基于Kubernetes的高性能分布式大模型推理框架，旨在通过KV缓存感知路由和解耦式服务等优化技术，实现高效、低成本的规模化部署。它整合了vLLM引擎和Kubernetes工具链，支持多硬件平台（如NVIDIA GPU、TPU），并针对LLM推理的独特负载特性（如长尾延迟、多轮请求）设计了智能调度和自动扩展功能。用户可通过模块化架构快速部署，显著提升吞吐量（QPS）并降低首令牌延迟（TTFT）。现已开源，欢迎开发者参与社区共建。

22. Juvio：为Jupyter设计的UV内核工具

🔗 github.com: Show HN: Juvio – UV Kernel for Jupyter

🔥🔥: 101 | 💬: 22 | 🗓️ 2025-05-20

Juvio是一个依赖感知的Jupyter内核，通过内联依赖管理（PEP 723风格）和自动环境配置（基于uv工具）确保笔记本可复现性。它直接将依赖项保存在笔记本元数据中，无需额外文件，并通过脚本式格式（# %%标记）优化Git版本控制体验。用户只需安装Juvio并运行%juvio install命令，即可实现干净可追溯的协作开发。

23. 代码并非价值所在

🔗 jonayre.uk: The Value Isn’t in the Code

🔥: 98 | 💬: 55 | 🗓️ 2025-05-20

文章指出，软件开发的真正价值不在于代码本身，而在于团队协作、业务逻辑梳理和用户体验设计等环节。作者通过亲身实验证明，一个7人团队耗时6个月开发的项目，仅用两周就能凭借经验从零重建，且代码更精简高效。这印证了核心观点：代码可被快速替换，而解决问题的知识沉淀才是关键资产。最后提醒开发者应尊重前人的探索，而非盲目批判遗留代码。

24. 如果AI代理都搞不懂你的API，用户更搞不懂

🔗 stytch.com: If an AI agent can’t figure out how your API works, neither can your users

🔥: 96 | 💬: 49 | 🗓️ 2025-05-20

文章指出，AI代理（如LangChain、OpenAI工具）在调用API时的表现直接反映了API设计的清晰度。若代理因文档模糊、错误信息不明确或设计不一致而卡住，人类开发者同样会受阻。关键改进点包括：提供一致的API设计、编写详尽的文档，以及返回清晰的错误提示。优化这些方面不仅能提升AI代理的成功率，也能显著改善人类开发者的体验。AI代理的失败日志如同精准的用户体验测试，暴露出API设计的短板。

25. GPU驱动的集群前向渲染器：2.7万条龙与1万盏光的实时渲染

🔗 logdahl.net: GPU-Driven Clustered Forward Renderer

🔥: 95 | 💬: 24 | 🗓️ 2025-05-20

作者在高级计算机图形学课程中开发了一套GPU驱动的前向渲染器，采用集群着色技术，在GTX 1070上实现了1080p分辨率下2.7万条斯坦福龙模型和1万盏光源的60帧渲染。核心创新包括：通过间接多绘制调用减少CPU开销，将实体数据存储在连续GPU缓冲区中，并利用计算着色器进行视锥剔除与紧凑化处理。此外，集群着色通过将视锥体划分为空间簇，显著降低了片段着色阶段的无效光照计算。优化后的系统在125k对象剔除测试中仅需0.9ms，展现了高效的并行化策略。

勒西科技日报 - 2025年05月20日