You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

17 KiB

Raw Permalink Blame History Unescape Escape

07 | 专利创新的步伐不必迈得特别大

你好，我是林外。

在上节课，我们是通过一个典型的专利案例，一起了解了在面对生活中的常见问题的时候，我们都可以怎么把它变成专利。那在今天这节课，咱们会继续通过对比专利文书和专利交底书，来拆解两个授权案例，一起了解和学习真实的专利撰写和申请到底是怎么进行的，我们的专利创新的来源究竟是怎么找到的。

案例二：身临其境的视频会议

我在2015年底内部提交了这个专利，然后在2016年，这个专利就正式被国家知识产权局受理了，而且在4年以后也得到了正式授权。这个专利可以说是我最满意的作品之一，它也让我在2017年，荣获了当时公司的年度十佳专利。

这个专利主要是描述了这样一个问题场景：我们在现实的工作场合中，遇到需要很多人一起开会的话，相对会比较简单，因为我们的耳朵自带对音色、音质的判断，同时我们还能区分声音的来源，所以我们不用看着这个人，也能通过声音方向，来识别具体是谁在说话。

然而，在线上的虚拟会议中，这个就变得非常困难了，因为我们收到的所有声源都是一样的，所以我们只能通过已知的人物音色特点，或者是通过查看来判断到底是谁在说话，而这样就无形间加大了我们会议的难度。

当然，在今天这个时节，你可能会联想到元宇宙这个概念，它就能解决这个问题。2021年，扎克伯格在介绍元宇宙中的会员场景的时候，就提到了这段话：

你可以清晰地听到，这个人是从你的左边发出声音，还是右边发出声音，就像平时你们线下一起开会一样。

这里提到身临其境的会议状态，实际上就是我这个专利的核心作用。而且在那个时候，我基本就可以笃定，为了实现这个效果，大家必然会使用这个专利方法，几乎是绕不开的。

所以接下来呢，你可以就根据这个场景，拿着自己的解决方案，跟我一起来看看这个专利在解法上，我跟你的见解会有哪些不一样的地方。

名称对比

首先，我们还是来看看这个发明创意在专利文书和专利交底书中，针对关键术语的阐述上具体有啥区别。

专利文书的名称：一种基于多人远程通话的音频数据处理方法及装置
专利交底书里：一种在多人视频或音频会话中的声音显示优化

可以发现，我自己撰写的专利名称跟最后的文书材料名字就已经非常接近了，只是代理人把“视频或音频”抽象成了“远程通话的音频”。

核心思路和示意图对比

好，下面我们就来看一下专利文书中的关键内容具体讲了什么。

专利背景技术：

现在我们知道，这一段的描述都会比较法律文书化，它的含义和我们前面提到的意思其实是一致的。我们用一句话解释就是：用户在虚拟会议中，比如远程视频条件下，由于听众的现有系统（第二终端）并不区分不同说话者（第一终端）的来源，所以无法构建立体感，从而使得虚拟会议的体验不如现场会议效果。

随着信息技术的发展，终端上的通讯功能越来越丰富，用户不仅可以使用通讯功能与其他用户进行文字交互（如：用户之间相互发送即时通讯消息），还可以实现用户之间远程的音频、视频通讯(如：多人电话会议、视频会议等)。

~~ 中间部分省略 ~~

但是，在多个用户进行包含音频的通讯的场景下，对于第二终端所接收到的任一第一终端发送的音频数据而言，该第二终端各声道所输出的该音频数据的输出参数均一致，这样难以反映出实际的多人通话场景，尤其在目前现实增强的趋势下，模拟现实的交互场景已成为通讯的发展方向之一，显然，现有技术中的语音通讯方式与实际的通话场景并不相符。

摘要：

文书里的专利发明内容一般来说专业性会相对较强，所以这里我主要是选取了摘要部分的内容，我们一起来看下。

本申请公开了一种基于多人远程通话的音频数据处理方法及装置。

第二终端接收若干第一终端发送的音频数据，分别确定各第一终端相对于该第二终端的方位，针对任一第一终端，根据确定出的该第一终端相对于该第二终端的方位，确定该第一终端对应的音频播放参数，音频播放参数用于调节音频数据在第二终端自身的各声道中的播放效果，根据生成的所述音频播放参数，在第二终端自身的各声道中播放所述音频数据。

这里的音频播放参数就决定了音频数据在第二终端的各声道中的播放效果，从而，第二终端将根据该第一终端的音频播放参数，在自身的各声道中以不同的播放效果播放该音频数据，较符合实际的通话场景。

OK，看完了背景技术和摘要之后，我们再对比一下专利交底书的内容。

专利交底书核心逻辑：

获取音频通话中，不同角色的音频信息。

云端或者接收终端的音频处理模块，给不同角色分配多种不同音量播放策略，让听众能识别出会议中的不同角色，会从不同方向传播声音。

比如：当角色 A 在音频中发出声音，就向听众播放 A 的播放策略，制造空间感；左耳 100% 音量，右耳 0% 的音量。

专利交底书示意图：

同样，在核心逻辑的基础上，我为整个方案做了一个详细的示范。这里你需要注意的是：示范的目标，是让代理人和知识产权局的人能理解其市场价值和技术方案的可行性，避免被打上空中楼阁的错误印象。

从图中可知，当有 A、B、C、D、E 五个角色进入到会议时，系统会将五个角色匹配 5 种不同的播放策略，比如：

当 A 说话的时候，其他听众左耳通道的扬声器 100% 播放，而右耳实现 0% 播放，这样大家会觉得 A 在大家的最左边；

当 B 说话的时候，其他听众左耳通道的扬声器 75% 播放，而右耳实现 25% 播放，这样大家会觉得 B 在大家的靠左边；

依次对其他角色进行操作；

最后，当 E 说话的时候，其他听众左耳通道的扬声器 0% 播放，而右耳实现 75% 播放，这样大家会觉得 E 在大家的最右边。

可替代方案：

第一，示意图的音量策略只是示意，其中，左右耳的音量比例可以非线性变化。同时，当播放终端只有一个声音通道时，使用正常播放的降配方案。

第二，系统的音量分配机制，可以是随机处理，包含依据入会顺序；也可以是根据实际听众和说话者的物理位置，进行映射。

第三，播放策略，可以包括对音量的参数操作，也可以实现对音色、音调的操作，从而构建真实感。

创作背景

其实，我之所以产生申请这个专利的想法，是因为在2012年我第一次参与的远程视频会议。当时我是在南京的一家设计公司实习，经常需要和上海的同事一起交流讨论。有次，我们要一起开线上会议，非常巧的是，我们上海的两位同事，声音和说话的样子都很像，这就让我们南京的同事非常尴尬了。我们得非常努力地区分这会儿是谁在讲话，就以至于有几次，我们不得不打断他们：现在是谁在说话呀。

所以后来，我就自己先去对比了线下会议和线上会议的区别，我发现，这种情况其实很少出现，因为就算是我低头看手机，我也能通过声源的方位，来判断是谁在说话，而不是努力通过音色、音调来识别。

而再后来，我是看到了美国著名的吉他制造商Gibson的直接知觉论之后，更加清晰地了解了人的特质：人类有视觉、听觉、味嗅觉、触觉和基础定位这 5 种感官。而传统的视频，只会使用视觉和听觉两种通道，从而忽视了其他通道，尤其是基础定位的能力。

所以你看，一个想法的产生和解决，是需要一个很长的周期的。我们可以多关注生活中的各种细节，尤其是让自己各种不爽的问题，把它记录下来。在未来的某个时间中，它会和我们脑海中的新知识进行结合，从而就能产生一个更好地解决方案。

案例三：活色生香的文字编辑

这个专利是来源于我在蚂蚁的时候所支持的业务设计，当时我正在负责一款文档协同软件的设计，这块产品在原来的公司内部是非常受欢迎的。它实际上是一种业务型的专利，这个类型在我前期的专利撰写过程中，数量占比是很高的，可以达到 50% 左右。

主要原因有几个：一个是这类的专利申请，非常符合业务老大的诉求，在内部审批中有优势；而另一个原因，就是除了生活体验作为创新源泉，我们的工作内容，其实也是创新的主要源泉。所以，你如果要申请自己的第一个专利，我觉得从工作中寻找灵感，就是非常容易的。

这个专利讲的内容也非常简单，是我们当时对编辑器的一个优化：当用户选择一种形式的模态之后，比如使用加粗模式，那整个编辑态的模态，就是通过状态栏，或者是已经输入的字符来确定，而我们发现，有时候光标会缺少前馈控制来进行暗示和变化。

不知道你在使用文档类产品的时候，会不会也发现有部分光标会跟随模态进行变化，比如说，光标会跟随斜体模态，变成“/”状态。但是，当时我们整体行业对于这个微交互，是缺乏系统定义和标准化实现的。

所以这个专利，就是去系统性地补上行业缺口的。

名称对比

我们同样也先来看看，这个发明创意在专利文书和专利交底书中的名称对比。

专利名称：一种显示状态调整方法、装置及设备
交底书名称：一种会根据输入类型（加粗、变色、斜杠）变换光标类型

所以还是那句话，专利文书或者说专利的名称，相对于交底书来说，会更加抽象和宽泛，我们需要把整个范围扩展到显式状态。

核心思路和示意图对比

专利背景技术：

这部分呢，主要是翻译专利交底书的背景内容，比如说对文档编辑器现有的不足，提出了体验和效率上的疑义，这里主要是为了我们的发明内容的展开，打下调研基础。你可以观察下我具体是怎么描述的。

随着网络技术和终端技术的不断发展，应用程序成为人们日常生活和工作中不可或缺的工具，人们可以通过应用程序进行文字编辑，也可以是通过应用程序进行网页编辑等。

通常，在文档编辑中，为了丰富文档的表现形式，办公应用或网页设计工具等文档编辑工具中会设置多种格式，文档格式是呈现文档内容的重要部分，能够影响到文档的最终展示效果，通过不同的文档格式，使得文档处于相应的编辑状态下，以编辑该文档。

然而，文档编辑工具并没有对上述编辑状态进行有效前馈，也就是说用户只有在输入字符或选择字符后才能看到对应的编辑效果，而无法知晓当前处于正常的文档编辑状态，还是某种特殊的文档编辑状态下，从而使得文档编辑状态的前馈不直观，进而可能会导致用户进行反复操作和试验，降低了文本输入的效率和用户体验。因此，在文档编辑领域，需要一种对文档编辑状态进行实时有效前馈的技术方案。

专利发明摘要：

因为这个发明是一个现有产品的体验细节优化，所以在摘要和专利部分也都不难解释，核心部分也并不难懂。这个其实也是我见过最直接、最简单的专利摘要。

本说明书实施例公开了一种显示状态调整方法、装置及设备，所述方法包括：当检测到目标文档处于目标编辑状态时，获取所述目标编辑状态对应的光标呈现状态；将光标在所述目标文档中的显示状态调整为所述光标呈现状态。

好，那在看完背景技术、摘要之后，我们也再来对比一下专利交底书的内容。

专利交底书核心逻辑：

建立编辑系统的模态状态栏和光标状态的映射关系，包含：大小，颜色，加粗，形变等。

当用户选择对应的模态时候，系统自动将光标切换成对应的状态，比如：用户选择红色模态，那么光标实现红色状态。

专利交底书示意图：

那么，你可以发现，示意图里的内容就是演示编辑器处于加粗模式下，光标对应的显示状态。当然了，这只是一个举例，如果有必要的话，我们再可以补充光标变色、斜体等不同的状态。

然而，在实际的专利交底书中，我们其实并不需要穷举所有的实现方案。就像我在前面说过的，我们示意图的最终目标，是让代理人和知识产权局的审核人明白，这个发明是有实际的市场应用可能性和技术可行性的，并不是空中楼阁。

可替代方案：

第一种，所涉及模态类型，包括：字体大小，各类颜色，倾斜、加粗等形变，以及质感变化的视觉变化。

第二种，模态可以独立出现，也可以相互叠加显示，比如：加粗+变红。

第三种，光标显示和系统模态对应方案，可以由系统预设，也可以由第三方编辑。

你可以看到，在这次的替代方案中，我是从参数维度的视角，组合了“或”的维度，然后从常见的使用场景出发，补充了所能想象到的漏洞。

创作背景

这个专利的来源，其实就是我工作的日常部分，同时我也实话说，在这上面我其实参考了很多竞争产品的实现方案。在这个过程中，我发现了现有技术不完整的部分，并且发现图形编辑器在这个技术上，比如说 Adobe 系列的产品在光标处理上，就做得非常完整，像是PS的各个模态，就会使用不同类型的光标来提示用户。

所以，图形编辑器上各类成熟的技术和经验，我们就可以移植到文本编辑器上，这算是一种创新经验迁移。

你可能在看到这里的时候，会想：这不就是把不同领域的优化，移植到自己的产品上吗？这个创新的步伐迈得也太小了吧。是的，这个创新步伐并不大。因为大部分我们可以落实到工作上的创新，步伐也都不太大。

在我们这个领域，有一个专门的术语叫做微创新。但是，微创新也是创新，现有的大部分的实际工作，确实只是在做微创新。所以说，我希望能通过这个案例，抛砖引玉，让你在撰写工作专利的时候，可以放下负担、轻装前行。

小结

这节课我讲的两个专利，其实正好是我们专利创新的两大源泉：第一个视频会议优化，实际上是我们在生活中的小发现；而后面的编辑器优化，就是我们在工作中的微优化。

那么，从生活中发现问题，实际上是我们保持创新精神很重要的一个支柱，这个在人才发展中，就叫做捕获差异性的能力。这里呢，我也给你分享一个很有用的小技巧，就是我们可以用最简单的方式，去记录生活中的好细节或者差细节，好细节，往往是我们可以写专利的地方，而差细节，是我们可以进行创新迁移的地方。

而且，从工作中发现问题，是公司内部审批最喜欢的方式，也是部门老大最喜欢的方式。我们在工作中针对通用技术的一些极限情况，或者是通用技术和业务场景的结合，就是最容易产出专利的地方。

思考题

今天讲的两个案例，一个是从我多年来的生活体验出发，另一个是从工作中的微优化出发。那么我要留的思考题也是关于这两个方面，你可以任选其中一个作答：

你有没有什么一直想优化的生活问题呢？
你在工作中，有哪些没那么酷，但又是踏踏实实优化的微创新呢？

欢迎在留言区分享你的答案和思考、表达你的意见，我们一起交流。

17 KiB Raw Permalink Blame History Unescape Escape

07 | 专利创新的步伐不必迈得特别大

案例二：身临其境的视频会议

名称对比

核心思路和示意图对比

创作背景

案例三：活色生香的文字编辑

名称对比

核心思路和示意图对比

创作背景

小结

思考题

17 KiB

Raw Permalink Blame History Unescape Escape