MyException - 我的异常网
当前位置:我的异常网» Sql Server » 相干文章 的实现方法

相干文章 的实现方法

www.MyException.Cn  网友分享于:2013-12-25  浏览:2次
相关文章 的实现方法。
例如,我现在有一个网站 ,有 1000万条文章数据。

通过文章标题,找出每个文章的相关文章。

我想问问大家这个怎么实现。

-------------------------------------------------
我想了一个实现方法是这样的。

先把文章标题进行分词。

例如:我爱我家的装潢 (分成:我爱,我家,的,装潢 )

然后把每一个词建一个表,表里只有一个文章ID字段,

create table 我爱(
id int //文章ID
)
create table 我家(
id int
)

查询相关文章的时候。

select * from (
(select * from 我爱 )
union
(select * from 我家 ) group by id as rank
) order by rank desc limit 0,10

词是中文的,我想把中文加密成MD5值,当表名用,不过又怕MD5值重复。
这个怎么解决。

我是菜鸟。。。
-------------------------------------
------最佳解决方案--------------------
文章表(id,title,content,...)
关键词表(id,keyword)
关联表(articleid,keywordid) --一个文章有多条记录
try:
select * from 文章表 where id in(
select articleid   --查关联文章ID
from 关联表 a
where exists(select 1 from 关联表 where keywordid=a.keywordid and articleid=12345)--此为当前文章ID
group by articleid
having count(*)>=5 --关联词至少5篇
)

------其他解决方案--------------------
MD5加密是不会重复的。
------其他解决方案--------------------
MD5加密是有重复值的,虽然几率不是太高.

楼主这种设计太特别了,一般不这样处理的.
建一个关键词表,录入所有可能用到的关键词.
在文章表中添加一个关键词ID列表的字段,或者单独建一个文章关键词关联表,然后根据所给的文章标题从这个字段或表中找出关键词有较多相同的记录,这些记录的文章,就是你所要的相关文章.
------其他解决方案--------------------
哦,按照你说的这种方法, 1000W数据的话, 每个文章十个关键字, 文章关键词关联表 这个表就要有一亿条数据了,这个表查询的时候效率 不会有问题吧, 查询的时候 SQL怎么写速度最快啊。
------其他解决方案--------------------
其实很失误,我用的是mysql,本来要发到 mysql区,没想到发错地方了。

不过我相信大家也因该都懂。。。
------其他解决方案--------------------
引用:
其实很失误,我用的是mysql,本来要发到 mysql区,没想到发错地方了。

不过我相信大家也因该都懂。。。


数据库设计是一样的.

因为你有这样的需求,所以不能光从要保存多少数据来讨论,如果你用其他方法,或许保存的数据少一点,可是,执行效率可能会大打折扣,那还不如稍多保存一些数据.
再说了,这种方法应该是标准的处理方法,如果用其他方法,或许不单单执行效率差,而且数据还会有更多冗余,比如说把关键词直接保存到文章表中.
------其他解决方案--------------------
引用:
因为你有这样的需求,所以不能光从要保存多少数据来讨论,如果你用其他方法,或许保存的数据少一点,可是,执行效率可能会大打折扣,那还不如稍多保存一些数据.
再说了,这种方法应该是标准的处理方法,如果用其他方……


嗯,非常谢谢你说的这种方法。

还有你说的这种方法,查询的时候怎么查询。
是这样写吗?
select * from (select * , count(article_id) as rank from  table where keyword_id in (1,2,3,4,5,6) group by article_id ) as a order by  rank desc 

不知道还有没有别的方式。

只要大家提供方法,稍后我弄一个模拟环境,测试一下速度就知道了, 呵呵。

------其他解决方案--------------------
TB(ID,标题,文章内容).用全文检索去查询标题,根据权重来确定那一篇文章才是最接近查询关键字的。

文章评论

程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
那些争议最大的编程观点
那些争议最大的编程观点
10个调试和排错的小建议
10个调试和排错的小建议
我的丈夫是个程序员
我的丈夫是个程序员
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
我是如何打败拖延症的
我是如何打败拖延症的
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
总结2014中国互联网十大段子
总结2014中国互联网十大段子
旅行,写作,编程
旅行,写作,编程
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
如何成为一名黑客
如何成为一名黑客
程序员和编码员之间的区别
程序员和编码员之间的区别
老程序员的下场
老程序员的下场
为什么程序员都是夜猫子
为什么程序员都是夜猫子
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
漫画:程序员的工作
漫画:程序员的工作
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
鲜为人知的编程真相
鲜为人知的编程真相
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
每天工作4小时的程序员
每天工作4小时的程序员
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
程序员应该关注的一些事儿
程序员应该关注的一些事儿
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
一个程序员的时间管理
一个程序员的时间管理
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
代码女神横空出世
代码女神横空出世
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
编程语言是女人
编程语言是女人
中美印日四国程序员比较
中美印日四国程序员比较
程序员都该阅读的书
程序员都该阅读的书
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
程序员必看的十大电影
程序员必看的十大电影
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有